Each language version is independently generated for its own context, not a direct translation.

오미-디퓨전 (Omni-Diffusion): 모든 것을 이해하고 만드는 '마법의 그림자 놀이'

이 논문은 인공지능이 글, 소리, 그림을 모두 한 번에 이해하고 만들어낼 수 있는 새로운 방법을 소개합니다. 기존의 AI 들이 한 줄씩 글을 이어가는 방식 ( autoregressive) 을 썼다면, 이 새로운 모델은 **'마스크 (가림막) 놀이'**를 통해 모든 것을 동시에 만들어냅니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 일상적인 비유로 설명해 드릴게요.

1. 기존 AI vs 오미-디퓨전: "한 줄씩 쓰기" vs "빈칸 채우기"

기존 AI ( autoregressive):
imagine(상상해 보세요) 한 사람이 글을 쓸 때, **"나는", "오늘", "기분", "좋다"**라고 한 글자, 한 단어를 순서대로 이어 붙여 나가는 방식입니다. 만약 중간에 실수가 나면, 그 뒤를 모두 다시 써야 할 수도 있습니다. 그림을 그릴 때도 한 줄씩, 한 점씩 순서대로 그려나갑니다.
- 비유: 레고 블록을 하나씩 쌓아 올리는 것.
오미-디퓨전 (Mask-based Discrete Diffusion):
이 모델은 완전히 다른 방식을 씁니다. 처음에 모든 것을 **검은색 가림막 (마스크)**으로 덮어둡니다. 그리고 "이 가림막 아래에 뭐가 있을까?"라고 추측하며, 한 번에 여러 개의 가림막을 벗겨내어 정답을 찾아냅니다.
- 비유: 빈칸 채우기 퀴즈를 한 번에 푸는 것. 처음엔 모든 칸이 비어있지만, 문맥을 보고 여러 칸을 동시에 채워 넣으며 그림이 완성됩니다.

2. 오미-디퓨전의 핵심 능력: "모든 언어를 하나로 묶다"

기존의 AI 는 글을 이해하는 뇌와, 소리를 내는 입, 그림을 그리는 손이 따로 따로 연결되어 있었습니다. 하지만 오미-디퓨전은 **글, 소리, 그림을 모두 같은 '알파벳 (토큰)'**으로 변환합니다.

창의적 비유: "만화책, 녹음기, 그림판이 하나로 합쳐진 슈퍼 로봇"
- 보통의 AI 는 만화책을 읽고 (텍스트) 그림을 그리거나, 녹음기를 듣고 (음성) 글을 쓰는 식으로 연결해야 했습니다.
- 오미-디퓨전은 처음부터 만화책, 녹음기, 그림판이 하나의 몸으로 태어났습니다. 그래서 "고양이"라는 단어를 들으면, 그 소리와 글자, 그리고 고양이 그림이 모두 동시에 머릿속에 떠오릅니다. 서로 다른 언어 (모달리티) 사이를 오가는 데 전혀 걸림돌이 없습니다.

3. 어떻게 배우고 작동할까? (3 단계 훈련법)

이 모델이 모든 것을 잘 하려면 단계별로 훈련을 시켜야 합니다.

1 단계 (눈과 입 맞추기): 먼저 글과 그림을 연결합니다. "이 그림은 무슨 뜻일까?"를 배우는 단계입니다.
2 단계 (귀 추가하기): 이제 소리를 추가합니다. "이 소리는 어떤 글일까?", "이 글은 어떤 소리일까?"를 배웁니다.
3 단계 (대화 훈련): 가장 중요한 단계입니다. **"이 그림을 보고 소리로 설명해 줘"**나 **"이 소리를 듣고 그림을 그려줘"**처럼, 눈과 귀와 입이 동시에 움직이는 복잡한 상황을 훈련합니다.

✨ 특별한 기술: '꼬리 부분의 가림막 조절'
모델이 답변을 할 때, 너무 길게 말하거나 불필요한 말을 반복하지 않도록, 훈련할 때 답변의 끝부분에 가림막을 덜 씌우는 전략을 썼습니다. 마치 "답변은 짧고 명확하게 해!"라고 가르치는 것과 같습니다.

4. 왜 이 기술이 대단할까?

동시 작업 (병렬 처리):
기존 AI 가 한 줄씩 쓰는 동안, 오미-디퓨전은 한 번에 여러 줄을 동시에 채웁니다.
- 비유: 레고를 하나씩 쌓는 것 (기존) vs 레고 성을 한 번에 찍어내는 3D 프린터 (오미-디퓨전). 속도가 훨씬 빠릅니다.
질 높은 그림과 소리:
그림을 그릴 때, 모델이 처음과 끝을 동시에 그리다가 패턴이 반복되는 실수를 저지르지 않도록 **위치에 따른 벌칙 (Position Penalty)**을 줍니다. 그래서 더 자연스럽고 아름다운 그림이 나옵니다.
대화형 인터랙션:
"이 사진에서 코끼리가 무엇을 하고 있을까?"라고 말로 물어보면, 모델은 그림을 보고 말로 답변을 해줍니다. 글로 변환하지 않고, 소리 그 자체로 이해하고 생성합니다.

5. 결론: 미래의 AI 는 어떻게 될까?

이 논문은 **"오미-디퓨전"**이라는 새로운 AI 모델을 소개하며, 인공지능이 글, 소리, 그림을 구분하지 않고 하나의 통합된 언어로 소통할 수 있는 시대가 왔음을 보여줍니다.

한 줄 요약:

오미-디퓨전은 "가림막 놀이"를 통해 글, 소리, 그림을 동시에 이해하고 만들어내는, 마치 마법 같은 AI 입니다. 기존 AI 가 한 줄씩 글을 써가며 그림을 그렸다면, 이 AI 는 빈칸을 한 번에 채우며 모든 것을 동시에 완성해냅니다.

이 기술이 발전하면, 우리는 앞으로 AI 와 대화할 때 글자를 타이핑할 필요 없이, 그림을 보여주거나 소리로 말하기만 해도 AI 가 모든 것을 완벽하게 이해하고 답해줄 날이 머지않았습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 멀티모달 대형 언어 모델 (MLLM) 은 텍스트, 이미지, 음성 등 다양한 모달리티를 처리하는 데 큰 진전을 이루었으나, 대부분 자기회귀 (Autoregressive, AR) 아키텍처를 백본으로 사용합니다. AR 모델은 순차적으로 토큰을 생성하기 때문에 병렬 디코딩이 어렵고, 생성 속도가 느리며, 생성 과정의 구조나 스타일을 제어하는 데 한계가 있습니다.

또한, 기존 멀티모달 시스템은 주로 텍스트 생성을 위해 LLM 을 사용하고, 다른 모달리티 (이미지, 음성) 출력은 별도의 모델 (어댑터 등) 을 통해 변환하는 이중 구조를 채택하고 있습니다. 이는 모달리티 간의 의미적 정렬 (Semantic Alignment) 을 어렵게 만들고, 시스템의 복잡성을 증가시킵니다. 따라서 단일 모델 내에서 모든 모달리티의 이해와 생성을 통합적으로 수행할 수 있으면서도, AR 의 한계를 극복하는 새로운 아키텍처에 대한 필요성이 대두되었습니다.

2. 방법론 (Methodology)

저자들은 **마스크 기반 이산 확산 모델 (Mask-based Discrete Diffusion Model, MDM)**을 기반으로 한 최초의 'Any-to-Any' 멀티모달 언어 모델인 Omni-Diffusion을 제안합니다.

가. 통합 확률적 프레임워크 (Unified Probabilistic Formulation)

공동 분포 모델링: 텍스트, 이미지, 음성을 각각의 토큰화기 (Tokenizer) 를 통해 이산 토큰 시퀀스로 변환한 후, 이를 하나의 통합된 토큰 시퀀스로 결합합니다.
마스크 토큰 예측: AR 방식이 아닌, 확산 모델의 원리를 적용하여 입력 시퀀스의 일부 토큰을 [MASK]로 가리고, 신경망이 원래 토큰을 예측하도록 훈련합니다. 이를 통해 텍스트, 이미지, 음성의 **공동 분포 (Joint Distribution)**를 직접 학습하여 모달리티 간에 내재적으로 정렬된 의미 표현 공간을 구축합니다.

나. 모델 아키텍처

백본: 사전 훈련된 이산 확산 언어 모델 (Dream-7B) 을 기반으로 합니다.
토크나이저:
- 이미지: MAGVIT-v2 를 사용하여 이미지를 8192 개의 코드북을 가진 이산 토큰으로 변환합니다.
- 음성: SenseVoiceSmall(인코더) 과 GLM-4-Voice(디코더) 를 사용하여 음성을 16384 개의 코드북을 가진 이산 토큰으로 변환합니다.
- 텍스트: 기존 텍스트 토큰과 함께 통합된 어휘집을 구성합니다.

다. 훈련 전략 (Training Strategies)

3 단계 점진적 훈련 파이프라인:
- Stage 1 (Visual-Language Pre-Alignment): 텍스트 - 이미지 데이터로 시각 모달리티와 언어 모델의 의미 공간을 정렬합니다.
- Stage 2 (Speech-Vision-Language Joint Alignment): ASR(음성인식) 및 TTS(음성합성) 데이터를 추가하여 텍스트와 음성의 정렬을 강화합니다.
- Stage 3 (Speech-Driven Visual Interaction): 저자들이 구축한 SDVI(Speech-Driven Visual Interaction) 데이터셋 (구두 시각 질문응답, 음성 - 이미지 생성 등) 으로 미세 조정을 수행하여 복잡한 다중 모달리티 상호작용 능력을 향상시킵니다.
감쇠된 꼬리 패딩 마스킹 (Attenuated Tail-Pad Masking): 가변 길이 생성을 위해 패딩 토큰을 무작위로 추가하지만, 패딩 토큰에 대한 마스킹 비율을 감쇠 계수 ( $\gamma < 1$ ) 를 적용해 낮춥니다. 이는 모델이 패딩 토큰에 과도하게 적합 (Overfitting) 되는 것을 방지하고 실제 의미 토큰 생성에 집중하도록 유도합니다.

라. 추론 전략 (Inference Strategies)

엔트로피 기반 디코딩: 토큰 확률의 엔트로피를 계산하여 신뢰도가 높은 토큰을 선택하고 샘플링하는 방식을 사용합니다.
위치 페널티 (Position Penalty): 이미지 생성 시 모델이 시퀀스의 시작과 끝에서 동시에 디코딩하여 반복적인 패턴이 발생하는 문제를 해결하기 위해, 시퀀스 끝부분의 로짓 (Logits) 에 페널티를 부과하여 생성 순서를 제어합니다.
특수 토큰 프리인필링 (Special Token Pre-Infilling): 음성 대화 시 텍스트 응답과 음성 응답의 논리적 일관성을 높이기 위해, 초기 마스크 시퀀스의 특정 위치 (0.25L) 에 [begin-of-speech] 특수 토큰을 미리 채워넣어 모델이 텍스트 컨텍스트를 고려하도록 유도합니다.
적응형 토큰 길이 할당: ASR 및 TTS 작업에서 텍스트 길이와 음성 길이의 상관관계를 활용하여 초기 마스크 토큰 길이를 동적으로 설정하여 샘플링 효율을 높입니다.

3. 주요 기여 (Key Contributions)

Omni-Diffusion 제안: 마스크 기반 이산 확산 모델 위에 구축된 최초의 'Any-to-Any' 멀티모달 언어 모델입니다. 별도의 출력 모델 없이 단일 모델로 모든 모달리티의 이해와 생성을 통합합니다.
전용 훈련 및 추론 기법 개발: 이산 확산 모델의 특성에 맞춘 감쇠된 꼬리 패딩 마스킹, 3 단계 훈련 파이프라인, 위치 페널티, 프리인필링 등 다양한 기법을 제안하여 훈련 안정성과 생성 품질을 극대화했습니다.
성능 입증: 다양한 벤치마크에서 기존 자기회귀 (AR) 기반 멀티모달 시스템과 동등하거나 더 우수한 성능을 보였으며, 특히 다중 모달리티 통합 작업 (예: 음성 - 이미지 생성) 에서 뛰어난 능력을 입증했습니다.

4. 실험 결과 (Results)

음성 작업 (ASR/TTS): LibriSpeech 및 LibriTTS 벤치마크에서 기존 음성 전문 모델 (CosyVoice) 및 Any-to-Any 모델 (AnyGPT) 과 비교하여 ASR 은 유사한 수준, TTS 는 더 우수한 성능을 보였습니다.
시각 작업 (VQA/Image Gen):
- VQA: POPE, MME-Perception, Seed-2-Plus 벤치마크에서 전문 시각 LLM 들과 경쟁 가능한 성능을 기록했습니다.
- Text-to-Image: MSCOCO 데이터셋에서 CLIP-T/I 점수를 측정했을 때, 외부 확산 모델을 사용하는 방법과 유사한 시각적 품질을 유지하면서 텍스트 - 이미지 정렬 능력이 우수했습니다.
모달리티 정렬 (Speech-Vision Alignment): 텍스트 프롬프트와 음성 프롬프트를 모두 사용하여 이미지를 생성했을 때, 두 조건 모두에서 유사한 생성 품질을 보여 모달리티 간 강력한 정렬이 이루어졌음을 증명했습니다.
샘플링 효율성: 확산 모델의 병렬 디코딩 특성 덕분에, 시간 단계 (Time steps) 를 256 에서 10 으로 줄여도 이미지 생성 품질이 크게 저하되지 않았습니다. 이는 AR 모델 대비 매우 높은 효율성을 의미합니다.
인페인팅 (Inpainting): 추가적인 미세 조정 없이도 마스크 토큰 예측 메커니즘을 활용하여 이미지의 일부 영역을 자연스럽게 복원하는 인페인팅 작업을 수행할 수 있었습니다.

5. 의의 및 결론 (Significance)

Omni-Diffusion 은 멀티모달 AI 의 새로운 패러다임을 제시합니다.

아키텍처의 전환: 자기회귀 (AR) 중심의 멀티모달 모델 설계에서 벗어나, **확산 모델 (Diffusion Model)**이 멀티모달 기초 모델 (Foundation Model) 로서 강력한 잠재력을 가지고 있음을 입증했습니다.
통합적 접근: 별도의 변환기나 어댑터 없이 단일 모델로 텍스트, 이미지, 음성의 이해와 생성을 통합함으로써, 모달리티 간의 의미적 정렬을 자연스럽게 달성하고 시스템 복잡성을 줄였습니다.
효율성과 유연성: 병렬 디코딩을 통한 빠른 생성 속도와, 마스크 메커니즘을 활용한 유연한 출력 제어 (인페인팅, 형식 제어 등) 를 가능하게 하여 차세대 멀티모달 시스템의 핵심 기술로 자리매김할 것으로 기대됩니다.

이 연구는 멀티모달 인공지능 분야에서 확산 모델의 가능성을 크게 확장시켰으며, 향후 더 효율적이고 통합된 멀티모달 시스템 개발에 중요한 통찰을 제공합니다.

Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion