Each language version is independently generated for its own context, not a direct translation.

🎥🎵 오미포싱 (OmniForcing): "지연 없이, 실시간으로" 영상과 소리를 동시에 만드는 마법

이 논문은 인공지능이 영상과 소리를 동시에 만들 때 발생하는 '지연 (속도 문제)'을 해결한 획기적인 기술을 소개합니다. 기존 기술은 화질과 소리는 좋지만, 영상을 다 만들고 나서 소리를 만들어야 하거나, 전체 영상을 다 계산한 뒤에만 재생이 시작되는 등 속도가 매우 느렸습니다.

이제 **'오미포싱 (OmniForcing)'**이라는 새로운 기술이 등장하여, 실시간으로 영상과 소리를 동시에, 끊김 없이 만들어낼 수 있게 되었습니다.

1. 왜 이 기술이 필요한가요? (기존의 문제점)

기존의 최고급 AI 모델 (선생님 모델) 은 완벽한 화질과 싱크를 자랑합니다. 하지만 이 모델은 마치 거대한 도서관에서 모든 책을 다 읽은 뒤에만 요약본을 만들어주는 것과 같습니다.

문제: 영상을 5 초만 만들어도, AI 는 그 5 초 동안의 모든 정보를 한 번에 다 계산해야 합니다.
결과: 영상을 시작하기까지 **약 3 분 (197 초)**이 걸립니다. 실시간 대화나 스트리밍에는 전혀 쓸 수 없는 속도입니다.
기존 해결책: 영상을 먼저 만들고, 그다음 소리를 만드는 방식이었는데, 이렇게 하면 영상과 소리가 딱 맞지 않거나 (입 모양과 목소리가 어긋남), 실시간으로 이어지지 않습니다.

2. 오미포싱의 핵심 아이디어: "실시간 스트리밍"

오미포싱은 이 거대한 도서관을 작은 조각으로 나누어, 한 조각을 만들 때마다 바로 다음 조각을 준비하는 방식으로 바꿨습니다.

비유: 마치 라이브 방송을 하는 것처럼, 1 초 단위로 영상과 소리를 동시에 찍어내며 바로 방송합니다.
성능: 5 초짜리 영상을 만드는 데 약 5.7 초만 걸립니다. (기존보다 약 35 배 빠름!)
화질: 속도가 빨라졌지만, 화질과 소리 싱크는 원본 (선생님 모델) 과 거의 똑같이 훌륭합니다.

3. 어떻게 이렇게 빠른 속도를 냈을까요? (세 가지 마법)

영상과 소리는 속도가 다릅니다. 영상은 1 초에 3 장 정도, 소리는 1 초에 25 개 조각으로 나뉩니다. 이 속도 차이를 어떻게 해결했는지가 핵심입니다.

① "시간의 마법 블록" (비대칭 블록 정렬)

상황: 영상과 소리의 속도가 너무 달라서, 그냥 한 번에 자르면 둘이 맞지 않습니다.
해결: 오미포싱은 **1 초 단위로 '마법 블록'**을 만듭니다.
- 영상 블록: 1 초당 3 장
- 소리 블록: 1 초당 25 조각
효과: 이 블록들이 1 초마다 딱 맞춰서 생성되므로, 영상과 소리가 절대 어긋나지 않습니다. 마치 레고 블록처럼 1 초 단위로 완벽하게 끼워 맞춰집니다.

② "소리를 위한 안전판" (오디오 싱크 토큰)

문제: 소리는 조각이 너무 많고 영상은 적어서, AI 가 소리를 만들 때 "과거의 정보"가 너무 적어 **혼란 (Gradient Explosion)**에 빠지기 쉽습니다. 마치 작은 배가 큰 파도 앞에서 흔들리는 것 같습니다.
해결: AI 가 소리를 만들 때, **가상적인 '안전 닻 (Sink Token)'**을 내립니다.
- 이 닻은 실제 소리가 아니지만, AI 가 소리를 만들 때 기준점이 되어주어 흔들리지 않게 잡아줍니다.
- 이 닻은 위치에 상관없이 항상 같은 역할을 하도록 설계되어, AI 가 소리를 만들 때 안정감을 줍니다.

③ "스스로 교정하는 학습" (자기 강제 학습)

문제: 실시간으로 만들다 보면, 처음에 만든 작은 실수가 쌓여서 나중에 큰 실수가 될 수 있습니다 (예: 1 초에 입 모양이 살짝 어긋나면, 10 초 뒤에는 완전히 틀어짐).
해결: 오미포싱은 스스로가 만든 영상을 보고 "아, 여기가 틀렸네"라고 스스로 고치는 훈련을 합니다.
- 마치 연습할 때 거울을 보며 춤을 추는 것처럼, AI 는 자신의 예측을 보고 실시간으로 수정하며 더 정확한 영상을 만들어냅니다.

4. 요약: 오미포싱이 가져온 변화

특징	기존 기술 (선생님 모델)	오미포싱 (새로운 기술)
속도	5 초 영상 만드는 데 3 분 걸림	5 초 영상 만드는 데 5.7 초 걸림
방식	전체를 다 계산한 뒤 한 번에 출력	실시간 스트리밍 (조각조각 만들어서 바로 출력)
화질/소리	매우 좋음	원본과 거의 동일한 수준
동기화	영상과 소리가 완벽하게 맞음	영상과 소리가 실시간으로 딱 맞춤

🌟 결론

오미포싱은 AI 가 영상과 소리를 만들 때, 완벽한 화질을 유지하면서도 '실시간'으로 작동할 수 있게 만든 세계 최초의 기술입니다.

앞으로 우리는 AI 와 대화할 때, 입 모양과 목소리가 딱 맞는 실시간 영상을 보거나, 즉석에서 나만의 애니메이션과 사운드트랙을 만들어내는 경험을 하게 될 것입니다. 마치 마법처럼, 지연 없이 모든 것이 실시간으로 이루어지는 세상이 열린 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

최근 생성형 AI 의 발전으로 오디오 - 비디오 결합 (Joint Audio-Visual) 확산 모델 (예: LTX-2, Veo 3 등) 은 높은 품질의 멀티모달 생성을 가능하게 했습니다. 그러나 이러한 모델들은 양방향 (Bidirectional) 전체 시퀀스 어텐션에 의존하여, 모든 프레임과 오디오 토큰을 동시에 처리해야 합니다. 이로 인해 다음과 같은 치명적인 한계가 발생합니다:

높은 지연 시간 (High Latency): 첫 번째 청크가 생성되기까지의 시간 (TTFC, Time-To-First-Chunk) 이 매우 길어 (예: 5 초 영상 생성에 약 197 초 소요) 실시간 스트리밍이나 대화형 애플리케이션에 적용이 불가능합니다.
기존 우회 방법의 한계:
- 연쇄 파이프라인 (Cascaded Pipelines): 비디오를 먼저 생성한 후 오디오를 합성하거나 그 반대의 방식은 멀티모달 결합 분포를 끊어 품질을 저하시키고, 실시간 스트리밍을 방해합니다.
- 단일 모드 자동회귀 (Unimodal AR): 비디오 전용 자동회귀 모델은 존재하지만, 오디오와 비디오 간의 심각한 시간적 비대칭성 (비디오: 초당 3 프레임, 오디오: 초당 25 프레임) 으로 인해 이를 이중 스트림 (Dual-stream) 구조로 확장할 경우 학습 불안정성이 발생합니다.

2. 방법론 (Methodology)

저자들은 오프라인 양방향 확산 모델을 고품질 실시간 스트리밍 자동회귀 생성기로 변환하는 OmniForcing 프레임워크를 제안합니다. 이는 3 단계의 증류 (Distillation) 파이프라인과 핵심적인 아키텍처 안정화 기법을 포함합니다.

A. 비대칭 블록-인과적 정렬 (Asymmetric Block-Causal Alignment)

글로벌 프리픽스 (Global Prefix): 오디오와 비디오의 시간적 불일치 (25:3 비율) 를 해결하기 위해, 시간의 원점에 '0 초'에 해당하는 제로-트런케이션 글로벌 프리픽스 (Zero-truncation Global Prefix) 를 도입합니다. 이는 모든 미래 토큰에 대해 전역적으로 가시적인 시맨틱 앵커 역할을 하며, 완벽한 정렬을 보장합니다.
블록 단위 인과 마스크: 1 초 단위의 '매크로 블록'을 기준으로 비디오 (3 토큰) 와 오디오 (25 토큰) 를 동기화합니다. 블록 내에서는 양방향 어텐션이 허용되지만, 블록 간에는 엄격한 인과적 (Causal) 마스크를 적용하여 미래 정보 유출을 방지합니다.

B. 학습 불안정성 해결: 오디오 싱크 토큰 (Audio Sink Tokens)

문제: 오디오는 비디오에 비해 토큰 밀도가 매우 낮아 (초당 25 개), 초기 블록에서 가시적인 히스토리가 극도로 짧습니다. 이로 인해 Softmax 분포가 붕괴되고 (Softmax collapse), 기울기 폭발 (Gradient Explosion) 이 발생합니다.
해결책: 오디오 시퀀스 앞에 학습 가능한 '싱크 토큰 (Sink Tokens)' 을 추가하여 어텐션 분모를 확장합니다.
Identity RoPE 제약: 이러한 싱크 토큰에 표준 회전 위치 임베딩 (RoPE) 을 적용하지 않고 Identity RoPE(위치 정보 부여 안 함) 를 강제합니다. 이는 싱크 토큰을 위치와 무관한 글로벌 메모리 버퍼로 만들어, 인과적 전환 시 발생하는 기울기 폭풍을 흡수하고 모델 안정성을 확보합니다.

C. 증류 파이프라인 (3-Stage Distillation)

Stage I (Bidirectional DMD): 원본 양방향 모델을 몇 단계 (few-step) 만으로 작동하도록 분배 매칭 증류 (Distribution Matching Distillation) 를 수행합니다.
Stage II (Causal ODE Regression): 인과적 마스크를 적용하여 모델 가중치를 조정합니다. 이 단계에서 위에서 언급한 '오디오 싱크 토큰'이 학습 안정성을 보장합니다.
Stage III (Joint Self-Forcing): 노출 편향 (Exposure Bias) 을 해결하기 위해, 모델이 자신의 과거 예측 (Ground Truth 가 아님) 을 기반으로 시퀀스를autoregressively 전개하며 교차 모달 오류를 스스로 수정하도록 훈련합니다.

D. 효율적인 추론

모달리티 독립 롤링 KV 캐시 (Modality-Independent Rolling KV-Cache): 비디오 (14B) 와 오디오 (5B) 스트림 간의 데이터 의존성을 최소화하여, 단일 GPU 에서 두 모달리티를 병렬로 실행하고 컨텍스트 복잡도를 $O(L)$ 로 줄입니다.

3. 주요 기여 (Key Contributions)

최초의 실시간 오디오 - 비디오 증류 프레임워크: 무거운 양방향 기초 모델을 실시간 스트리밍 엔진으로 변환하여 멀티모달 시간 동기화를 유지합니다.
안정적인 인과적 정렬 메커니즘: 토큰 밀도 불일치로 인한 Softmax 붕괴를 해결하는 '비대칭 블록 - 인과적 정렬'과 'Identity RoPE 가 적용된 오디오 싱크 토큰'을 제안했습니다.
최고 수준의 실시간 성능: 단일 GPU 에서 약 25 FPS의 스트리밍 속도를 달성하면서도, 양방향 교사 모델 (Teacher) 과 유사한 화질과 음질을 유지합니다.

4. 실험 결과 (Results)

지연 시간 (Latency): 5 초 길이의 480p 오디오 - 비디오 클립 생성에 약 5.7 초 소요 (TTFC 약 0.7 초). 이는 오프라인 교사 모델 (LTX-2, 197 초) 대비 약 35 배 빠른 속도입니다.
품질 (Quality):
- JavisBench: 비디오 품질 (FVD 137.2), 오디오 품질 (FAD 5.7), 텍스트 일관성 (CLIP 0.322) 등에서 기존 베이스라인을 압도하며, 교사 모델에 근접한 성능을 보입니다.
- VBench: 증류된 모델이 교사 모델보다 프레임별 화질 (미적 품질, 이미지 품질 등) 에서 오히려 약간 더 높은 점수를 기록했습니다.
- 동기화: 오디오와 비디오의 시간적 동기화 (JavisScore, DeSync) 가 매우 정확하게 유지됩니다.
안정성: 싱크 토큰 수 (S) 가 4 이상일 때만 학습이 안정적으로 수렴하며, S=2 이하에서는 NaN 오류가 발생함을 확인했습니다.

5. 의의 (Significance)

OmniForcing 은 생성형 AI 가 가진 '고품질'과 '실시간성'이라는 상충되는 목표를 동시에 달성하는 획기적인 솔루션을 제시합니다.

실시간 상호작용 가능: 대화형 AI, 실시간 콘텐츠 생성, 저지수 스트리밍 서비스 등 지연 시간에 민감한 분야에서 멀티모달 기초 모델의 배포를 가능하게 합니다.
아키텍처적 통찰: 이질적인 모달리티 (비디오 vs 오디오) 간의 시간적 비대칭성을 해결하기 위한 새로운 증류 기법과 안정화 메커니즘 (싱크 토큰, Identity RoPE) 은 향후 다른 멀티모달 자동회귀 모델 개발에도 중요한 지침이 될 것입니다.

결론적으로, OmniForcing 은 오프라인 고품질 생성 모델을 실시간 스트리밍 엔진으로 변환하는 데 성공하여, 멀티모달 생성 AI 의 실용적 적용 가능성을 크게 확장했습니다.

OmniForcing: Unleashing Real-time Joint Audio-Visual Generation