OmniForcing: Unleashing Real-time Joint Audio-Visual Generation

이 논문은 이진 방향성 주의 의존성으로 인한 높은 지연 시간을 해결하기 위해, 비동기적 블록 인과 정렬, 오디오 싱크 토큰 메커니즘, 그리고 결합 자기 강제 증류 기법을 도입하여 단일 GPU 에서 약 25 FPS 의 실시간 고품질 오디오 - 비디오 생성을 가능하게 한 'OmniForcing' 프레임워크를 제안합니다.

Yaofeng Su, Yuming Li, Zeyue Xue, Jie Huang, Siming Fu, Haoran Li, Ying Li, Zezhong Qian, Haoyang Huang, Nan Duan

게시일 2026-03-13
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎥🎵 오미포싱 (OmniForcing): "지연 없이, 실시간으로" 영상과 소리를 동시에 만드는 마법

이 논문은 인공지능이 영상과 소리를 동시에 만들 때 발생하는 '지연 (속도 문제)'을 해결한 획기적인 기술을 소개합니다. 기존 기술은 화질과 소리는 좋지만, 영상을 다 만들고 나서 소리를 만들어야 하거나, 전체 영상을 다 계산한 뒤에만 재생이 시작되는 등 속도가 매우 느렸습니다.

이제 **'오미포싱 (OmniForcing)'**이라는 새로운 기술이 등장하여, 실시간으로 영상과 소리를 동시에, 끊김 없이 만들어낼 수 있게 되었습니다.


1. 왜 이 기술이 필요한가요? (기존의 문제점)

기존의 최고급 AI 모델 (선생님 모델) 은 완벽한 화질과 싱크를 자랑합니다. 하지만 이 모델은 마치 거대한 도서관에서 모든 책을 다 읽은 뒤에만 요약본을 만들어주는 것과 같습니다.

  • 문제: 영상을 5 초만 만들어도, AI 는 그 5 초 동안의 모든 정보를 한 번에 다 계산해야 합니다.
  • 결과: 영상을 시작하기까지 **약 3 분 (197 초)**이 걸립니다. 실시간 대화나 스트리밍에는 전혀 쓸 수 없는 속도입니다.
  • 기존 해결책: 영상을 먼저 만들고, 그다음 소리를 만드는 방식이었는데, 이렇게 하면 영상과 소리가 딱 맞지 않거나 (입 모양과 목소리가 어긋남), 실시간으로 이어지지 않습니다.

2. 오미포싱의 핵심 아이디어: "실시간 스트리밍"

오미포싱은 이 거대한 도서관을 작은 조각으로 나누어, 한 조각을 만들 때마다 바로 다음 조각을 준비하는 방식으로 바꿨습니다.

  • 비유: 마치 라이브 방송을 하는 것처럼, 1 초 단위로 영상과 소리를 동시에 찍어내며 바로 방송합니다.
  • 성능: 5 초짜리 영상을 만드는 데 약 5.7 초만 걸립니다. (기존보다 약 35 배 빠름!)
  • 화질: 속도가 빨라졌지만, 화질과 소리 싱크는 원본 (선생님 모델) 과 거의 똑같이 훌륭합니다.

3. 어떻게 이렇게 빠른 속도를 냈을까요? (세 가지 마법)

영상과 소리는 속도가 다릅니다. 영상은 1 초에 3 장 정도, 소리는 1 초에 25 개 조각으로 나뉩니다. 이 속도 차이를 어떻게 해결했는지가 핵심입니다.

① "시간의 마법 블록" (비대칭 블록 정렬)

  • 상황: 영상과 소리의 속도가 너무 달라서, 그냥 한 번에 자르면 둘이 맞지 않습니다.
  • 해결: 오미포싱은 **1 초 단위로 '마법 블록'**을 만듭니다.
    • 영상 블록: 1 초당 3 장
    • 소리 블록: 1 초당 25 조각
  • 효과: 이 블록들이 1 초마다 딱 맞춰서 생성되므로, 영상과 소리가 절대 어긋나지 않습니다. 마치 레고 블록처럼 1 초 단위로 완벽하게 끼워 맞춰집니다.

② "소리를 위한 안전판" (오디오 싱크 토큰)

  • 문제: 소리는 조각이 너무 많고 영상은 적어서, AI 가 소리를 만들 때 "과거의 정보"가 너무 적어 **혼란 (Gradient Explosion)**에 빠지기 쉽습니다. 마치 작은 배가 큰 파도 앞에서 흔들리는 것 같습니다.
  • 해결: AI 가 소리를 만들 때, **가상적인 '안전 닻 (Sink Token)'**을 내립니다.
    • 이 닻은 실제 소리가 아니지만, AI 가 소리를 만들 때 기준점이 되어주어 흔들리지 않게 잡아줍니다.
    • 이 닻은 위치에 상관없이 항상 같은 역할을 하도록 설계되어, AI 가 소리를 만들 때 안정감을 줍니다.

③ "스스로 교정하는 학습" (자기 강제 학습)

  • 문제: 실시간으로 만들다 보면, 처음에 만든 작은 실수가 쌓여서 나중에 큰 실수가 될 수 있습니다 (예: 1 초에 입 모양이 살짝 어긋나면, 10 초 뒤에는 완전히 틀어짐).
  • 해결: 오미포싱은 스스로가 만든 영상을 보고 "아, 여기가 틀렸네"라고 스스로 고치는 훈련을 합니다.
    • 마치 연습할 때 거울을 보며 춤을 추는 것처럼, AI 는 자신의 예측을 보고 실시간으로 수정하며 더 정확한 영상을 만들어냅니다.

4. 요약: 오미포싱이 가져온 변화

특징 기존 기술 (선생님 모델) 오미포싱 (새로운 기술)
속도 5 초 영상 만드는 데 3 분 걸림 5 초 영상 만드는 데 5.7 초 걸림
방식 전체를 다 계산한 뒤 한 번에 출력 실시간 스트리밍 (조각조각 만들어서 바로 출력)
화질/소리 매우 좋음 원본과 거의 동일한 수준
동기화 영상과 소리가 완벽하게 맞음 영상과 소리가 실시간으로 딱 맞춤

🌟 결론

오미포싱은 AI 가 영상과 소리를 만들 때, 완벽한 화질을 유지하면서도 '실시간'으로 작동할 수 있게 만든 세계 최초의 기술입니다.

앞으로 우리는 AI 와 대화할 때, 입 모양과 목소리가 딱 맞는 실시간 영상을 보거나, 즉석에서 나만의 애니메이션과 사운드트랙을 만들어내는 경험을 하게 될 것입니다. 마치 마법처럼, 지연 없이 모든 것이 실시간으로 이루어지는 세상이 열린 것입니다.