JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

본 논문은 Wan2.1-1.3B-T2V 를 기반으로 모달리티별 혼합 전문가 (MS-MoE), 시간 정렬 RoPE(TA-RoPE), 오디오 - 비디오 직접 선호도 최적화 (AV-DPO) 를 도입하여 기존 오픈소스 방법론의 한계를 극복하고 인간 선호도와 동기화 측면에서 최첨단 성능을 달성한 통합 오디오 - 비디오 생성 프레임워크인 JavisDiT++ 를 제안합니다.

Kai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua

게시일 2026-02-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎬 JavisDiT++: "눈과 귀가 완벽하게 통하는" AI 영상 제작기

이 논문은 **JavisDiT++**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 단순히 "글을 보고 영상을 만드는" 것을 넘어, 영상과 소리가 완벽하게 맞춰진 (동기화된) 고품질 영상을 만들어내는 기술을 개발했습니다.

기존의 오픈소스 모델들은 영상이나 소리는 잘 만들지만, 둘을 합치면 입과 소리가 안 맞거나 영상이 어색한 경우가 많았습니다. 마치 더빙이 안 된 영화처럼 말이죠. 하지만 이 새로운 모델은 **Veo3(구글의 최신 상용 모델)**과도 경쟁할 수 있을 만큼 뛰어난 성능을 보여주며, 그 비결은 세 가지 핵심 아이디어에 있습니다.


1. 🎭 "전문가 팀"을 꾸린 MS-MoE (모달리티별 전문가 혼합)

비유: "요리사와 음악가가 한 팀이 되어"

기존 모델들은 영상과 소리를 처리할 때 같은 두뇌 (단일 구조) 를 사용하거나, 서로 다른 두 대의 컴퓨터를 연결해서 사용했습니다.

  • 단일 두뇌: 모든 일을 한 사람이 하면, 영상은 잘 만들어도 소리는 엉망이 되거나 그 반대가 됩니다.
  • 두 대의 컴퓨터: 영상용 컴퓨터와 소리용 컴퓨터를 따로 두고 연결하면, 데이터가 오가는 데 시간이 걸리고 효율이 떨어집니다.

JavisDiT++ 의 해결책:
이 모델은 **"공유된 회의실 (Attention)"**과 **"각자의 작업실 (FFN)"**을 갖춘 구조를 사용합니다.

  1. 회의실: 영상 토큰 (화면 정보) 과 오디오 토큰 (소리 정보) 이 함께 모여 서로의 상황을 파악하고 정보를 교환합니다. ("이 장면에는 물소리가 어울리겠네!")
  2. 작업실: 정보를 교환한 후, 영상은 영상 전문 요리사가, 소리는 소리 전문 음악가가 각자의 작업실에서 최고의 퀄리티로 완성합니다.

이렇게 하면 서로의 특성을 해치지 않으면서도 완벽한 조화를 이룰 수 있습니다.

2. ⏱️ "시간표"를 완벽하게 맞춘 TA-RoPE (시간 정렬 회전 위치 인코딩)

비유: "열차와 기차역의 시간표"

영상을 만들 때 '프레임 (화면)'과 '소리'는 시간적으로 딱 맞춰져야 합니다. 하지만 기존 기술들은 이 시간표를 맞추는 데 애를 먹었습니다.

  • 기존 방식: "대략적으로 맞춰보자"거나, "화면이 바뀔 때마다 소리를 찾아보자"는 식이라, 소리가 0.1 초 늦거나 빨라지는 현상이 발생했습니다.

JavisDiT++ 의 해결책:
이 모델은 영상과 소리의 '시간 좌표'를 처음부터 하나도 틀리지 않게 설계했습니다.

  • 영상 프레임 1 번이 나올 때, 그와 정확히 일치하는 소리 토큰 1 번도 동시에 위치하도록 **시간표 (Position ID)**를 강제로 맞췄습니다.
  • 마치 기차역에서 열차 (영상) 와 안내 방송 (소리) 의 시간을 완벽하게 동기화하듯, 프레임 단위로 소리가 딱 떨어지도록 만들었습니다.

3. 👍 "사람의 취향"을 배운 AV-DPO (직접 선호도 최적화)

비유: "미식가 심사위원단과 요리 대회"

모델이 영상을 만들면, "이게 좋은 영상일까?"를 어떻게 알 수 있을까요?

  • 기존 방식: 단순히 "오류가 적으면 좋은 거야"라고 계산했습니다. 하지만 인간은 오류가 적어도 "재미없다"거나 "부자연스럽다"고 느낄 수 있습니다.

JavisDiT++ 의 해결책:
이 모델은 사람이 무엇을 좋아하는지 직접 배웁니다.

  1. 시범 요리: AI 가 같은 주제로 여러 개의 영상과 소리를 만들어냅니다.
  2. 심사: 다양한 평가 도구 (Reward Models) 를 통해 "영상 품질", "소리 품질", "조화" 등을 점수 매깁니다.
  3. 선호 학습: "이 영상 (승자) 이 저 영상 (패자) 보다 훨씬 낫네!"라고 사람의 취향에 맞는 데이터를 만들어 모델에게 가르칩니다.
    • 예: "소리는 좋지만 영상이 흔들리면 안 돼", "영상은 좋지만 소리가 안 들리면 안 돼"처럼 모든 요소가 골고루 좋은 것을 선택하도록 훈련시켰습니다.

🌟 이 기술이 가져온 변화

  • 소량 데이터, 대박 성과: 거대한 데이터가 아니라도 (약 100 만 개 정도의 공개 데이터), 위 기술들을 적용해 최고 수준의 성능을 냈습니다.
  • 빠르고 가볍습니다: 복잡한 구조를 쓰지 않고 효율적으로 설계되어, 기존 모델들보다 훨씬 빠르게 영상을 생성합니다.
  • 현실적인 결과: "물웅덩이에 돌을 던지는 소리", "피아노 치는 소녀", "곰이 으르렁거리는 장면" 등 다양한 상황에서 영상과 소리가 자연스럽게 어우러집니다.

📝 한 줄 요약

"JavisDiT++ 는 영상과 소리를 각각의 전문가에게 맡기되, 시간표는 완벽하게 맞추고, 사람의 취향을 배워 자연스럽게 합치는 '최고의 AI 영화 제작자'입니다."

이 기술은 앞으로 게임, 영화, VR 등 다양한 분야에서 더 몰입감 있는 콘텐츠를 만드는 데 큰 역할을 할 것으로 기대됩니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →