Each language version is independently generated for its own context, not a direct translation.

🎬 JavisDiT++: "눈과 귀가 완벽하게 통하는" AI 영상 제작기

이 논문은 **JavisDiT++**라는 새로운 인공지능 모델을 소개합니다. 이 모델은 단순히 "글을 보고 영상을 만드는" 것을 넘어, 영상과 소리가 완벽하게 맞춰진 (동기화된) 고품질 영상을 만들어내는 기술을 개발했습니다.

기존의 오픈소스 모델들은 영상이나 소리는 잘 만들지만, 둘을 합치면 입과 소리가 안 맞거나 영상이 어색한 경우가 많았습니다. 마치 더빙이 안 된 영화처럼 말이죠. 하지만 이 새로운 모델은 **Veo3(구글의 최신 상용 모델)**과도 경쟁할 수 있을 만큼 뛰어난 성능을 보여주며, 그 비결은 세 가지 핵심 아이디어에 있습니다.

1. 🎭 "전문가 팀"을 꾸린 MS-MoE (모달리티별 전문가 혼합)

비유: "요리사와 음악가가 한 팀이 되어"

기존 모델들은 영상과 소리를 처리할 때 같은 두뇌 (단일 구조) 를 사용하거나, 서로 다른 두 대의 컴퓨터를 연결해서 사용했습니다.

단일 두뇌: 모든 일을 한 사람이 하면, 영상은 잘 만들어도 소리는 엉망이 되거나 그 반대가 됩니다.
두 대의 컴퓨터: 영상용 컴퓨터와 소리용 컴퓨터를 따로 두고 연결하면, 데이터가 오가는 데 시간이 걸리고 효율이 떨어집니다.

JavisDiT++ 의 해결책:
이 모델은 **"공유된 회의실 (Attention)"**과 **"각자의 작업실 (FFN)"**을 갖춘 구조를 사용합니다.

회의실: 영상 토큰 (화면 정보) 과 오디오 토큰 (소리 정보) 이 함께 모여 서로의 상황을 파악하고 정보를 교환합니다. ("이 장면에는 물소리가 어울리겠네!")
작업실: 정보를 교환한 후, 영상은 영상 전문 요리사가, 소리는 소리 전문 음악가가 각자의 작업실에서 최고의 퀄리티로 완성합니다.

이렇게 하면 서로의 특성을 해치지 않으면서도 완벽한 조화를 이룰 수 있습니다.

2. ⏱️ "시간표"를 완벽하게 맞춘 TA-RoPE (시간 정렬 회전 위치 인코딩)

비유: "열차와 기차역의 시간표"

영상을 만들 때 '프레임 (화면)'과 '소리'는 시간적으로 딱 맞춰져야 합니다. 하지만 기존 기술들은 이 시간표를 맞추는 데 애를 먹었습니다.

기존 방식: "대략적으로 맞춰보자"거나, "화면이 바뀔 때마다 소리를 찾아보자"는 식이라, 소리가 0.1 초 늦거나 빨라지는 현상이 발생했습니다.

JavisDiT++ 의 해결책:
이 모델은 영상과 소리의 '시간 좌표'를 처음부터 하나도 틀리지 않게 설계했습니다.

영상 프레임 1 번이 나올 때, 그와 정확히 일치하는 소리 토큰 1 번도 동시에 위치하도록 **시간표 (Position ID)**를 강제로 맞췄습니다.
마치 기차역에서 열차 (영상) 와 안내 방송 (소리) 의 시간을 완벽하게 동기화하듯, 프레임 단위로 소리가 딱 떨어지도록 만들었습니다.

3. 👍 "사람의 취향"을 배운 AV-DPO (직접 선호도 최적화)

비유: "미식가 심사위원단과 요리 대회"

모델이 영상을 만들면, "이게 좋은 영상일까?"를 어떻게 알 수 있을까요?

기존 방식: 단순히 "오류가 적으면 좋은 거야"라고 계산했습니다. 하지만 인간은 오류가 적어도 "재미없다"거나 "부자연스럽다"고 느낄 수 있습니다.

JavisDiT++ 의 해결책:
이 모델은 사람이 무엇을 좋아하는지 직접 배웁니다.

시범 요리: AI 가 같은 주제로 여러 개의 영상과 소리를 만들어냅니다.
심사: 다양한 평가 도구 (Reward Models) 를 통해 "영상 품질", "소리 품질", "조화" 등을 점수 매깁니다.
선호 학습: "이 영상 (승자) 이 저 영상 (패자) 보다 훨씬 낫네!"라고 사람의 취향에 맞는 데이터를 만들어 모델에게 가르칩니다.
- 예: "소리는 좋지만 영상이 흔들리면 안 돼", "영상은 좋지만 소리가 안 들리면 안 돼"처럼 모든 요소가 골고루 좋은 것을 선택하도록 훈련시켰습니다.

🌟 이 기술이 가져온 변화

소량 데이터, 대박 성과: 거대한 데이터가 아니라도 (약 100 만 개 정도의 공개 데이터), 위 기술들을 적용해 최고 수준의 성능을 냈습니다.
빠르고 가볍습니다: 복잡한 구조를 쓰지 않고 효율적으로 설계되어, 기존 모델들보다 훨씬 빠르게 영상을 생성합니다.
현실적인 결과: "물웅덩이에 돌을 던지는 소리", "피아노 치는 소녀", "곰이 으르렁거리는 장면" 등 다양한 상황에서 영상과 소리가 자연스럽게 어우러집니다.

📝 한 줄 요약

"JavisDiT++ 는 영상과 소리를 각각의 전문가에게 맡기되, 시간표는 완벽하게 맞추고, 사람의 취향을 배워 자연스럽게 합치는 '최고의 AI 영화 제작자'입니다."

이 기술은 앞으로 게임, 영화, VR 등 다양한 분야에서 더 몰입감 있는 콘텐츠를 만드는 데 큰 역할을 할 것으로 기대됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

최근 생성형 AI(AIGC) 는 텍스트 - 이미지에서 텍스트 - 비디오/오디오로 확장되고 있으며, 특히 **연속된 오디오 - 비디오 생성 (Joint Audio-Video Generation, JAVG)**은 텍스트 설명으로부터 동기화된 사운드와 영상을 만드는 핵심 과제로 부상했습니다.
그러나 기존 오픈소스 모델들은 다음과 같은 한계를 겪고 있습니다:

생성 품질 저하: 상용 모델 (예: Veo3) 에 비해 비디오와 오디오의 화질이 낮음.
시간적 동기화 부족: 오디오와 비디오 간의 정밀한 프레임 단위 동기화가 어렵고, 자연스러운 리듬을 구현하지 못함.
인간 선호도 불일치: 생성된 콘텐츠의 미적 가치와 인간이 선호하는 조화 (Harmony) 를 반영하지 못함.
복잡한 아키텍처: 기존 방법들은 이중 스트림 (Dual-stream) 구조나 복잡한 교차 어텐션 메커니즘을 사용하여 효율성과 확장성이 떨어짐.

2. 방법론 (Methodology)

이 논문은 **JavisDiT++**라는 통합 모델링 및 최적화 프레임워크를 제안합니다. 이 모델은 Wan2.1-1.3B-T2V 를 기반으로 하며, 다음 세 가지 핵심 기술을 통해 성능을 극대화합니다.

A. 모달리티 특화 혼합 전문가 (Modality-Specific Mixture-of-Experts, MS-MoE)

구조: 오디오와 비디오 토큰을 공유하는 멀티헤드 셀프 어텐션 (Self-Attention) 레이어를 통해 상호작용을 유도한 후, **각 모달리티별 별도의 FFN (Feed-Forward Network)**을 통해 정보를 집계합니다.
효과: 기존 단일 FFN 을 사용하는 방식 (Uniform 등) 보다 단일 모달리티의 생성 품질을 향상시키고, 이중 DiT 구조 (JavisDiT 등) 보다 파라미터 효율성과 통합성을 높입니다.
장점: 전체 파라미터 수는 증가하지만 (1.3B → 2.1B), 토큰당 활성화 파라미터 수는 유지되어 추론 오버헤드를 늘리지 않으면서 용량을 확장합니다.

B. 시간 정렬 회전 위치 인코딩 (Temporal-Aligned RoPE, TA-RoPE)

기법: 오디오와 비디오 토큰의 위치 ID 를 통일된 시간 축 (Temporal Axis) 에 명시적으로 정렬합니다.
구현: 비디오 토큰의 3D 위치 ID $(T, H, W)$ 를 기반으로, 오디오 토큰의 시간 축을 비디오 프레임과 일치시키되, 주파수 축과 시간 축의 위치 ID 가 겹치지 않도록 오프셋 (Offset) 을 적용합니다.
효과: 프레임 단위의 정밀한 오디오 - 비디오 동기화를 달성하며, 기존 ST-Prior 나 프레임 레벨 크로스 어텐션보다 더 직접적이고 효율적인 동기화 제어가 가능합니다.

C. 오디오 - 비디오 직접 선호도 최적화 (Audio-Video Direct Preference Optimization, AV-DPO)

목표: 생성된 오디오 - 비디오 쌍을 인간의 선호도 (품질, 일관성, 동기화) 와 정렬합니다.
프로세스:
1. 다양한 보상 모델 (AudioBox, VideoAlign, ImageBind, Syncformer 등) 을 사용하여 생성된 샘플을 다차원 (오디오 품질, 비디오 품질, 동기화 등) 으로 평가합니다.
2. 모달리티 일관성을 보장하는 정규화된 순위 기반 (Normalized Modality-Aware Ranking) 으로 승자 (Winning) 와 패자 (Losing) 쌍을 선별합니다.
3. 선별된 쌍을 사용하여 DPO 알고리즘을 적용하여 모델의 출력을 인간 선호도에 맞춰 미세 조정합니다.
혁신성: JAVG 분야에 최초로 선호도 정렬 (Preference Alignment) 기법을 도입했습니다.

3. 주요 기여 (Key Contributions)

효율적이고 통합된 아키텍처: MS-MoE 와 TA-RoPE 를 도입하여 고품질 오디오 - 비디오 생성과 정밀한 시간 동기화를 동시에 달성하는 간결한 DiT 아키텍처를 제안했습니다.
선호도 정렬의 최초 적용: JAVG 작업에 AV-DPO 알고리즘을 적용하여 생성물의 품질, 일관성, 동기화를 인간 선호도에 부합하도록 개선했습니다.
데이터 효율성: 약 100 만 개 (1M) 의 공개 데이터 (780K 오디오 - 텍스트 쌍 + 360K 고품질 오디오 - 비디오) 만으로 SOTA(최고 성능) 모델을 달성하여, 대규모 데이터 없이도 고품질 JAVG 가 가능함을 증명했습니다.

4. 실험 결과 (Results)

벤치마크 성능: JavisBench 에서 기존 오픈소스 모델 (JavisDiT, UniVerse-1) 과 상용 모델 (Veo3) 을 비교 평가했습니다.
- 품질 및 일관성: UniVerse-1 대비 FVD(비디오 품질), FAD(오디오 품질), CLIP 점수 등 모든 지표에서 크게 향상되었습니다.
- 동기화: TA-RoPE 덕분에 AV-Sync 및 DeSync(비동기화 지표) 에서 가장 우수한 성능을 보였습니다.
- 인간 평가: 인간 평가자 (Human Annotators) 가 수행한 블라인드 테스트에서 기존 모델 대비 70% 이상의 승률을 기록했습니다.
효율성: 2.1B 파라미터 모델로, 1M 데이터만 사용하여 3.1B(JavisDiT) 나 6.4B(UniVerse-1) 모델보다 뛰어난 성능을 내면서도 추론 시간 (약 1 분 3 초) 은 매우 효율적입니다.
Ablation Study:
- MS-MoE 가 단일 FFN 이나 LoRA 만 적용한 경우보다 성능이 우수함을 확인.
- TA-RoPE 가 추가 비용 없이 동기화 성능을 극대화함을 확인.
- AV-DPO 가 인간 선호도 정렬에 결정적인 역할을 함을 확인.

5. 의의 및 결론 (Significance)

이 논문은 **JavisDiT++**를 통해 네이티브 오디오 - 비디오 생성 분야에서 중요한 이정표 (Milestone) 를 세웠습니다.

기술적 진보: 복잡한 이중 스트림 구조 대신 통합된 단일 백본과 MoE, TA-RoPE, DPO 를 결합하여 효율성과 성능의 균형을 달성했습니다.
실용성: 소규모 데이터셋으로도 상용 모델 수준의 품질을 달성할 수 있음을 보여주어, 오픈소스 JAVG 생태계의 발전에 기여합니다.
미래 방향: 인간 선호도 정렬이 JAVG 과제의 핵심 요소임을 입증하여, 향후 더 정교하고 인간 친화적인 멀티모달 생성 모델 개발의 방향성을 제시합니다.

요약하자면, JavisDiT++ 는 효율적인 아키텍처 설계, 정밀한 시간 동기화, 그리고 인간 선호도 기반 최적화를 통해 기존 오픈소스 모델의 한계를 극복하고 상용 모델에 근접하는 고품질 오디오 - 비디오 생성을 가능하게 한 획기적인 연구입니다.

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation