Each language version is independently generated for its own context, not a direct translation.

JavisDiT++：AI が「映像」と「音」を完璧にシンクロさせる新技術

この論文は、AI がテキスト（文章）から「映像」と「その音」を同時に、かつ完璧に同期させて作る新しい技術「JavisDiT++」について紹介しています。

これまでの AI は、映像を作るか、音を作るか、あるいは両方作っても「音と映像のタイミングがズレている」といった問題がありました。しかし、この新しいモデルは、まるで**「プロの映画監督と音響エンジニアが、頭の中で完全にシンクロして作業している」**ようなレベルの成果を出します。

この技術を、3 つの大きな工夫（魔法の道具）を使って解説します。

1. 2 人の天才が「共有の部屋」で協力する（MS-MoE）

【比喩：料理人と音楽家の共有キッチン】

これまでの AI は、映像を作る専門家と音を作る専門家が、それぞれ別の部屋で作業し、最後に無理やりつなぐようなものでした。これだと、映像の「波」に音が乗らなかったり、音が映像の「動き」と合わなかったりします。

JavisDiT++ は、**「共有のキッチン」**という新しい仕組みを導入しました。

共有のテーブル（共通の注意層）： 映像と音のデータが同じテーブルに並び、互いに「今、何が起こっているか？」を会話しながら情報を交換します。
個別の調理台（専門の FFN）： 会話が終わった後、映像担当は「映像の調理台」で、音担当は「音の調理台」で、それぞれの専門性を高めて仕上げます。

このおかげで、映像と音が互いに影響し合いながら、それぞれが最高品質に仕上がります。まるで、2 人の天才が同じ空間で呼吸を合わせて料理を作っているようなものです。

2. 時計を「1 つ」に統一する（TA-RoPE）

【比喩：2 つの時計を 1 つに】

映像と音を作る際、最も難しいのが「タイミング」です。例えば、「犬が吠える」という映像と「ワンワン」という音が、0.1 秒でもズレると不自然に聞こえます。

これまでの AI は、映像用と音用で「別々の時計」を持っていて、後から無理やり合わせようとしていました。
JavisDiT++ は、**「1 つの巨大なタイムライン」**を用意しました。

映像の「フレーム 1」も、音の「0.1 秒目」も、同じ「時刻 1」として扱います。
位置を特定する「住所」のような仕組み（位置符号）を工夫し、映像と音が「同じ時間軸」に必ず並ぶように設計しました。

これにより、映像の「水しぶき」と音の「バシャッ」という音が、瞬時に、完璧に重なるようになります。まるで、映像と音が最初から同じリズムで生まれてきたかのようです。

3. 人間の「好き・嫌い」を学習する（AV-DPO）

【比喩：厳しい審査員とのトレーニング】

AI が作った映像や音が「技術的には正しい」だけでは、人間は「感動しない」ことがあります。
そこで、JavisDiT++ は**「人間の好みを学習する」**というステップを追加しました。

審査員（報酬モデル）： AI が作った複数のパターンを、人間の好みに近い「高品質な音・映像」かどうかを厳しくチェックする AI 審査員が評価します。
勝ち負けの学習： 「映像は綺麗だが音が雑音」なパターンと、「音も映像も完璧」なパターンを比較し、「後者の方が勝ち（Good）」、「前者は負け（Bad）」と学習させます。

このプロセスを繰り返すことで、AI は単に「映像と音を作る」だけでなく、**「人間が心地よく感じる、自然で美しい音と映像」**を作るように進化しました。

この技術のすごいところ

少ないデータで最強： 通常、こんな高性能な AI を作るには膨大なデータが必要ですが、JavisDiT++ は約 100 万件のデータ（他の巨大モデルに比べればかなり少ない）で、世界最高レベルの性能を達成しました。
オープンソース： この技術は公開されており、誰でも利用できます。
リアルな世界： 鳥が水に飛び込む音、スポーツカーのエンジン音、ピアノの音色など、あらゆるシチュエーションで、映像と音が自然に一体化します。

まとめ

JavisDiT++ は、**「映像と音を別々に作るのではなく、最初から『1 つの体験』として作り上げる」**という新しいアプローチを確立しました。

これからの AI 動画生成は、単に「動く絵」や「音がする動画」ではなく、**「まるで現実世界で起きているかのような、没入感のある体験」**を、誰でも簡単に作れる時代が来るかもしれません。この論文は、その未来への重要な一歩を踏み出したと言えます。

Each language version is independently generated for its own context, not a direct translation.

JavisDiT++: 音声・動画の統合モデリングと最適化による共同生成の技術サマリー

本論文は、ICLR 2026 にて発表された「JavisDiT++」に関する研究報告です。これは、テキスト記述から同期された高品質な音声と動画を同時に生成する「共同音声・動画生成（Joint Audio-Video Generation: JAVG）」タスクに焦点を当てたものです。既存のオープンソースモデルが、商用モデル（例：Veo3）に比べて生成品質、時間的同期性、人間の嗜好との整合性において劣る課題を解決し、効率的かつ高性能なフレームワークを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義と背景

背景: AIGC（AI 生成コンテンツ）はテキストから画像・動画・音声への多モーダル合成へと進化しています。特に、テキスト入力から音声と動画を同期して生成する JAVG は、短編動画、映画、ゲーム、VR などの分野で需要が高まっています。
課題: 既存のオープンソース手法（JavisDiT, UniVerse-1 など）は、以下の点で商用モデル（Veo3 など）に劣っています。
- 生成品質: 音声や動画の解像度・鮮明度が低い。
- 時間的同期: 音声と動画のタイミングがずれている（リップシンクや動作との不一致）。
- 人間の嗜好との整合性: 美的観点や文脈の整合性が不十分。
目的: 限られたデータ量（約 100 万件）と計算リソースで、商用モデルに匹敵する高品質・高精度な JAVG モデルを構築すること。

2. 提案手法 (Methodology)

JavisDiT++ は、Wan2.1-1.3B-T2V（テキストから動画生成モデル）を基盤とし、以下の 3 つの主要な技術革新を導入して統合モデルを構築しています。

2.1 モダリティ固有の混合専門家 (Modality-Specific MoE: MS-MoE)

概要: 音声と動画のトークンを共有するマルチヘッド・セルフアテンション層で相互情報を交換させた後、それぞれのモダリティ固有の FFN（Feed-Forward Network）層で情報を集約するアーキテクチャです。
効果:
- 従来の単一 FFN や複雑な双ストリーム構造と比較し、クロスモーダル相互作用を維持しつつ、各モダリティ固有の生成品質を向上させます。
- パラメータ数は 1.3B から 2.1B に増加しますが、アクティブなパラメータ数は 1.3B のまま維持され、推論コストの増加を抑えつつモデル容量を拡大しています。

2.2 時間整合型 Rotary Position Encoding (TA-RoPE)

概要: 音声と動画のトークンに対して、統一された時間軸上で位置 ID を割り当てる新しい位置エンコーディング戦略です。
仕組み:
- 動画トークンの 3D 位置 ID $(t, h, w)$ に対し、音声トークン（メルスペクトログラム）の時間軸を動画のフレーム番号に厳密に一致させます。
- 位置 ID の重複を避けるため、音声の周波数・時間次元に動画の高さ・幅をオフセットとして加算し、$(t, h+offset, w+offset)$ 形式で定義します。
効果: 明示的なフレームレベルの時間同期を実現し、ST-Prior やフレームレベルのクロスアテンションに比べて、追加の計算コストなしで高精度な同期を達成します。

2.3 音声・動画直接嗜好最適化 (AV-DPO)

概要: 人間の嗜好にモデルを合わせるための直接嗜好最適化（DPO）を JAVG タスクに初めて適用しました。
プロセス:
- 報酬モデル: 生成された音声・動画ペアを、AudioBox（音質）、VideoAlign（画質・動き）、ImageBind（意味的整合性）、Syncformer（同期性）など多様な報酬モデルで評価します。
- 選別: 複数のモダリティ（音声、動画、音声 - 動画整合）のスコアを正規化し、すべての次元で勝者（Chosen）が敗者（Rejected）を上回るペアを選択します。
- 最適化: 選択されたペアを用いて、フローマッチング損失を正則化項として加えながらモデルを微調整します。
効果: 品質、整合性、同期性のすべての次元で、人間の好みに合致した生成結果を安定して得られるようになります。

3. 主要な貢献 (Key Contributions)

効率的な統合アーキテクチャ: 音声・動画の品質向上のための MS-MoE と、精密な時間同期のための TA-RoPE を導入した、簡潔かつ強力な JAVG モデルを提案。
嗜好アライメントの初適用: JAVG タスクにおいて、AV-DPO アルゴリズムを用いて人間の嗜好（品質、整合性、同期）をモデルに組み込んだ世界初の試み。
高効率な学習: 公開データセット約 100 万件（78 万件の音声 - テキスト対、36 万件の高品質音声付き動画）のみで SOTA（State-of-the-Art）性能を達成。大規模なデータや計算資源がなくても高性能なモデルが構築可能であることを示しました。

4. 実験結果 (Results)

ベンチマーク性能 (JavisBench):
- 既存のオープンソースモデル（JavisDiT, UniVerse-1）をすべての指標（FVD, FAD, 同期性スコアなど）で上回りました。
- 特に、UniVerse-1（同様の基盤モデル使用）と比較して、品質と整合性で大幅な改善が見られました。
- 商用モデル Veo3 との比較でも、定量的・定性的に差を縮め、一部で匹敵する結果を示しました。
推論効率:
- 基盤モデル（Wan2.1）に対して推論コストは約 1.6% のみ増加。双ストリーム方式（UniVerse-1 など）に比べて遥かに高速・軽量です。
人間評価:
- 人間の評価者によるブラインドテストにおいて、ベースラインモデル（JavisDiT, UniVerse-1）に対して 70% 以上で「勝つ」評価を得ました。
- AV-DPO 適用により、人間が好む生成結果の割合が 25% 以上向上しました。

5. 意義と将来展望

分野のマイルストーン: 限られたリソースで高品質なネイティブな音声・動画生成を実現し、オープンソースコミュニティにおける JAVG の新たな基準を設定しました。
スケーラビリティ: 複雑なアーキテクチャに依存せず、効率的なモジュール設計と嗜好最適化によって性能向上が可能であることを示し、今後の大規模モデル開発への指針となりました。
今後の課題: 学習データの規模拡大、より大規模な基盤モデルへの適用、音楽や音声など制御性の高い生成への拡張、および他のモーダル（画像・音声・動画）を跨ぐ統合生成への展開が期待されます。

結論:
JavisDiT++ は、MS-MoE による品質向上、TA-RoPE による精密な同期、AV-DPO による人間嗜好への適合という 3 つの柱により、オープンソースの JAVG モデルが商用レベルに到達し得ることを実証した画期的な研究です。コード、モデル、データセットは公開されており、今後の研究発展に大きく寄与すると期待されます。

JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation