JavisDiT++: Unified Modeling and Optimization for Joint Audio-Video Generation

本論文は、Wan2.1-1.3B-T2V を基盤とし、モダリティ固有の混合専門家(MS-MoE)設計、時間整合性を持つ RoPE(TA-RoPE)戦略、および人間の好みに合わせた直接選好最適化(AV-DPO)を導入することで、既存のオープンソース手法を凌駕する高品質かつ同期性の高い音声・映像生成を実現する JavisDiT++ を提案する。

Kai Liu, Yanhao Zheng, Kai Wang, Shengqiong Wu, Rongjunchen Zhang, Jiebo Luo, Dimitrios Hatzinakos, Ziwei Liu, Hao Fei, Tat-Seng Chua

公開日 2026-02-24
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

JavisDiT++:AI が「映像」と「音」を完璧にシンクロさせる新技術

この論文は、AI がテキスト(文章)から「映像」と「その音」を同時に、かつ完璧に同期させて作る新しい技術「JavisDiT++」について紹介しています。

これまでの AI は、映像を作るか、音を作るか、あるいは両方作っても「音と映像のタイミングがズレている」といった問題がありました。しかし、この新しいモデルは、まるで**「プロの映画監督と音響エンジニアが、頭の中で完全にシンクロして作業している」**ようなレベルの成果を出します。

この技術を、3 つの大きな工夫(魔法の道具)を使って解説します。


1. 2 人の天才が「共有の部屋」で協力する(MS-MoE)

【比喩:料理人と音楽家の共有キッチン】

これまでの AI は、映像を作る専門家と音を作る専門家が、それぞれ別の部屋で作業し、最後に無理やりつなぐようなものでした。これだと、映像の「波」に音が乗らなかったり、音が映像の「動き」と合わなかったりします。

JavisDiT++ は、**「共有のキッチン」**という新しい仕組みを導入しました。

  • 共有のテーブル(共通の注意層): 映像と音のデータが同じテーブルに並び、互いに「今、何が起こっているか?」を会話しながら情報を交換します。
  • 個別の調理台(専門の FFN): 会話が終わった後、映像担当は「映像の調理台」で、音担当は「音の調理台」で、それぞれの専門性を高めて仕上げます。

このおかげで、映像と音が互いに影響し合いながら、それぞれが最高品質に仕上がります。まるで、2 人の天才が同じ空間で呼吸を合わせて料理を作っているようなものです。

2. 時計を「1 つ」に統一する(TA-RoPE)

【比喩:2 つの時計を 1 つに】

映像と音を作る際、最も難しいのが「タイミング」です。例えば、「犬が吠える」という映像と「ワンワン」という音が、0.1 秒でもズレると不自然に聞こえます。

これまでの AI は、映像用と音用で「別々の時計」を持っていて、後から無理やり合わせようとしていました。
JavisDiT++ は、**「1 つの巨大なタイムライン」**を用意しました。

  • 映像の「フレーム 1」も、音の「0.1 秒目」も、同じ「時刻 1」として扱います。
  • 位置を特定する「住所」のような仕組み(位置符号)を工夫し、映像と音が「同じ時間軸」に必ず並ぶように設計しました。

これにより、映像の「水しぶき」と音の「バシャッ」という音が、瞬時に、完璧に重なるようになります。まるで、映像と音が最初から同じリズムで生まれてきたかのようです。

3. 人間の「好き・嫌い」を学習する(AV-DPO)

【比喩:厳しい審査員とのトレーニング】

AI が作った映像や音が「技術的には正しい」だけでは、人間は「感動しない」ことがあります。
そこで、JavisDiT++ は**「人間の好みを学習する」**というステップを追加しました。

  • 審査員(報酬モデル): AI が作った複数のパターンを、人間の好みに近い「高品質な音・映像」かどうかを厳しくチェックする AI 審査員が評価します。
  • 勝ち負けの学習: 「映像は綺麗だが音が雑音」なパターンと、「音も映像も完璧」なパターンを比較し、「後者の方が勝ち(Good)」、「前者は負け(Bad)」と学習させます。

このプロセスを繰り返すことで、AI は単に「映像と音を作る」だけでなく、**「人間が心地よく感じる、自然で美しい音と映像」**を作るように進化しました。


この技術のすごいところ

  • 少ないデータで最強: 通常、こんな高性能な AI を作るには膨大なデータが必要ですが、JavisDiT++ は約 100 万件のデータ(他の巨大モデルに比べればかなり少ない)で、世界最高レベルの性能を達成しました。
  • オープンソース: この技術は公開されており、誰でも利用できます。
  • リアルな世界: 鳥が水に飛び込む音、スポーツカーのエンジン音、ピアノの音色など、あらゆるシチュエーションで、映像と音が自然に一体化します。

まとめ

JavisDiT++ は、**「映像と音を別々に作るのではなく、最初から『1 つの体験』として作り上げる」**という新しいアプローチを確立しました。

これからの AI 動画生成は、単に「動く絵」や「音がする動画」ではなく、**「まるで現実世界で起きているかのような、没入感のある体験」**を、誰でも簡単に作れる時代が来るかもしれません。この論文は、その未来への重要な一歩を踏み出したと言えます。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →