DreamWorld: Unified World Modeling in Video Generation

既存の動画生成モデルが抱える世界理解の欠如を解消するため、物理常識や時空間的一貫性などの多様な世界知識を統合的に学習する「DreamWorld」フレームワークを提案し、訓練中の安定性を高める「一貫性制約アニール」と推論時の「多ソース内側ガイダンス」を導入することで、Wan2.1 を上回る世界の一貫性を達成した。

Boming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

ドリームワールド:動画生成の「常識」を教える新しい仕組み

この論文は、AI が動画を作る技術について書かれたものです。現在の AI は、見た目はとてもリアルなのに、「物理法則」や「世界の仕組み」をあまり理解していないという問題を抱えています。

例えば、AI に「お茶をこぼす」と言っても、お茶が重力に従って下に落ちるのではなく、空中に浮いたり、逆さまにこぼれたりすることがあります。

この論文では、**「DreamWorld(ドリームワールド)」**という新しい仕組みを紹介しています。これをわかりやすく説明するために、いくつかの例えを使ってみましょう。


1. 今までの AI と「夢見る画家」の問題

今の最先端の動画生成 AI は、**「夢見る画家」に似ています。
この画家は、見た目の美しさ(色の鮮やかさや動きの滑らかさ)を追求するのが得意ですが、
「現実世界のルール」**をあまり知りません。

  • 問題点: 「蜂蜜がヨーグルトに落ちる」動画を作ろうとすると、蜂蜜が重力に従って下に落ちるのではなく、空中で止まったり、ヨーグルトの表面をすり抜けて消えたりする「ありえない現象」が起きることがあります。
  • 原因: 以前の技術は、特定の専門家(例えば「動きの専門家」だけ)の知識を一つだけ取り入れていましたが、**「物理」「3D 空間」「意味」**といった複数の知識を同時に教えると、画家が混乱して絵が崩れてしまう(「複数の先生に同時に教えてもらって、何が正しいか分からなくなる」状態)という課題がありました。

2. DreamWorld の解決策:「世界のルールブック」を一緒に学ぶ

DreamWorld は、この画家に**「現実世界のルールブック」**を同時に教える新しい教室を作りました。

  • 3 つの先生(知識源):
    1. 動きの先生(光流): 物がどう動くか(水が流れる、風で揺れる)を教えます。
    2. 意味の先生(DINOv2): 「これは犬」「これはお茶」という意味を理解させ、文脈に合うように教えます。
    3. 空間の先生(VGGT): 3 次元の奥行きや、物が重なっている様子(影や隠れ方)を教えます。

これらを**「一つの教室」**で同時に教えています。しかし、いきなり全部を厳しく教え込むと、画家は混乱して絵が汚くなったり、カクカクしたりしてしまいます。

3. 2 つの魔法のテクニック

そこで、DreamWorld は 2 つの特別なテクニックを使います。

① 「しなやかな指導」の先生(CCA:Consistent Constraint Annealing)

これは**「段階的なしつけ」**のようなものです。

  • 最初の頃: 動画の「見た目の美しさ」を一番大切にします。ルールは少しだけ教えて、画家が混乱しないようにします。
  • 後半になるにつれ: 徐々に「物理法則」や「空間のルール」の指導を強めていきます。
  • 結果: 最初は自由に描かせて、徐々に現実的なルールに馴染ませていくので、**「美しいのに、ありえない現象が起きない」**動画が作れるようになります。

② 「内なるガイド」のナビゲーター(Multi-Source Inner-Guidance)

動画を作る最中(推理中)に、AI 自身が**「今の動きは物理的に正しいかな?」**と自問自答しながら修正する機能です。

  • 例:「お茶を傾けたら、液体が下に落ちるはずだ」と AI が自分で判断し、もし「浮いてしまった」なら、**「あ、違うな、下ろそう」**と自動的に軌道修正します。
  • これにより、**「現実の物理法則に厳密に従った」**滑らかな動きが実現します。

4. どれくらいすごいのか?(実験結果)

この DreamWorld をテストしたところ、以下の結果が出ました。

  • VBench(動画の総合評価): 従来の最高峰のモデル(Wan2.1)よりも2.26 ポイントも高くなりました。
  • 物理法則のテスト: 「お茶がこぼれる」や「牛が草を食べる」といった動画で、「ありえない現象(重力無視など)」が起きる確率が大幅に減りました。
  • 視覚的効果: 以前は「牛の足が地面にめり込んでいたり、影がおかしい」ということがありましたが、DreamWorld では**「足が地面に正しく着き、影も自然」**になっています。

まとめ

DreamWorld は、**「ただ綺麗な動画を作る」だけでなく、「現実世界の物理法則や常識を理解して動画を作る」**という新しいステップを踏み出しました。

  • 昔の AI: 夢の中で見たような、美しすぎるけど不自然な動画。
  • DreamWorld: 現実世界で実際に起こりうる、理にかなった美しい動画。

これにより、将来的には、映画の制作や、現実と同じように振る舞う「仮想世界(メタバース)」の構築など、より高度な応用が可能になると期待されています。