Inference-time Physics Alignment of Video Generative Models with Latent World Models

本論文は、潜在世界モデル(VJEPA-2)の物理的事前知識を報酬として利用し、推論時に複数の生成軌道を探索・誘導する「WMReward」を導入することで、動画生成モデルの物理法則への整合性を大幅に向上させ、ICCV 2025 の物理推論チャレンジで優勝を果たした手法を提案しています。

Jianhao Yuan, Xiaofeng Zhang, Felix Friedrich, Nicolas Beltran-Velez, Melissa Hall, Reyhane Askari-Hemmat, Xiaochuang Han, Nicolas Ballas, Michal Drozdzal, Adriana Romero-Soriano

公開日 2026-03-02
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

動画生成 AI に「物理の直感」を教える新しい方法

~「WMReward」という魔法のコンパス~

この論文は、最新の動画生成 AI(Sora や MAGI-1 などのようなもの)が抱えるある「大きな欠点」を、作り直すことなく生成する瞬間に解決しようとする画期的な研究です。

🎬 問題:美しいけど「物理法則」が破綻している

最新の AI は、まるで映画のような美しい動画を作れます。しかし、中身を見るとおかしなことが起きています。

  • 落ちているボールが、なぜか空中で止まったり、逆に上に跳ね返ったりする。
  • 水が流れているのに、地面に染み込まずに浮いている。
  • 物体がぶつかったのに、すり抜けてしまう。

これらは AI が「物理法則(重力、摩擦、慣性など)」をちゃんと理解していないからです。これまでの研究では、「もっと大量のデータで学習させよう(再トレーニング)」と試みられてきましたが、今回は**「生成する瞬間の戦略を変える」**だけで解決しました。


💡 解決策:「未来を予言する先生」を雇う

この研究の核心は、**「WMReward(ウィム・リワード)」**という新しい仕組みです。

これを理解するために、以下のアナロジーを使ってみましょう。

🎨 アナロジー:絵描きと未来予言者

  1. 動画生成 AI(絵描き)
    天才的な絵描きですが、物理法則をあまり勉強していません。彼に「ボールを投げる動画を描いて」と頼むと、見た目は綺麗ですが、ボールの動きがおかしいかもしれません。
  2. 潜在世界モデル(VJEPA-2 / 未来予言者)
    この AI は、大量の動画を見て「次に何が起きるべきか」を潜在空間(抽象的な概念の空間)で予言する専門家です。彼はピクセルの美しさにはこだわらず、「物体がどう動き、どうぶつかるか」という物理的な直感に長けています。

🧭 仕組み:コンパスで道案内をする

WMReward は、この「未来予言者」を**「コンパス」**として使います。

  1. 複数の候補を作る
    絵描き(動画生成 AI)に、同じプロンプトで「ボールを投げる動画」を16 個(N 個)ほど同時に描かせます。
  2. 予言者にチェックさせる
    描かれた動画の「前半部分」を予言者に見せ、「後半はどうなるはずか?」と予言させます。
    • 予言と実際の動画が合っている → 「よし、物理法則に従っているね!」(高得点)
    • 予言と実際の動画がズレている → 「あれ?ボールが浮いてるよ?物理法則がおかしいよ!」(低得点・驚き)
      この「ズレの大きさ(驚き)」を**報酬(スコア)**にします。
  3. ベストな 1 つを選ぶ
    16 個の候補の中で、予言者から「最も物理的に正しい」と評価された 1 つを選んで完成させます。
    • さらに、描きながら「予言者のコンパス」を常に持って、軌道を微調整する(勾配法)という方法も使います。

🚀 結果:驚異的な進化

この方法を使うと、AI は**「再学習」なしで**、劇的に物理法則に従う動画を作れるようになりました。

  • 物理 IQ チャンピオン
    物理法則のテスト(PhysicsIQ)で、62.64%という最高得点を記録し、従来の最高記録を大きく上回って1 位になりました。
  • 人間の評価
    人間が見ても、「こっちの動画の方が自然で、物理的に正しい」と感じ、**11.4%**も勝率が上がりました。
  • 計算コストの節約
    最初から AI を作り直す(再学習)のは何ヶ月もかかり、莫大なコストがかかりますが、この方法は「生成時の計算リソース(試行回数)を増やす」だけで実現できます。

🌟 まとめ:なぜこれがすごいのか?

これまでの AI は「物理を勉強し直す」のが大変でした。しかし、この研究は**「物理の天才(潜在世界モデル)を助手として雇い、生成の瞬間に『それ、物理的に変だよ』と指摘させ、正しい方へ誘導する」**という、非常に賢いアプローチをとりました。

まるで、**「物理法則のコンパス」**を持って、AI が迷いやすい道から、自然でリアルな道へと導くようなものです。これにより、ロボット工学や自動運転など、リアルな物理法則が求められる分野での AI の活用が、一気に現実味を帯びてきました。