Vid2World: Crafting Video Diffusion Models to Interactive World Models

本論文は、大規模インターネットデータで事前学習された動画拡散モデルを、アーキテクチャと学習目的の再設計、および因果的な動作ガイダンスの導入を通じて、ロボット操作やゲームシミュレーションなど多様な領域で高忠実度な未来予測を可能にするインタラクティブな世界モデルへと転用する「Vid2World」という手法を提案しています。

Siqiao Huang, Jialong Wu, Qixing Zhou, Shangchen Miao, Mingsheng Long

公開日 2026-03-10
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

1. 今までの課題:「未来を予測する」のが難しい

まず、**「ワールドモデル(世界モデル)」**とは何かを考えてみましょう。
これは、ロボットや AI が「もし私がこうしたら、どうなるだろう?」と未来をシミュレーションして、賢く行動するための頭脳のようなものです。

  • 今までの問題点:
    従来のワールドモデルは、特定の分野(例えば「ロボットアームの動き」だけ)で、人間が一つ一つ「こう動いたらこうなる」というデータを大量に教えてもらわないと動けませんでした。しかも、予測する映像がボヤけていたり、物理法則(物が落ちる、ぶつかるなど)が破綻していたりして、あまり信用できませんでした。
    • 例え: 昔の予測 AI は、「料理の本」を何冊も読まないと「卵焼きの作り方」を教われない、そして教わっても「焦げたり、形が崩れたりする」ような状態でした。

2. Vid2World のアイデア:「YouTube 動画」から学ぶ

この研究チームは、**「インターネットにある膨大な動画(YouTube など)」に注目しました。
これらの動画には、人間が何百万回も「物を動かす」「走る」「遊ぶ」という行動が記録されています。これらは「行動のラベル(誰が何をしたか)」がついていませんが、
「物理的な世界の動き方」という知識(プリオ)」が詰まっています。

  • Vid2World の正体:
    すでに「美しい動画を作るのが得意な AI(拡散モデル)」を、「未来を予測して、行動に応じて変化させる AI」に変身させる技術です。
    • 例え: すでに「料理のレシピ(動画生成 AI)」を完璧に覚えているシェフが、いきなり「お客様が『塩をもう少し』と言ったら味が変わる」という**「対話型の料理教室」**に生まれ変わるようなものです。

3. 2 つの大きな壁を越える方法

普通の動画生成 AI を「未来予測 AI」にするには、2 つの大きな壁を乗り越える必要があります。Vid2World はこれを巧妙に解決しました。

壁①:「未来」を見て「過去」を作らないようにする(因果性の確保)

  • 問題: 普通の動画生成 AI は、動画の「最初から最後まで」を一度に考えて作ります。つまり、未来の映像を「見てから」過去の映像を作ってしまうような、タイムトラベラーのような状態です。でも、ロボットが未来を予測するときは、「今の状態」から「未来」を順に予測する必要があります。
  • 解決策(因果化):
    研究チームは、AI の頭脳(アーキテクチャ)を手術しました。未来の情報を遮断し、「過去と現在」の情報だけで「未来」を予測するように改造しました。
    • 例え: 映画の脚本家(動画生成 AI)は、結末を知った上で物語を作りますが、Vid2World は**「探偵」**に変身させます。探偵は犯人(未来)を知らないまま、証拠(過去)を一つずつ積み重ねて、次に何が起きるかを推理するのです。

壁②:「あなたの行動」に合わせて未来を変える(行動の制御)

  • 問題: 動画生成 AI は「猫が走る動画を作って」と言われれば猫を作りますが、「私が左に動いたら、猫はどうなる?」という**「もしも(反事実)」**の質問には答えられません。
  • 解決策(行動ガイダンス):
    AI に「今、あなたが『左』というボタンを押した」という信号を、動画の各フレームごとに注入しました。これにより、**「あなたが左に動けば、画面も左に動く」**という、まるでゲームのように操作できる未来を予測できるようになりました。
    • 例え: 普通の動画は「流れる川」ですが、Vid2World は**「レールが切り替わるトーマスくん」**のようになります。レール(行動)を変えれば、列車(未来の映像)が進む先がリアルタイムで変わります。

4. 何ができるようになった?(実験結果)

この技術を使って、さまざまな分野でテストしました。

  1. ロボットアーム:
    実世界のロボットが「棚を開ける」動作を、AI がシミュレーションで予測。実際のロボットと同じくらい正確に、物が動く様子を再現できました。
  2. ゲーム(CS:GO):
    FPS ゲームで、プレイヤーが「左を向く」「撃つ」という行動をとると、AI がその後のゲーム画面をリアルタイムに生成。敵がどこに現れるか、視点がどう動くかを正確に予測しました。
  3. 自動運転・ナビゲーション:
    「右に曲がったらどうなるか」を予測し、実際の道路環境とほぼ同じ映像を生成しました。

5. まとめ:なぜこれがすごいのか?

Vid2World の最大の功績は、「ゼロから学習させる必要がない」ことです。
これまで、ロボットや自動運転の AI を作るには、膨大な「行動付きデータ」を収集して何年も訓練する必要がありました。しかし、Vid2World は、
「すでにインターネットで動画生成を学んだ AI」を流用する
ことで、少ないデータでも高品質な未来予測ができるようにしました。

  • 最終的なイメージ:
    以前は、新しいゲームを作るために「ゼロから世界を設計」する必要がありました。Vid2World は、「すでに作られた壮大なオープンワールド(動画生成 AI)」を、プレイヤーの操作に反応する「インタラクティブなゲーム」へと変換する魔法のツールなのです。

これにより、ロボットがより安全に学習したり、自動運転がより賢くなったりする未来が、一気に近づいたと言えます。