Beyond Pixel Histories: World Models with Persistent 3D State

この論文は、既存のインタラクティブな世界モデルが抱える 3 次元の一貫性や空間的記憶の欠如を解決するため、潜在空間における 3 次元シーンの進化をシミュレートすることで、持続的な空間記憶と幾何学的整合性を実現する新しい世界モデル「PERSIST」を提案し、長期的な安定性や 3 次元空間での環境編集といった新たな能力を実証したものである。

Samuel Garcin, Thomas Walker, Steven McDonagh, Tim Pearce, Hakan Bilen, Tianyu He, Kaixin Wang, Jiang Bian

公開日 2026-03-05
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「PERSIST(パースィスト)」**という新しい AI の仕組みを紹介しています。

一言で言うと、**「AI が動画を作る際、ただの『映像のつなぎ合わせ』ではなく、まるで『立体的な世界そのもの』を頭の中に作って、その中をカメラが動き回るようにして動画を作る」**という画期的な方法です。

従来の AI と、この PERSIST の違いを、わかりやすい例え話で説明しましょう。

🎬 従来の AI:「写真のアルバム」方式

これまでの動画生成 AI は、**「過去の写真を並べて、次の写真を予想する」**というやり方をしていました。

  • 仕組み: 「さっきの 1 秒前の写真を見て、次に何があるか?」を計算します。
  • 問題点:
    • 記憶が短い: 過去の写真を何枚も持っておくのは大変なので、数秒前までしか覚えていません。
    • 3 次元の感覚がない: 「左側にある木」を覚えていても、カメラが回って「右側」を見たとき、その木がどうなっているか(裏側はどうなっているか)を正しく想像できません。
    • 結果: 長い動画になると、建物が突然消えたり、形が崩れたり、空間がぐちゃぐちゃになってしまいます。まるで、**「記憶力が悪くて、部屋を歩き回ると家具の位置がバラバラになってしまう人」**のようですね。

🌍 PERSIST の新方式:「立体的な模型」方式

PERSIST は、「映像そのもの」ではなく、「世界そのもの(3D の模型)」を頭の中に作ります。

  • 仕組み:
    1. 3D 模型を作る: AI はまず、プレイヤーの周りにある「見えない 3D の世界(壁、床、木など)」をデータとして頭の中に作ります。これを**「ラテン 3D 状態」**と呼びます。
    2. カメラを動かす: ユーザーが操作すると、AI はこの 3D 模型の中で「カメラの位置」を計算します。
    3. 映像を投影する: 3D 模型をカメラの視点から「写真」に変換して、画面に表示します。
  • すごいところ:
    • 記憶が無限に近い: 3D 模型は消えません。一度作った木は、カメラが回っても、時間が経っても、同じ場所に同じように存在し続けます。
    • 裏側も知っている: 「木」の 3D 模型を作れば、カメラが回っても「木の裏側」がどう見えるかを正しく計算できます。
    • 編集が簡単: 動画の途中で「ここに木を植えたい」と思えば、3D 模型のデータを書き換えるだけで、映像も自然に変わります。

🧩 具体的なメリット(日常の例えで)

  1. 迷路を歩いても迷わない

    • 従来の AI は、長い廊下を歩いていると「さっき通ったドアはどこだっけ?」と混乱して、壁が突然消えたりします。
    • PERSIST は、**「頭の中に正確な地図(3D 模型)」**を持っているので、何分歩いても、どこを回っても、部屋や家具の位置関係が崩れません。
  2. 裏側も見える魔法

    • 従来の AI は、箱の正面しか見ていないので、横から見たら箱が潰れて見えたりします。
    • PERSIST は、**「箱そのもの(3D 物体)」**を持っているので、どんな角度から見ても、箱は立体的で正しい形をしています。
  3. 見えないところでも変化がある

    • 例えば、プレイヤーが見ていない「裏の洞窟」で水が溜まっているとします。
    • PERSIST は、**「見えていなくても、世界は動いている」**と理解しています。なので、プレイヤーが洞窟に戻ってきたとき、水が溜まっているのが自然に描かれます。

🛠️ 何ができるようになったのか?

この技術を使うと、以下のようなことが可能になります。

  • 1 枚の写真から、無限に広がる世界を作る: 1 枚の画像から、その先の風景を 3D 模型として作り出し、自由に歩き回れる世界を生成できます。
  • 動画の途中で世界を編集できる: 動画を作っている最中に、「この木を消したい」「ここに川を流したい」と思えば、3D 模型をいじるだけで、その後の映像が自然に変わります。
  • ゲームやシミュレーションの練習: AI がこの「正しい 3D 世界」の中で練習すれば、現実世界でロボットを動かすときも、より安全で正確に行動できるようになります。

🎯 まとめ

これまでの AI は**「過去の映像をなぞる画家」でしたが、PERSIST は「頭の中に立体的な世界を構築する建築家」**になりました。

これにより、長く見ても破綻しない、空間的に正しい、そして自由自在に操作できる「本当の仮想現実」が、AI によって作れるようになったのです。