Solaris: Building a Multiplayer Video World Model in Minecraft

この論文は、協調的なマルチエージェント相互作用と同期された動画・行動データの収集を可能にする新たなデータシステムを開発し、段階的な学習パイプラインと「チェックポイント付き自己強制(Checkpointed Self Forcing)」手法を用いて、一貫したマルチビュー観測をシミュレートするマルチプレイヤー動画世界モデル「Solaris」を構築し、既存のベースラインを上回る性能を実証したものである。

Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

公開日 2026-02-27
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、「Solaris(ソラリス)」という、マインクラフトのようなゲームの世界で、「複数のプレイヤーが一緒に遊ぶ様子」を AI が予測して作り出す新しい技術について書かれています。

これまでの AI は、一人称視点(自分だけがどう動くか)しか考えられませんでした。しかし、現実の世界やゲームでは、複数の人が同時に動き回り、お互いに影響し合っています。この論文は、その「複数の視点」を同時に理解し、予測する AI を作りました。

わかりやすくするために、いくつかの比喩を使って説明します。

1. 従来の AI と「一人のカメラマン」

これまでの動画生成 AI は、**「一人のカメラマン」**しか雇っていませんでした。

  • できること: 「自分が前に進んでブロックを置く」という行動を、自分の視点だけで予測して動画を作る。
  • できないこと: 「隣の人が同時にブロックを置いたら、自分の画面にはどう映るのか?」という、他者の視点との整合性が取れません。
  • 結果: 複数の人がいる場面を再現しようとすると、お互いの位置関係がおかしくなったり、消えたりしてしまいます。

2. Solaris の「複数のカメラマンと指揮者」

Solaris は、**「複数のカメラマン」を同時に雇い、彼らを「指揮者(AI)」**が統括するシステムです。

  • プレイヤー 1 の視点プレイヤー 2 の視点を同時に作ります。
  • プレイヤー 1 が「ブロックを置いた」という行動をとると、AI は即座に「プレイヤー 2 の画面にも、そのブロックが映り込むはずだ」と計算し、両方の動画を完全に同期させて作ります。
  • これにより、まるで実際のゲームのように、お互いの動きがリアルタイムで反映された動画が生成されます。

3. 巨大なデータ収集工場「SolarisEngine」

この AI を教えるためには、膨大な「複数の人が一緒に遊ぶデータ」が必要ですが、そんなデータは世の中に存在しませんでした。
そこで、研究者たちは**「SolarisEngine」**という、自動でデータを集める巨大な工場を作りました。

  • ロボット兵士: 中身はプログラムされたロボット(ボット)ですが、人間のように「鉱石を掘る」「家を建てる」「敵と戦う」などの複雑な行動を、2 人組で協力して行います。
  • 自動撮影: これらのロボットが遊ぶ様子を、2 台のカメラ(それぞれの視点)で同時に撮影し、1200 万枚以上の画像データを収集しました。
  • これまで「一人遊び」のデータしかなかったため、この「協力プレイのデータ集め」自体が大きな功績です。

4. 記憶と学習の魔法「チェックポイント付き自己強制学習」

長い動画を作るのは AI にとって非常に難しく、時間が経つと「あれ?このブロック、どこに置いたっけ?」と記憶が飛んでしまいがちです。
Solaris は、**「チェックポイント付き自己強制学習(Checkpointed Self Forcing)」**という工夫でこれを解決しました。

  • 比喩: 長い小説を書くとき、毎回最初から読み直して「前の章の続きを書く」のは時間とメモリ(脳の容量)を大量に消費します。
  • Solaris の方法:
    1. まず、メモ帳に「あらすじ(中間結果)」をメモだけ残して、一旦書き込みを止めます(メモリ節約)。
    2. その後、そのメモを頼りに、必要な部分だけ思い出して書き直します(再計算)。
    3. これにより、「長い物語(長い動画)」を、少ないメモリで、かつ前後のつながりが崩れないように作れるようになりました。

5. 何がすごいのか?(評価テスト)

この AI は、単にきれいな動画を作るだけでなく、以下のことを正しく理解しているかテストされました。

  • 移動: 相手が動くと、自分の視点でも相手が動くように見えるか?
  • 記憶: 一度見えない場所に行っても、相手の位置を覚えているか?
  • 建築: 相手が壁を作ると、自分の視点でも壁が見えるか?
  • 視点の一致: 2 人が同じ方を見たら、見える景色が同じか?

結果、Solaris は既存の技術よりもはるかに高い精度で、**「複数の人間が同じ世界で相互作用している」**ようなリアルな動画を生成することに成功しました。

まとめ

この研究は、**「AI が一人の視点だけでなく、複数の視点から世界を理解し、予測する」**という、新しい段階への一歩です。

  • 従来の AI: 「私はこう動く」
  • Solaris: 「私がこう動くと、あなただってこう見えるよね?そして、あなたがそう動けば、私にもこう映るはずだ」

この技術は、将来的に複数の AI が協力して複雑なタスクをこなしたり、よりリアルなバーチャルワールドを作ったりする基盤になると期待されています。まるで、AI が「他者の視点」を理解できるようになった瞬間のような画期的な成果です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →