Each language version is independently generated for its own context, not a direct translation.

この論文は、**「MultiGen（マルチジェン）」**という、新しいタイプのゲーム生成システムについて紹介しています。

これまでの「AI がゲームを作る」技術には、2 つの大きな悩みがありました。

編集が難しい： 「壁をここに変えたい」「マップの形を変えたい」と思っても、AI が勝手に作りすぎてしまい、思い通りにコントロールできない。
複数人で遊べない： 「みんなで同じ世界を共有して、お互いの行動に影響し合いたい」と思っても、AI は「1 人だけが見ている世界」しか作れず、2 人目のプレイヤーが見ている景色と 1 人目の景色がバラバラになってしまう。

この論文は、その悩みを解決するために**「外部のメモ帳（外部メモリ）」**というアイデアを導入しました。

以下に、難しい専門用語を使わず、日常の例え話で解説します。

🧠 核心となるアイデア：「頭の中」ではなく「黒板」を使う

これまでの AI ゲームエンジンは、**「記憶力だけでゲームを進める」**ようなものでした。

昔のやり方（暗記型）： AI は「直前の 10 秒間の映像」しか覚えていません。「次に何が見えるか？」を予測する際、過去の映像を頼りに「たぶん壁があるだろうな」と想像して描きます。
- 問題点： 時間が経つと記憶が曖昧になり、「あれ？ここは廊下だったはずなのに、突然森になっている！」といった**記憶違い（ハルシネーション）**が起きます。また、プレイヤーが「壁を壊して」と言っても、AI は「あ、でも記憶ではここは壁だったから」と無視してしまいます。
MultiGen のやり方（黒板型）：
ここでは、AI の頭の中に**「大きな黒板（外部メモリ）」**を用意しました。
- 黒板の内容： ゲームのマップの形（壁や床の配置）や、プレイヤーが今どこにいるか、という**「事実」**が常に書き込まれています。
- 仕組み：
  1. デザイナー（あなた）： 黒板に「ここは壁、ここは通路」と粗い図面を描きます。
  2. AI（画家）： 黒板を見ながら、「じゃあ、この壁から見える景色を描こう」と考えます。
  3. プレイヤー： 動くと、黒板上の自分の位置が更新されます。

これにより、AI は「記憶」に頼らず、「黒板に書かれた事実」に基づいて描画するため、**「壁はいつまでたっても壁」であり、「プレイヤーが壁を壊せば、次の瞬間から壁は消えている」**という、一貫性のある世界を作れます。

🎮 具体的な 2 つのすごい機能

このシステムを使うと、何がすごいことができるのでしょうか？

1. 🗺️ 「粗い下書き」から本物のゲームを作る（レベルデザイン）

ユーザーは、複雑な 3D モデルを作る必要はありません。

例え話： 建築士が「ここは壁、ここはドア」という**簡単な平面図（メモ帳）**だけ渡せば、AI がその通りに立派な家（ゲームの景色）をリアルタイムで描き上げます。
メリット： 平面図さえ変えれば、ゲームの構造を自由自在に操れます。AI が勝手に「ここは森に変えちゃった」というような暴走が起きません。

2. 🤝 「同じ世界」を複数人で共有する（マルチプレイ）

これがこの論文の最大の強みです。

昔のやり方： プレイヤー A と B がそれぞれ「自分の世界」を AI に作らせていると、A が B を見ているのに、B の画面には A がいない、なんてことが起きます（それぞれの記憶が違うから）。
MultiGen のやり方：
- プレイヤー A と B は、**同じ「黒板（共有メモリ）」**を共有しています。
- A が「B を撃った！」とアクションを起こすと、黒板に「B は倒れた」と書き込まれます。
- B の画面を作る AI も、その黒板を見て「あ、B は倒れたから、B の画面では倒れている姿を描こう」とします。
- 結果： A から見た B と、B から見た自分、そして A の画面に映る B、すべてが完全に一致した、矛盾のない世界が作れます。

🛠️ システムの仕組み（3 つの役割分担）

このシステムは、1 つの巨大な AI が全部やるのではなく、3 つの役割に分かれて協力しています。

メモ帳担当（Memory Module）：
- 「マップの形」と「誰がどこにいるか」を管理する係。
- 常に正しい情報を黒板に書き込み続けます。
画家担当（Observation Module）：
- 「メモ帳の情報」と「直前の映像」を見て、「今、プレイヤーの目には何が映っているか」を描く係。
- ここが最新の「拡散モデル（画像生成 AI）」を使っています。
動き担当（Dynamics Module）：
- 「プレイヤーが動いた」という情報を受け取り、「次はどの位置にいるか」を計算してメモ帳に反映させる係。

このように役割を分けることで、**「長い時間遊んでも世界が崩れない」かつ「リアルタイムで複数人に対応できる」**という、夢のようなゲームエンジンを実現しました。

🎉 まとめ

この論文は、**「AI にゲームを作らせる」という分野に、「編集しやすく、みんなで共有できる」**という新しいルールを持ち込みました。

昔： AI が勝手に想像して描くので、コントロールしにくかった。
今： **「黒板（外部メモリ）」**という共有の事実を用意することで、ユーザーが意図した通りに世界を設計でき、みんなで同じ現実を共有して遊べるようになりました。

これは、単なる「映像生成」ではなく、**「本当に遊べる、編集可能なゲームエンジン」**の誕生を告げる画期的な研究です。

Each language version is independently generated for its own context, not a direct translation.

MultiGen: 拡散ゲームエンジンにおける編集可能なマルチプレイヤーワールドのためのレベルデザイン技術

この論文は、現在のビデオ生成モデル（ワールドモデル）が抱える「ユーザーによる環境の編集性」と「複数プレイヤー間の共有状態の維持」という 2 つの課題を解決するため、**明示的な外部メモリ（Explicit External Memory）**を導入した新しいアーキテクチャ「MultiGen」を提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義 (Problem)

既存のビデオ生成モデルや拡散ベースのゲームエンジン（例：GameNGen）には、インタラクティブな体験において以下の 2 つの重大な限界がありました。

編集性と再現性の欠如: 現在のシステムは、モデルのコンテキストウィンドウ内に暗黙的な状態のみを保持しています。そのため、ユーザーが事前に環境の構造（レベルデザイン）を指定したり、生成された長いロールアウト（シミュレーション）を意図通りに制御・編集したりすることが困難です。
マルチプレイヤーの非互換性: 複数のプレイヤーが共通のワールドで相互作用する際、各プレイヤーのローカルな履歴（フレーム）のみに基づいて状態を推測するため、異なる視点間での一貫性（例：あるプレイヤーが倒された時、他のプレイヤーの画面にも反映されるなど）を長期的に維持することができません。

2. 手法 (Methodology)

MultiGen は、従来の「単一のモデルで次のフレームを予測する」というパラダイムを捨て、システムをメモリ（Memory）、観測（Observation）、**ダイナミクス（Dynamics）**の 3 つのモジュールに分解するモジュラーアーキテクチャを採用しています。

2.1 外部メモリ (External Memory)

システムは、モデルのコンテキストウィンドウを超えて持続する「外部メモリ」を維持します。

マップ (M): 2D の頂点と線分で構成されるトップダウン視点のレイアウト（壁や通路の幾何学形状）。これは静的なブループリントとして機能し、生成の全過程で参照されます。
プレイヤーの姿勢 (Pose): 各プレイヤーの座標 $(x, y)$ と向き $\theta$ 。
視覚コンテキスト: 最近のフレームの履歴。

このメモリは、ユーザーが生成前に編集可能であり、プレイヤーの行動によって更新されます。

2.2 3 つのモジュール

メモリモジュール:
- 静的なマップ $M$ と動的なプレイヤー姿勢 $p_t$ を管理します。
- 観測モジュールとダイナミクスモジュールに、現在の姿勢とマップに基づいた幾何学的な信号（例：レイトレーシングによる深度/視差マップ）を提供します。
観測モジュール (Observation Module):
- 拡散モデル（UNet）を使用し、次のフレームを生成します。
- 条件入力として、過去のフレーム、アクション、および**メモリから読み取った幾何学的信号（深度マップなど）**を受け取ります。
- これにより、モデルは詳細なテクスチャや動きを生成しつつ、外部メモリに定義された大まかな構造に厳密に従うことができます。
ダイナミクスモジュール (Dynamics Module):
- 軽量なトランスフォーマーエンコーダを使用し、アクションと観測モジュールの中間特徴量に基づいて、プレイヤーの姿勢の更新分（ $\Delta p$ ）を予測します。
- 外部メモリの姿勢情報を更新し、次のステップへ状態を遷移させます。

2.3 推論プロセス

各タイムステップで、システムは以下のループを実行します。

外部メモリから現在の姿勢とマップに基づき幾何学的信号を取得。
観測モジュールで次のフレームを拡散生成。
ダイナミクスモジュールで姿勢を更新し、メモリ状態を進める。

3. 主要な貢献 (Key Contributions)

外部メモリに基づく拡散ワールドモデルの定式化:
ユーザーの行動による共有状態の更新を可能にし、一貫性のある長期的なインタラクティブロールアウトを実現しました。
モジュラーアーキテクチャの提案:
メモリ、観測、ダイナミクスを分離することで、単一モデルの限界を克服し、外部メモリの読み書きに対するクリーンなインターフェースを提供しました。
2 つの主要な応用と評価:
- 編集可能なレベルデザイン: ユーザーが粗い 2D 幾何学（ミニマップ）を指定するだけで、一貫性のある第一人称視点のゲームプレイを生成可能にしました。
- リアルタイムマルチプレイヤー: 複数のプレイヤーが同じ外部メモリを共有・更新することで、視点間の一貫した相互作用（例：一人が他者を攻撃し、他者の視点でもその現象が正しく描画される）を実現しました。

4. 結果 (Results)

実験は『Doom』環境で行われました。

レベルデザイン（編集性）:
- 従来の暗黙的状態モデル（GameNGen ベースライン）と比較し、外部メモリを使用する手法は、ロールアウトの後半においても構造的一貫性を維持しました。
- 定量的評価（SSIM, LPIPS）において、特に長いロールアウト（128 ステップ以降）で、構造の崩れ（ドリフト）が少なく、より高い精度を達成しました。
マルチプレイヤー相互作用:
- 2 プレイヤーのデモにおいて、プレイヤー A がプレイヤー B を倒す、または復活させるなどのイベントが、両者の視点で論理的に整合した形で描画されました。
- 一貫性評価: 敵の存在を検出する VLM（ビジョン・ラングエージ・モデル）による評価において、外部メモリを使用しないスプリットスクリーンモデル（精度 65.31%）に対し、MultiGen は**75.38%**の精度を達成し、幻覚（存在しない敵の描画）や見落としを大幅に減らしました。
- リアルタイム性: 1 プレイヤーあたり NVIDIA A100 を使用し、約 20 FPS で動作し、インタラクティブなマルチプレイヤー体験が可能であることを示しました。

5. 意義と結論 (Significance)

MultiGen は、生成ゲームエンジンの設計において重要な転換点となるアプローチを示しています。

制御可能性の向上: 生成モデルを「ブラックボックス」から、ユーザーが構造を直接定義・編集できる「ツール」へと進化させました。
マルチプレイヤーの現実化: 従来の生成モデルでは難しかった、複数のエージェントが共有する一貫した世界の実現を、外部メモリというシンプルな機構によって可能にしました。
将来の展望: この「メモリ中心のモジュラー設計」は、より制御可能で拡張性のある次世代の生成ゲームエンジンの基盤となり得ます。

本論文は、拡散モデルを単なる動画生成ツールではなく、編集可能で共有可能なインタラクティブなゲームエンジンとして実用化するための重要なステップを示唆しています。

MultiGen: Level-Design for Editable Multiplayer Worlds in Diffusion Game Engines