Solaris: Building a Multiplayer Video World Model in Minecraft

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于名为 Solaris 的突破性人工智能研究的通俗解读。想象一下，如果让 AI 不仅学会“自己玩”游戏，还能学会“和朋友们一起玩游戏”，并且能同时看清每个人的视角，这就是 Solaris 做到的事情。

我们可以把这篇论文的核心内容想象成建造一个“多人联机版”的虚拟世界模拟器。

1. 以前的困境：只能看“单人视角”

以前的视频生成 AI（世界模型）就像是一个只会玩单人游戏的玩家。

局限性：如果你让 AI 生成一个视频，它只能模拟“我”看到了什么。如果“我”转身，它知道“我”看到了什么，但它完全不知道“我”的朋友在旁边看到了什么，也不知道朋友做了什么动作。
比喻：这就像你戴着眼罩玩捉迷藏，你只能听到自己的脚步声，却完全不知道队友在哪里，也不知道敌人是从哪个方向来的。这种 AI 无法理解真实世界中那种“多人互动”的复杂关系。

2. Solaris 的诞生：打造“多人联机”的超级大脑

Solaris 的目标是打破这个限制，让 AI 能同时模拟多个玩家的视角。

核心挑战：在 Minecraft（我的世界）这种游戏里，如果玩家 A 挖了一块石头，玩家 B 必须立刻看到那块石头消失了，而且玩家 C 如果站在远处，看到的景象也要符合物理规律。这需要 AI 拥有极强的“全局观”和“记忆力”。
比喻：以前的 AI 是“独眼巨人”，只能看一个方向；Solaris 则是“千手观音”，它能同时睁开无数只眼睛，从每个人的角度观察世界，并且保证大家看到的画面是逻辑一致的（比如大家看到的月亮位置是一样的，大家看到的建筑倒塌过程是同步的）。

3. 数据收集：SolarisEngine（自动化的“游戏工厂”）

为了训练这个 AI，研究人员发现现有的工具都不够用。于是他们自己造了一个叫 SolarisEngine 的系统。

它是做什么的？ 想象一个巨大的、自动化的游戏代练工厂。
- 以前：人类玩家玩游戏，数据少且杂乱。
- Solaris：它派出了成千上万个“机器人玩家”（Bot），在 Minecraft 里自动组队。有的机器人负责挖矿，有的负责盖房子，有的负责打架。
- 关键创新：这些机器人不仅能玩，还能完美配合。系统会像导演一样，指挥它们同时行动，并同步记录下每个机器人视角的视频和它们的操作指令。
成果：他们在短短几小时内就收集了 1264 万帧 的多人游戏画面。这就像是用最快速度拍了一部超级长的、由无数人共同出演的电影，每一帧都标注了谁做了什么。

4. 训练方法：像“练级”一样的四步走

Solaris 不是一下子就学会的，它经历了一个循序渐进的“练级”过程：

单人新手村：先让 AI 在单人模式下玩，学会基本的 Minecraft 规则（怎么走路、怎么挖方块）。
多人组队：把 AI 扔进多人模式，让它学习“别人动我也得动”的同步感。
因果推理：教会 AI 理解“因为 A 做了动作，所以 B 看到了变化”，而不是瞎猜。
自我强迫（Self Forcing）：这是最厉害的一步。
- 比喻：想象你在学画画，老师（AI 的“大模型”）画了一幅完美的画，然后让你（AI 的“小模型”）照着画。
- 难点：如果画很长，老师画完一整幅，你再看一眼再画，中间会忘记细节。
- Solaris 的妙招（Checkpointed Self Forcing）：他们发明了一种“记忆快照”技术。老师画的时候，把中间的关键步骤“存盘”（Checkpoint），然后让你看着这些存盘一步步画。这样既省内存，又能让你学到老师画长视频的技巧，不会画着画着就“断片”了。

5. 成果展示：它有多强？

Solaris 生成的视频非常惊人：

一致性：如果玩家 A 往左走，玩家 B 的视角里，玩家 A 确实是往左走的，而不是突然瞬移或消失。
细节：如果玩家 A 挖了一块石头，玩家 B 的视角里石头也会消失；如果玩家 A 放了一个火把，玩家 B 也能看到火把的光亮。
长视频：它能生成很长的视频，而且画面不会崩坏（很多以前的 AI 视频画着画着，人脸就融化了，或者建筑变歪了，但 Solaris 能保持很久都很稳定）。

6. 总结与未来

Solaris 不仅仅是一个能生成视频的工具，它是构建未来“多智能体”世界的基础。

比喻：如果说以前的 AI 是“独狼”，Solaris 就是“狼群”。它证明了 AI 可以学会在复杂的、多人的环境中协作和互动。
意义：这项技术未来可以用来训练更聪明的机器人（让它们学会团队合作），或者用来生成更逼真的虚拟世界（比如元宇宙里的多人互动），甚至帮助科学家研究人类如何在群体中协作。

一句话总结：
Solaris 就像是一个拥有上帝视角的超级导演，它通过观察成千上万个机器人玩家在 Minecraft 里的完美配合，学会了如何同时导演多个角色的故事，让 AI 第一次真正理解了“多人世界”的运作规律。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 Solaris: Building a Multiplayer Video World Model in Minecraft 的详细技术总结。

1. 研究背景与问题 (Problem)

现有的动作条件视频生成模型（即视频世界模型）主要局限于单智能体视角。它们无法捕捉现实世界中多智能体交互的复杂性，具体表现为：

视角一致性缺失：无法同时模拟环境中所有智能体的观察视角。
交互建模不足：一个智能体的动作（如移动、放置方块）必须同时且准确地反映在所有其他智能体的视角中，而现有模型难以处理这种跨视角的时空一致性。
数据匮乏：缺乏能够支持协调多智能体交互、同步视频与动作捕捉的大规模公开数据集和训练系统。

为了解决这些问题，研究团队在《Minecraft》这一具有无限 3D 空间、动态环境和高复杂度的沙盒游戏中，构建了名为 Solaris 的多玩家视频世界模型。

2. 方法论 (Methodology)

Solaris 项目包含三个核心组成部分：数据收集系统（SolarisEngine）、模型架构设计以及分阶段的训练管道。

2.1 SolarisEngine：大规模多玩家数据收集框架

为了获取高质量的多玩家数据，作者从头构建了一个名为 SolarisEngine 的系统：

架构设计：基于 Docker 容器化编排，包含游戏服务器、控制器 Bot（基于 Mineflayer 库）和摄像头 Bot（运行官方 Minecraft Java 客户端进行 GPU 加速渲染）。
协同机制：通过自定义服务器端插件，将摄像头 Bot 的状态与控制器 Bot 的动作实时同步，确保视觉观察与动作指令在时间戳上严格对齐。
技能库与任务：设计了包含挖掘、战斗、建造、导航等高级原语的技能库，使 Bot 能够执行非平凡且逼真的合作任务（如共同建造房屋、PvP 战斗）。
鲁棒性：具备自动错误检测和恢复机制，确保在 Bot 卡死或出错时能自动重置并继续收集数据，无需人工干预。
数据集规模：最终收集了 1264 万帧 多玩家数据（每位玩家 632 万帧），涵盖建造、战斗、移动和挖掘等多种场景。

2.2 Solaris 模型架构

Solaris 基于预训练的 Diffusion Transformer (DiT) 进行改造，旨在用最小修改实现多视角模拟：

输入扩展：将状态空间扩展为包含玩家维度的联合张量 $(P, H, W, C)$ ，其中 $P$ 为玩家数量（实验中为 2）。
多玩家注意力机制：在 DiT 块中引入**多玩家自注意力（Multiplayer Self-Attention）**层，通过共享的自注意力块在不同玩家之间交换信息。每个玩家的 Token 注入可学习的玩家 ID 嵌入（Player ID Embeddings）。
动作空间：扩展了动作模块以支持完整的 Minecraft 动作空间（基于 MineRL 定义），包括 WASD 移动、跳跃、挖掘、放置方块等。

2.3 分阶段训练管道 (Training Pipeline)

为了从单玩家过渡到稳定的多玩家长序列生成，采用了四阶段训练策略：

阶段 1：双向单玩家微调：在 VPT（人类单玩家）数据集上微调预训练的 Matrix Game 2.0 模型，使其适应完整的 Minecraft 动作空间。
阶段 2：双向多玩家训练：使用收集的多玩家数据，在全序列扩散模式下训练模型，使其学习多视角的一致性。此检查点作为后续阶段的“教师”。
阶段 3：因果多玩家训练：引入因果掩码（Causal Mask）和 Diffusion Forcing 技术，将双向模型转化为因果模型，支持自回归生成。
阶段 4：Self Forcing (自强制)：为了解决长序列生成中的误差累积问题，采用 Self Forcing 范式。
- 创新点：Checkpointed Self Forcing：传统的滑动窗口 Self Forcing 会导致显存爆炸（ $O(L_t \cdot L_s)$ ）。作者提出了一种类似梯度检查点（Gradient Checkpointing）的技术：先在前向传播中生成序列并缓存中间状态（关闭梯度），然后在反向传播时重新计算。这使得显存复杂度降低为 $O(L_t)$ ，并允许对 KV 缓存进行反向传播，从而提升生成质量。

3. 关键贡献 (Key Contributions)

SolarisEngine 系统：首个支持大规模、协调多智能体 Minecraft 游戏数据收集的系统，能够生成同步的视频和动作数据。
大规模多玩家数据集：发布了包含 1264 万帧的多玩家 Minecraft 数据集，填补了该领域缺乏多智能体动作标注数据的空白。
Solaris 模型架构：提出了一种基于 DiT 的多玩家视频世界模型，通过共享注意力机制实现了跨视角的时空一致性。
Checkpointed Self Forcing：提出了一种显存高效的 Self Forcing 变体，解决了长序列自回归生成中的显存瓶颈，并允许对中间状态进行梯度回传，显著提升了长程生成的稳定性。
评估基准：建立了一套包含移动（Movement）、定位（Grounding）、记忆（Memory）、建造（Building）和一致性（Consistency）五个维度的评估体系，利用 VLM（视觉语言模型）作为裁判进行自动化评估。

4. 实验结果 (Results)

定性结果：Solaris 能够生成稳定、连贯的长序列视频（长达 224 帧以上），准确模拟复杂的交互（如 PvP 战斗、天气变化同步、物品栏更新、动画生成）。相比之下，基线模型（如帧拼接法）在长序列中会出现严重的纹理退化、动作幻觉和视角不一致。
定量结果：
- 在FID（图像质量）和VLM 准确率（语义一致性）指标上，Solaris 均优于现有基线（如 Multiverse 的帧拼接法）和消融实验变体。
- 特别是在**建造（Building）和一致性（Consistency）**等困难任务上，Solaris 表现出显著优势，证明了其理解多视角空间关系的能力。
消融实验：
- 证明了单玩家预训练对于多玩家建模初始化至关重要。
- 验证了简单的因果微调（Causal FT）足以替代复杂的 CausVid 初始化流程。
- 证实了允许 KV 缓存反向传播（KV-BP）能进一步提升视觉生成质量。

5. 意义与展望 (Significance)

多智能体世界模型的新范式：Solaris 证明了在复杂 3D 环境中模拟多智能体协同视角的可行性，为具身智能（Embodied AI）在多智能体环境中的训练、规划和推理提供了新的基础。
数据与工具开源：项目开源了引擎代码、模型代码、数据集和评估基准，降低了多智能体视频生成研究的门槛。
未来方向：
- 虽然当前数据为合成数据，但为利用更多单玩家数据填补分布差距提供了起点。
- 模型目前缺乏持久记忆（当玩家离开视野后，共享上下文会丢失），未来的工作可致力于引入持久状态机制。
- 该平台可扩展至更多玩家，并用于训练统一的多模态感知 - 行动模型或研究神经符号方法。

综上所述，Solaris 通过系统性的工程创新（数据收集）和算法改进（架构与训练策略），成功构建了首个能够在 Minecraft 中模拟一致多视角交互的视频世界模型，为多智能体 AI 研究开辟了新的道路。