Solaris: Building a Multiplayer Video World Model in Minecraft

本文提出了 Solaris,一种通过构建专用的多人游戏数据采集系统、采用分阶段训练策略(包括检查点自强制技术)并在 1264 万帧多人 Minecraft 数据上训练而成的视频世界模型,旨在突破现有单视角模型的局限,实现一致的多视角多智能体交互模拟。

Georgy Savva, Oscar Michel, Daohan Lu, Suppakit Waiwitlikhit, Timothy Meehan, Dhairya Mishra, Srivats Poddar, Jack Lu, Saining Xie

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于名为 Solaris 的突破性人工智能研究的通俗解读。想象一下,如果让 AI 不仅学会“自己玩”游戏,还能学会“和朋友们一起玩游戏”,并且能同时看清每个人的视角,这就是 Solaris 做到的事情。

我们可以把这篇论文的核心内容想象成建造一个“多人联机版”的虚拟世界模拟器

1. 以前的困境:只能看“单人视角”

以前的视频生成 AI(世界模型)就像是一个只会玩单人游戏的玩家

  • 局限性:如果你让 AI 生成一个视频,它只能模拟“我”看到了什么。如果“我”转身,它知道“我”看到了什么,但它完全不知道“我”的朋友在旁边看到了什么,也不知道朋友做了什么动作。
  • 比喻:这就像你戴着眼罩玩捉迷藏,你只能听到自己的脚步声,却完全不知道队友在哪里,也不知道敌人是从哪个方向来的。这种 AI 无法理解真实世界中那种“多人互动”的复杂关系。

2. Solaris 的诞生:打造“多人联机”的超级大脑

Solaris 的目标是打破这个限制,让 AI 能同时模拟多个玩家的视角。

  • 核心挑战:在 Minecraft(我的世界)这种游戏里,如果玩家 A 挖了一块石头,玩家 B 必须立刻看到那块石头消失了,而且玩家 C 如果站在远处,看到的景象也要符合物理规律。这需要 AI 拥有极强的“全局观”和“记忆力”。
  • 比喻:以前的 AI 是“独眼巨人”,只能看一个方向;Solaris 则是“千手观音”,它能同时睁开无数只眼睛,从每个人的角度观察世界,并且保证大家看到的画面是逻辑一致的(比如大家看到的月亮位置是一样的,大家看到的建筑倒塌过程是同步的)。

3. 数据收集:SolarisEngine(自动化的“游戏工厂”)

为了训练这个 AI,研究人员发现现有的工具都不够用。于是他们自己造了一个叫 SolarisEngine 的系统。

  • 它是做什么的? 想象一个巨大的、自动化的游戏代练工厂
    • 以前:人类玩家玩游戏,数据少且杂乱。
    • Solaris:它派出了成千上万个“机器人玩家”(Bot),在 Minecraft 里自动组队。有的机器人负责挖矿,有的负责盖房子,有的负责打架。
    • 关键创新:这些机器人不仅能玩,还能完美配合。系统会像导演一样,指挥它们同时行动,并同步记录下每个机器人视角的视频它们的操作指令
  • 成果:他们在短短几小时内就收集了 1264 万帧 的多人游戏画面。这就像是用最快速度拍了一部超级长的、由无数人共同出演的电影,每一帧都标注了谁做了什么。

4. 训练方法:像“练级”一样的四步走

Solaris 不是一下子就学会的,它经历了一个循序渐进的“练级”过程:

  1. 单人新手村:先让 AI 在单人模式下玩,学会基本的 Minecraft 规则(怎么走路、怎么挖方块)。
  2. 多人组队:把 AI 扔进多人模式,让它学习“别人动我也得动”的同步感。
  3. 因果推理:教会 AI 理解“因为 A 做了动作,所以 B 看到了变化”,而不是瞎猜。
  4. 自我强迫(Self Forcing):这是最厉害的一步。
    • 比喻:想象你在学画画,老师(AI 的“大模型”)画了一幅完美的画,然后让你(AI 的“小模型”)照着画。
    • 难点:如果画很长,老师画完一整幅,你再看一眼再画,中间会忘记细节。
    • Solaris 的妙招(Checkpointed Self Forcing):他们发明了一种“记忆快照”技术。老师画的时候,把中间的关键步骤“存盘”(Checkpoint),然后让你看着这些存盘一步步画。这样既省内存,又能让你学到老师画长视频的技巧,不会画着画着就“断片”了。

5. 成果展示:它有多强?

Solaris 生成的视频非常惊人:

  • 一致性:如果玩家 A 往左走,玩家 B 的视角里,玩家 A 确实是往左走的,而不是突然瞬移或消失。
  • 细节:如果玩家 A 挖了一块石头,玩家 B 的视角里石头也会消失;如果玩家 A 放了一个火把,玩家 B 也能看到火把的光亮。
  • 长视频:它能生成很长的视频,而且画面不会崩坏(很多以前的 AI 视频画着画着,人脸就融化了,或者建筑变歪了,但 Solaris 能保持很久都很稳定)。

6. 总结与未来

Solaris 不仅仅是一个能生成视频的工具,它是构建未来“多智能体”世界的基础

  • 比喻:如果说以前的 AI 是“独狼”,Solaris 就是“狼群”。它证明了 AI 可以学会在复杂的、多人的环境中协作和互动。
  • 意义:这项技术未来可以用来训练更聪明的机器人(让它们学会团队合作),或者用来生成更逼真的虚拟世界(比如元宇宙里的多人互动),甚至帮助科学家研究人类如何在群体中协作。

一句话总结
Solaris 就像是一个拥有上帝视角的超级导演,它通过观察成千上万个机器人玩家在 Minecraft 里的完美配合,学会了如何同时导演多个角色的故事,让 AI 第一次真正理解了“多人世界”的运作规律。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →