Beyond Pixel Histories: World Models with Persistent 3D State

本文提出了名为 PERSIST 的新型世界模型范式,通过模拟潜在 3D 场景(环境、相机和渲染器)的演化,实现了具备持久空间记忆和几何一致性的交互式视频生成,显著提升了长时稳定性并支持在 3D 空间中进行细粒度的环境编辑与控制。

Samuel Garcin, Thomas Walker, Steven McDonagh, Tim Pearce, Hakan Bilen, Tianyu He, Kaixin Wang, Jiang Bian

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PERSIST 的新 AI 模型。为了让你轻松理解,我们可以把现有的视频生成 AI 比作一个**“只有短期记忆的画家”,而 PERSIST 则是一个“拥有完整 3D 世界地图的导演”**。

1. 以前的 AI 画家:只有“短期记忆”

想象一下,你让一个画家(现有的 AI 模型)画一个你正在玩的游戏视频。

  • 怎么画? 画家只能看着你刚才画的最后几笔(比如过去 2 秒的画面),然后凭感觉猜下一笔该怎么画。
  • 问题在哪?
    • 记性差: 如果游戏进行了 10 分钟,画家早就忘了 5 分钟前你路过的那棵树长什么样了。当你转回去看时,树可能变成了石头,或者消失了。
    • 没有空间感: 画家不知道树在“哪里”,只知道它“看起来”像什么。如果你绕着树走一圈,画家可能会画出一棵完全不同的树,因为它脑子里没有树的"3D 模型”,只有平面的“照片”。
    • 结果: 视频看久了就会变得很假,物体乱飞,空间关系混乱。

2. PERSIST 的突破:给 AI 装上了"3D 世界地图”

PERSIST 改变了玩法。它不再只盯着“照片”(像素)看,而是像游戏引擎一样,在脑子里维护一个动态的、立体的 3D 世界

我们可以用三个角色来比喻 PERSIST 的工作原理:

🎮 角色一:世界构建师 (World-Frame Model)

  • 任务: 他手里拿着一块**“乐高积木地图”**(这就是论文里的“潜在 3D 状态”)。
  • 作用: 无论摄像机(玩家)看向哪里,这块地图都在实时更新。如果你往左走,地图上的“左边”区域就更新;如果你挖了一个坑,地图上的那个位置就变成坑。
  • 关键点: 这块地图是持久的。哪怕你背对着它走了 10 分钟,当你再转回来时,地图上的坑还是那个坑,树还是那棵树。这解决了“记性差”的问题。

📷 角色二:摄影师 (Camera Model)

  • 任务: 他拿着相机,在“乐高地图”上移动。
  • 作用: 他告诉世界构建师:“我现在站在地图的坐标 (X, Y, Z),我要往这个角度拍。”
  • 关键点: 摄影师不需要记住每一帧画面,他只需要记住自己在地图上的位置。

🎨 角色三:渲染师 (Renderer)

  • 任务: 根据摄影师的指令,从“乐高地图”里提取信息,画成最终的 2D 照片(视频帧)。
  • 作用: 他看着地图说:“哦,这里有一棵树,光线从左边照过来,所以我画出来的树应该是这样的。”
  • 关键点: 因为他是看着 3D 地图画的,所以不管你怎么转圈,树的形状、阴影、位置永远都是一致的。

3. 这个新模型带来了什么神奇能力?

🌟 能力一:超长记忆,永不迷路

以前的 AI 玩久了就会“精神分裂”,物体乱变。PERSIST 因为心里有张“地图”,所以它可以玩上几千步(比如 1 个多小时),当你回到起点时,那里的树、石头、地形都和刚开始一模一样。它拥有了真正的空间记忆

🛠️ 能力二:像上帝一样“编辑世界”

这是最酷的地方。

  • 以前: 你想让视频里多一棵树,你得重新生成整个视频,或者很难控制。
  • 现在: 因为世界是 3D 的,你可以直接对“乐高地图”说:“在坐标 (10, 20) 放一棵树”。AI 就会立刻在视频里生成这棵树,而且它知道树应该长在哪里,不会穿模,也不会飘在空中。你可以随时暂停游戏,修改地形,然后继续玩。

🌊 能力三:看不见的地方也在发生故事

想象你在玩一个洞穴探险游戏。

  • 以前: 如果你背对洞穴深处,AI 就“忘”了那里发生了什么。
  • 现在: 即使你背对着,PERSIST 的“世界构建师”依然在后台更新地图。如果洞穴深处的水位上涨了,当你转回头时,你会看到水真的流到了你脚边。这种**“看不见的变化”**让虚拟世界变得非常真实和生动。

4. 总结:从“画照片”到“造世界”

这篇论文的核心思想就是:不要只让 AI 去猜下一张照片长什么样,而是让 AI 去模拟一个真实存在的 3D 世界。

  • 旧方法 = 像翻相册,只能看到过去的几张照片,容易记混。
  • PERSIST = 像玩《我的世界》(Minecraft),脑子里有一个完整的 3D 存档,无论你怎么走、怎么改,世界都是连贯、真实且持久的。

这项技术不仅能让生成的视频更逼真、更稳定,还能让未来的 AI 游戏、虚拟仿真训练变得更加智能和可控。它让 AI 从“只会模仿的画家”进化成了“能创造世界的导演”。