Beyond Pixel Histories: World Models with Persistent 3D State

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PERSIST 的新 AI 模型。为了让你轻松理解，我们可以把现有的视频生成 AI 比作一个**“只有短期记忆的画家”，而 PERSIST 则是一个“拥有完整 3D 世界地图的导演”**。

1. 以前的 AI 画家：只有“短期记忆”

想象一下，你让一个画家（现有的 AI 模型）画一个你正在玩的游戏视频。

怎么画？ 画家只能看着你刚才画的最后几笔（比如过去 2 秒的画面），然后凭感觉猜下一笔该怎么画。
问题在哪？
- 记性差： 如果游戏进行了 10 分钟，画家早就忘了 5 分钟前你路过的那棵树长什么样了。当你转回去看时，树可能变成了石头，或者消失了。
- 没有空间感： 画家不知道树在“哪里”，只知道它“看起来”像什么。如果你绕着树走一圈，画家可能会画出一棵完全不同的树，因为它脑子里没有树的"3D 模型”，只有平面的“照片”。
- 结果： 视频看久了就会变得很假，物体乱飞，空间关系混乱。

2. PERSIST 的突破：给 AI 装上了"3D 世界地图”

PERSIST 改变了玩法。它不再只盯着“照片”（像素）看，而是像游戏引擎一样，在脑子里维护一个动态的、立体的 3D 世界。

我们可以用三个角色来比喻 PERSIST 的工作原理：

🎮 角色一：世界构建师 (World-Frame Model)

任务： 他手里拿着一块**“乐高积木地图”**（这就是论文里的“潜在 3D 状态”）。
作用： 无论摄像机（玩家）看向哪里，这块地图都在实时更新。如果你往左走，地图上的“左边”区域就更新；如果你挖了一个坑，地图上的那个位置就变成坑。
关键点： 这块地图是持久的。哪怕你背对着它走了 10 分钟，当你再转回来时，地图上的坑还是那个坑，树还是那棵树。这解决了“记性差”的问题。

📷 角色二：摄影师 (Camera Model)

任务： 他拿着相机，在“乐高地图”上移动。
作用： 他告诉世界构建师：“我现在站在地图的坐标 (X, Y, Z)，我要往这个角度拍。”
关键点： 摄影师不需要记住每一帧画面，他只需要记住自己在地图上的位置。

🎨 角色三：渲染师 (Renderer)

任务： 根据摄影师的指令，从“乐高地图”里提取信息，画成最终的 2D 照片（视频帧）。
作用： 他看着地图说：“哦，这里有一棵树，光线从左边照过来，所以我画出来的树应该是这样的。”
关键点： 因为他是看着 3D 地图画的，所以不管你怎么转圈，树的形状、阴影、位置永远都是一致的。

3. 这个新模型带来了什么神奇能力？

🌟 能力一：超长记忆，永不迷路

以前的 AI 玩久了就会“精神分裂”，物体乱变。PERSIST 因为心里有张“地图”，所以它可以玩上几千步（比如 1 个多小时），当你回到起点时，那里的树、石头、地形都和刚开始一模一样。它拥有了真正的空间记忆。

🛠️ 能力二：像上帝一样“编辑世界”

这是最酷的地方。

以前： 你想让视频里多一棵树，你得重新生成整个视频，或者很难控制。
现在： 因为世界是 3D 的，你可以直接对“乐高地图”说：“在坐标 (10, 20) 放一棵树”。AI 就会立刻在视频里生成这棵树，而且它知道树应该长在哪里，不会穿模，也不会飘在空中。你可以随时暂停游戏，修改地形，然后继续玩。

🌊 能力三：看不见的地方也在发生故事

想象你在玩一个洞穴探险游戏。

以前： 如果你背对洞穴深处，AI 就“忘”了那里发生了什么。
现在： 即使你背对着，PERSIST 的“世界构建师”依然在后台更新地图。如果洞穴深处的水位上涨了，当你转回头时，你会看到水真的流到了你脚边。这种**“看不见的变化”**让虚拟世界变得非常真实和生动。

4. 总结：从“画照片”到“造世界”

这篇论文的核心思想就是：不要只让 AI 去猜下一张照片长什么样，而是让 AI 去模拟一个真实存在的 3D 世界。

旧方法 = 像翻相册，只能看到过去的几张照片，容易记混。
PERSIST = 像玩《我的世界》(Minecraft)，脑子里有一个完整的 3D 存档，无论你怎么走、怎么改，世界都是连贯、真实且持久的。

这项技术不仅能让生成的视频更逼真、更稳定，还能让未来的 AI 游戏、虚拟仿真训练变得更加智能和可控。它让 AI 从“只会模仿的画家”进化成了“能创造世界的导演”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心痛点：
现有的交互式世界模型（Interactive World Models）通常基于自回归（Auto-Regressive, AR）的像素历史进行视频生成。这种方法存在两个主要缺陷：

缺乏显式的 3D 表示：模型必须隐式地从数据中学习 3D 一致性，导致生成的场景在几何结构上容易出现不一致（如物体变形、位置漂移）。
空间记忆受限：由于计算资源限制，AR 模型只能关注有限的历史帧窗口（通常仅几秒）。当生成长时间序列时，模型无法“记住”之前观察过的区域，导致在重新访问旧场景时出现幻觉或逻辑错误。
下游任务困难：这种不稳定的生成为强化学习智能体（Embodied Agents）的训练带来了巨大障碍，因为智能体无法在一个稳定、可预测的环境中学习。

现有方法的局限：

基于检索的方法（如 WorldMem）：尝试从记忆库中检索关键帧。但这依赖于像素级的冗余信息，随着记忆库增长，检索效率降低，且无法处理视角变化带来的几何一致性。
纯像素生成：无法保证长程的时空一致性。

2. 方法论 (Methodology)

作者提出了 PERSIST (Persistent Environment Representations for Simulating Interactive Space-Time)，一种新的世界模型范式。其核心思想是不再将像素作为记忆的主要载体，而是维护一个动态演化的潜在 3D 场景状态。

2.1 核心架构

PERSIST 将世界模拟分解为三个耦合的组件：

世界帧预测模型 (World-Frame Model, $W_\theta$ )：
- 功能：预测以智能体为中心的 3D 潜在场景（World-Frame）随时间的演化。
- 输入：过去的潜在世界帧、动作、相机状态、像素观测。
- 输出：新的 3D 潜在世界帧（ $w_t$ ）。
- 机制：基于 Rectified Flow 和 Causal Diffusion Transformer (DiT)。它维护一个固定的 3D 空间网格（Voxel Grid），作为持久的空间记忆模块。
相机模型 (Camera Model, $C_\theta$ )：
- 功能：预测智能体在 3D 世界中的视角（位置、旋转、视场角）。
- 作用：作为“查询键（Lookup Key）”，从 3D 世界帧中提取与当前视角相关的信息。
- 输出：相机参数向量 $c_t$ 。
世界到像素生成模块 (World-to-Pixel Generation, $P_\theta$ )：
- 功能：将 3D 潜在状态渲染为最终的 2D 像素帧。
- 流程：
  1. 投影 (Projection)：利用相机参数将 3D 世界帧 $w_t$ 投影到屏幕空间，生成深度排序的特征堆栈 ( $\tilde{w}_{2D}$ ) 和深度信息 ( $d$ )。
  2. 渲染 (Rendering)： $P_\theta$ 作为一个可学习的延迟着色器 (Learned Deferred Shader)，接收投影后的 3D 特征和动作，生成最终像素帧。它不仅渲染几何，还学习纹理、光照和粒子效果等 3D 状态未包含的细节。

2.2 训练与推理策略

训练目标：基于 Rectified Flow Matching。
缓解暴露偏差 (Exposure Bias)：
- 在训练 $W_\theta$ 时，对 $P_\theta$ 生成的像素潜在变量添加随机噪声。
- 在训练 $P_\theta$ 时，对 $W_\theta$ 生成的 3D 潜在变量添加随机噪声。
- 这使得各组件在推理时即使依赖彼此的预测，也能保持鲁棒性。
初始化：
- 单图初始化：仅输入一张 RGB 图像， $W_\theta$ 自动推断初始 3D 世界帧。
- 显式 3D 初始化：直接提供初始 3D 世界帧，实现更精细的控制。

3. 关键贡献 (Key Contributions)

持久 3D 状态范式：首次提出在 AR 视频生成中显式维护一个动态演化的潜在 3D 场景表示，而非仅仅依赖像素历史。这实现了固定成本下的无限长程空间记忆。
几何一致性与稳定性：通过构建（Construction）强制保证了几何一致性。无论视角如何变化，3D 世界帧始终保持结构稳定，解决了长程生成中的物体漂移和变形问题。
新兴能力：
- 单图生成多样 3D 环境：从单张图像初始化，能生成结构合理且多样的 3D 世界。
- 细粒度 3D 编辑：支持在生成过程中直接编辑 3D 世界帧（如修改地形、放置物体），并实时反映在生成的视频中。
- 离屏动态演化：模型能模拟智能体视野之外的环境变化（如洞穴中积水），并在智能体转身后呈现这些变化。
无需 3D 真值推理：虽然训练需要 3D 真值（在模拟环境中），但推理阶段仅需单张 RGB 图像即可启动，无需外部 3D 传感器。

4. 实验结果 (Results)

实验在基于 Minecraft 的开源引擎 Luanti 中进行，使用了约 4000 万次交互的数据集。

基准对比：与 Oasis (纯像素 AR) 和 WorldMem (基于检索的 AR) 相比。
定量指标：
- FVD (Fréchet Video Distance)：PERSIST 显著优于基线（PERSIST-XL 为 181，Oasis 为 706），表明生成分布更接近真实数据。
- 用户研究：在 28 名参与者的评估中，PERSIST 在3D 空间一致性、时间环境稳定性和整体评分上均大幅领先。
  - PERSIST-XL 整体评分：2.6/5.0
  - Oasis 整体评分：1.9/5.0
  - WorldMem 整体评分：1.5/5.0
定性分析：
- 在长达 600 步（约 25 秒）的生成中，PERSIST 能保持物体位置和结构的稳定，而基线模型在重新访问旧区域时会出现严重的几何崩塌。
- 即使减少 3D 表示的空间分辨率（PERSIST-S vs PERSIST-XL），性能依然稳健，说明 3D 表示的核心优势在于其结构而非分辨率。

5. 意义与影响 (Significance)

重新定义交互式生成：PERSIST 证明了将“像素历史”替换为“潜在 3D 状态”是提升生成式世界模型质量的关键路径。它解决了长程生成中的一致性问题，使生成内容更像真实的模拟环境。
赋能具身智能 (Embodied AI)：为强化学习智能体提供了一个稳定、可预测且几何一致的模拟环境，使得在仿真中训练出的策略更有可能迁移到真实世界。
可控性与编辑性：通过显式的 3D 状态，用户可以直接干预生成过程（如修改地形、控制物体），为游戏开发、数字孪生和虚拟内容创作提供了新的工具。
未来方向：论文指出了当前依赖 3D 真值训练的局限性，并提出了利用 2D-to-3D 基础模型进行合成数据标注、以及构建 3D 记忆库以实现无约束空间记忆的后续研究方向。

总结：PERSIST 通过引入持久的 3D 潜在状态，成功突破了传统像素级 AR 模型的瓶颈，实现了具有长期空间记忆、几何一致性和可编辑性的交互式世界模拟，是迈向高保真、可信赖生成式世界模型的重要一步。