Each language version is independently generated for its own context, not a direct translation.
Fast-WAM 技术总结:世界动作模型是否需要在推理时进行“未来想象”?
1. 研究背景与问题定义 (Problem)
背景:
世界动作模型(World Action Models, WAMs)在具身智能控制领域展现出巨大潜力。与传统的视觉 - 语言 - 动作(VLA)模型不同,WAMs 通过显式建模视觉观测在动作作用下的演化过程,能够更好地捕捉物理动力学和任务相关的时间结构。
现有痛点:
大多数现有的 WAMs 遵循"先想象,后执行"(Imagine-then-Execute)的范式。即模型首先通过迭代去噪生成未来的视频帧(未来想象),然后基于这些生成的未来状态来预测动作。
- 延迟高: 这种范式在推理(Test-time)阶段需要多次迭代去噪,导致显著的延迟,难以满足实时控制需求。
- 核心疑问: 这种显式的“未来想象”对于强大的动作性能是否真的必要?WAMs 的性能提升究竟主要源于训练阶段的视频建模(学习物理先验和表征),还是源于推理阶段的显式未来生成(提供前瞻性信息)?目前这两者在现有系统中是纠缠在一起的,难以区分。
核心问题:
WAMs 在推理时是否真的需要显式地想象未来观测?还是说其收益主要来自于训练期间的视频共训练(Video Co-training)?
2. 方法论 (Methodology)
为了解耦上述两个因素,作者提出了 Fast-WAM,一种在训练时保留视频共训练、但在推理时跳过未来预测的新型架构。
2.1 核心设计思想
Fast-WAM 将训练目标(视频预测)与推理过程(未来生成)分离:
- 训练阶段: 模型同时学习动作预测和视频建模(共训练),利用未来视频预测目标来塑造具有物理意义的潜在世界表征(Latent World Representations)。
- 推理阶段: 不再显式生成未来视频帧。模型直接利用当前观测和指令,通过单次前向传播(Single Forward Pass)从视频骨干网络中提取潜在世界表征,并直接解码出动作序列。
2.2 模型架构
Fast-WAM 基于 Wan2.2-5B 视频扩散 Transformer (DiT) 构建,采用 混合 Transformer (Mixture-of-Transformer, MoT) 架构:
- 共享注意力机制: 包含一个视频 DiT 骨干和一个动作专家 DiT(Action Expert DiT)。
- Token 组织:
- 第一帧干净潜在 Token: 作为共享的视觉锚点。
- 未来视频噪声 Token: 仅在训练时存在,用于视频建模。
- 动作 Token: 由动作专家处理。
- 结构化注意力掩码 (Structured Attention Mask):
- 训练时:动作 Token 可以关注第一帧 Token,但不能关注未来的视频 Token(防止信息泄露)。
- 推理时:完全移除未来视频分支,仅保留第一帧 Token 通过视频骨干,生成潜在世界特征 z(o,l),直接用于动作分布参数化 p(a∣z)。
2.3 训练目标
采用联合流匹配(Flow Matching)目标函数:
- 动作损失 (Lact):预测动作块。
- 视频损失 (Lvid):预测未来视频潜在 Token。
- 总损失:L=Lact+λLvid。
通过这种方式,视频预测目标仅作为训练信号来优化表征,而不强制在推理时生成视频。
2.4 受控对比实验设计
为了验证假设,作者构建了三个变体进行对比:
- Fast-WAM (Ours):训练时视频共训练,推理时无未来生成(单次前向)。
- Fast-WAM-Joint:模仿现有联合生成范式,视频和动作 Token 在共享模型中联合去噪(推理时生成未来)。
- Fast-WAM-IDM:模仿“先视频后动作”范式,先生成未来视频,再基于其预测动作。
- Fast-WAM w.o. video co-train:移除视频共训练目标,仅作为对照,验证视频建模本身的作用。
3. 实验结果 (Results)
实验在仿真基准(LIBERO, RoboTwin)和真实世界任务(毛巾折叠)上进行。
3.1 仿真基准表现
- 整体性能: Fast-WAM 在无需具身预训练(Embodied Pretraining)的情况下,在 LIBERO 和 RoboTwin 上达到了与最先进(SOTA)方法(如 π0.5, LingBot-VA)相当甚至更优的性能。
- RoboTwin: Fast-WAM 成功率 91.8%,优于无预训练的 Motus (77.3%) 和 LingBot-VA (80.6%),接近有预训练的 LingBot-VA (92.2%)。
- LIBERO: 平均成功率 97.6%,优于 π0.5 (96.9%)。
- 关键发现(解耦分析):
- Fast-WAM (无推理想象) 与 Fast-WAM-Joint 和 Fast-WAM-IDM (有推理想象) 的性能非常接近(差异极小)。
- Fast-WAM w.o. video co-train (无视频共训练) 性能大幅下降(RoboTwin 降至 83.8%,LIBERO 降至 93.5%)。
- 结论: 性能下降的主要原因是移除了训练时的视频共训练,而非移除了推理时的未来想象。
3.2 真实世界任务与效率
- 任务: 长程毛巾折叠任务(Galaxea R1 Lite 平台)。
- 性能: 所有带视频共训练的变体(Fast-WAM, Joint, IDM)均显著优于无预训练的 π0.5。
- 效率(延迟):
- Fast-WAM: 延迟仅 190 ms,实现实时控制。
- Fast-WAM-IDM: 延迟高达 810 ms(慢 4 倍以上)。
- Fast-WAM-Joint: 延迟 580 ms。
- 消融影响: 移除视频共训练导致真实世界任务成功率暴跌至 10%,且完成时间最长。
4. 主要贡献 (Key Contributions)
- 提出了关键问题: 首次系统性地探究了 WAMs 的收益来源,区分了“训练时的视频建模”与“推理时的显式未来想象”的作用。
- 提出了 Fast-WAM 架构: 设计了一种在训练时保留视频共训练、推理时跳过未来生成的架构,实现了实时、高效的直接策略控制。
- 通过受控实验得出颠覆性结论: 实验证明,WAMs 的主要价值在于训练阶段通过视频预测目标优化了世界表征,而非在推理阶段显式生成未来观测。显式的“未来想象”对于最终动作性能并非必要,且带来了巨大的计算开销。
5. 意义与影响 (Significance)
- 重新定义 WAM 设计范式: 论文挑战了当前 WAM 领域普遍采用的“先想象后执行”范式,表明这种范式可能是一种过度设计。未来的 WAM 设计应更关注如何利用视频预测目标来学习更好的潜在表征,而不是追求推理时的视频生成。
- 推动具身智能的实时部署: Fast-WAM 在保持 SOTA 性能的同时,将推理延迟降低了 4 倍以上(从 ~800ms 降至 190ms),使得基于世界模型的策略能够真正满足机器人实时控制的需求。
- 数据效率提升: 证明了即使没有大规模的具身预训练,仅通过视频共训练目标,模型也能在仿真和真实世界中表现出极强的泛化能力和数据效率。
总结: Fast-WAM 证明了“世界模型”的核心价值在于训练过程中的表征学习,而非推理过程中的未来生成。这一发现为构建更高效、更实时的具身智能系统提供了新的理论依据和架构方向。