World Action Models are Zero-shot Policies

本文提出了基于预训练视频扩散骨干网络的 DreamZero 世界动作模型,通过联合建模视频与动作来学习物理动力学,在无需重复演示的情况下实现了比现有视觉 - 语言 - 动作模型更强的零样本泛化能力、实时闭环控制以及高效的跨具身迁移。

Seonghyeon Ye, Yunhao Ge, Kaiyuan Zheng, Shenyuan Gao, Sihyun Yu, George Kurian, Suneel Indupuru, You Liang Tan, Chuning Zhu, Jiannan Xiang, Ayaan Malik, Kyungmin Lee, William Liang, Nadun Ranawaka, Jiasheng Gu, Yinzhen Xu, Guanzhi Wang, Fengyuan Hu, Avnish Narayan, Johan Bjorck, Jing Wang, Gwanghyun Kim, Dantong Niu, Ruijie Zheng, Yuqi Xie, Jimmy Wu, Qi Wang, Ryan Julian, Danfei Xu, Yilun Du, Yevgen Chebotar, Scott Reed, Jan Kautz, Yuke Zhu, Linxi "Jim" Fan, Joel Jang

发布于 2026-02-19
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DreamZero 的机器人新大脑,它由 NVIDIA 的研究团队开发。为了让你轻松理解,我们可以把现在的机器人和 DreamZero 做一个生动的对比。

🤖 以前的机器人:只会背书的“优等生”

想象一下,以前的机器人(论文中称为 VLA 模型)就像是一个死记硬背的优等生

  • 它怎么学? 老师(人类)教它:“把苹果放进篮子里”,它就背下来。教它“把杯子放在桌上”,它也背下来。
  • 它的弱点: 如果老师没教过它“把香蕉放进南瓜里”,或者把桌子换成了红色的,这个优等生就懵了。它虽然懂语言(知道“放”是什么意思),但不懂物理世界的变化规律。它不知道物体怎么动、怎么碰撞,一旦遇到没背过的动作或环境,它就彻底“死机”了。

🌟 DreamZero:会“做梦”的“生活家”

DreamZero 则完全不同,它像是一个充满想象力的生活家,甚至可以说是一个会做“白日梦”的导演

1. 核心魔法:先“做梦”,再“行动”

DreamZero 的核心是一个世界动作模型(World Action Model)

  • 普通机器人:看到指令 -> 直接查数据库找动作 -> 执行。
  • DreamZero:看到指令 -> 先在脑海里“演”一遍电影(预测未来几秒会发生什么画面) -> 根据电影里的画面,推导出自己该怎么动。

比喻:
想象你要去厨房拿一个高处的杯子。

  • 旧机器人:如果没练过,它可能直接伸手乱抓,或者因为不知道杯子会掉下来而不敢动。
  • DreamZero:它先在脑子里“播放”了一段视频:“我的手伸过去,抓住杯子,杯子稳稳地拿下来,没有打碎。” 既然它在“梦”里看到了成功的画面,它就知道手该怎么动才能达成这个画面。

2. 为什么它这么强?(三大超能力)

  • 超能力一:举一反三(零样本泛化)
    因为它是在海量的互联网视频上“看”过无数次的,它学会了物理世界的通用规律(比如重力、摩擦力、物体怎么堆叠)。

    • 例子:哪怕它从来没练过“解鞋带”,但因为它在视频里看过人怎么解蝴蝶结,它就能把这种逻辑迁移到机器人身上,直接上手解鞋带。论文显示,它在没见过的任务上,成功率是旧机器人的 2 倍以上
  • 超能力二:看视频就能学(跨具身迁移)
    这是最惊人的地方。以前机器人学新技能,必须有人拿着它的胳膊手把手教几百次。

    • DreamZero 的玩法:只要给它看 10-20 分钟 别人(或者是人类)做这个任务的视频(甚至不需要告诉它手怎么动,只看画面),它就能学会!
    • 比喻:就像你看了一个“如何打包行李”的 YouTube 视频,虽然你没亲手包过,但你看懂了动作逻辑,下次自己就能包。DreamZero 甚至能看人类视频,然后让机器人模仿,效果提升了 42%
  • 超能力三:反应快如闪电(实时控制)
    通常这种会“做梦”(生成视频)的模型很慢,算一下要好几秒,机器人早就撞墙了。

    • 突破:NVIDIA 团队通过一系列黑科技(比如让视频和动作的“噪音”分开处理、利用显卡并行计算),把它的速度提升了 38 倍。现在它能以 每秒 7 次 的速度思考并行动,就像人走路一样流畅,不再是慢动作了。

3. 它是如何训练的?

以前的机器人训练需要成千上万次重复的练习(比如把杯子放桌上重复 1000 次)。
DreamZero 的训练数据是多样化的:它在 22 个不同的真实场景(家里、餐厅、办公室)里,收集了机器人做各种杂事的视频。它不追求重复,而追求见识广。就像一个人如果只在一个房间待过,他可能不懂外面的世界;但 DreamZero 去过各种地方,所以它什么都能应付。

🚀 总结:这意味着什么?

这篇论文告诉我们,机器人进化的方向变了:

  • 过去:靠堆数据量,靠重复练习,像训练马戏团动物。
  • 现在 (DreamZero):靠理解世界。通过“预测未来画面”来指导行动,让机器人像人类一样,看一眼就会,换个地方也能用。

一句话总结
DreamZero 让机器人不再是一个只会执行死命令的机器,而是一个看过世界、懂得物理规律、能边想边做、甚至能看视频自学的新物种。这离真正的“通用机器人”(能帮你做家务、收拾房间、甚至照顾老人的机器人)又近了一大步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →