World2Act: Latent Action Post-Training via Skill-Compositional World Models

该论文提出了 World2Act 框架,通过利用技能组合式世界模型将视觉 - 语言 - 动作策略的动作直接与世界模型的潜在动态对齐,并结合自动 LLM 技能分解流程解决视频生成长度不一致问题,从而显著提升了机器人在真实世界中的泛化能力和性能。

An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 World2Act 的新方法,旨在让机器人变得更聪明、更灵活。为了让你轻松理解,我们可以把机器人学习新技能的过程想象成**“一个刚毕业的学生(机器人)向一位经验丰富的老教练(世界模型)学习”**的故事。

以下是用通俗语言和比喻对这篇论文核心内容的解读:

1. 核心问题:机器人为什么容易“走火入魔”?

现在的机器人(特别是那些基于视觉 - 语言 - 动作的 AI)通常是通过模仿人类操作视频来学习的。但是,如果直接让机器人看视频学习,它很容易产生**“幻觉”**。

  • 比喻:想象你在学做饭,教练(世界模型)给你看一段视频,告诉你“把鸡蛋打入碗中”。
    • 旧方法(像素级监督):教练不仅告诉你动作,还让你盯着视频里的每一个像素点(比如鸡蛋壳的纹理、碗的光泽)。如果视频里因为光线问题,鸡蛋看起来有点模糊,或者教练在演示时手抖了一下(视频里的噪点),机器人就会误以为“原来要把鸡蛋壳也打进去”或者“手要抖三下”。
    • 后果:机器人学会了错误的细节,一旦环境稍微变一点(比如换个颜色的碗),它就彻底懵了,甚至把鸡蛋打碎在桌子上。

2. 解决方案:World2Act(从“看画面”到“悟感觉”)

作者提出的 World2Act 方法,核心思想是不再让机器人盯着视频的“画面细节”(像素),而是让它去理解视频背后的“动态规律”(潜变量/Latents)

  • 比喻
    • 旧方法:像是一个死记硬背的学生,背下了“鸡蛋在 3 点钟方向,碗是蓝色的”。
    • World2Act:像是一个聪明的学生,它不看具体的画面,而是去感受教练的“肌肉记忆”和“物理直觉”。它学习的是:“哦,原来要把鸡蛋拿起来,然后手腕轻轻一抖,鸡蛋就会滑进碗里。”
    • 怎么做?:他们设计了一种“对齐”机制。把教练脑子里的“动作感觉”(潜变量)和机器人自己的“动作指令”在同一个抽象空间里进行匹配。只要感觉对了,哪怕画面有点模糊,机器人也能做出正确的动作。

3. 第二大难题:如何教机器人做“超长任务”?

机器人做任务的时间长短不一。有的任务只要 2 秒(拿个苹果),有的要 2 分钟(做一顿饭)。

  • 旧方法:现在的视频生成模型(教练)通常只擅长生成固定长度的短视频(比如只能生成 5 秒的视频)。如果要让它生成 2 分钟的连续视频,它就像是一个只会唱 5 秒短歌的歌手,硬要唱 2 小时,唱到后面就会跑调、忘词,甚至胡言乱语(视频里的物体凭空消失或变形)。

  • World2Act 的妙招:技能拆解(Skill-Compositional)

    • 比喻:这就好比教一个只会唱短歌的歌手唱长篇歌剧。
      • 传统做法:逼他一口气唱完,结果唱崩了。
      • World2Act 的做法:利用大语言模型(LLM)作为“编剧”,把长篇大论的任务(“做一顿饭”)拆解成一个个原子技能(“洗菜”、“切菜”、“炒菜”、“装盘”)。
      • 执行过程
        1. 先让教练(世界模型)生成“洗菜”的 5 秒视频。
        2. 接着,把“洗菜”结束的画面作为起点,让教练生成“切菜”的 5 秒视频。
        3. 以此类推,像搭积木一样,把一个个短视频无缝拼接起来。
    • 成果:作者还发布了两个新数据集(RoboCasa-Skill 和 LIBERO-Skill),专门把长任务切成了这种“积木块”,让机器人学得更稳。

4. 训练过程:两步走

  1. 第一步:建立“翻译官”
    • 训练两个“翻译器”(适配器):一个把教练的“视频感觉”翻译成通用语言,另一个把机器人的“动作指令”也翻译成通用语言。让它们在同一个频道上对话,确保“感觉”和“动作”是对得上的。
  2. 第二步:微调机器人(后训练)
    • 保持机器人原本的大脑(VLA 模型)不动,只训练一个小小的“修正器”(残差策略)。
    • 当机器人要行动时,它先按自己的直觉出招,然后“修正器”会根据教练的“动态感觉”告诉它:“嘿,刚才那个动作有点偏,稍微往左一点,像教练演示的那样。”
    • 好处:这样既保留了机器人原本的知识,又注入了教练的丰富经验,而且不会让机器人“失忆”(灾难性遗忘)。

5. 实际效果:真的有用吗?

  • 模拟测试:在 RoboCasa 和 LIBERO 这两个著名的机器人测试场上,World2Act 让机器人的成功率达到了行业顶尖水平
    • 比如,以前需要 1000 次真实演示才能学会的任务,现在只需要 50 次真实演示 + 50 次“想象”的练习就能学会,效率极高。
  • 现实世界:作者真的把这套方法装到了真实的机械臂上(Franka 机器人)。
    • 结果:机器人成功完成了“拿杯子放盘子”、“拿碗”、“关抽屉”等任务。
    • 亮点:即使教练生成的视频里,抽屉把手偶尔有点模糊(视觉瑕疵),机器人依然能准确地把抽屉关上。这证明了它确实学会了“动态规律”,而不是死记硬背“画面”。

总结

World2Act 就像给机器人请了一位**“懂物理直觉的教练”,而不是一个“只会放视频的录像机”**。

  • 不看脸(忽略像素瑕疵),看气质(捕捉动态规律)。
  • 不硬撑(把大任务拆成小技能),步步为营
  • 最终,机器人不仅学得快,而且在真实世界里干活更稳、更聪明。

这项技术让机器人从“照猫画虎”进化到了“举一反三”,是迈向通用机器人(Generalist Robots)的重要一步。