Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models

本文证明,通过简单地将训练时间分布向高噪声状态偏移,即可实现视觉-语言-动作模型强大的单步动作生成,从而无需图像合成中通常需要的复杂蒸馏或辅助目标,同时达到或超过多步扩散策略的性能。

原作者: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

发布于 2026-06-05✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

核心思想:别把简单的事情想复杂了

想象一下,你正在教一个机器人下国际象棋。

  • 旧方法(图像生成): 在 AI 图像创作领域(比如画一只猫),AI 必须一次性猜出数百万个像素。这就像是在一张布满静态噪声的空白画布上,通过一步步擦除噪声来逐渐显现出一只猫,这个过程需要很多步骤(迭代)才能完成。
  • 新方法(机器人动作): 这篇论文认为,教机器人“移动”是不同的。机器人已经对房间、任务以及自己的身体有一个非常清晰的认知。它不需要去猜数百万个像素;它只需要决定一个微小且具体的动作(比如“抓起杯子”)。

作者们说:“为什么我们要用一个 10 步的绘画过程来解决一个 1 步的简单谜题呢?”

他们发现,通过改变机器人学习决策的“时机”,它可以在单步之内就得出正确的动作,其效果与那些缓慢的多步法一样好,甚至更好。


核心问题:“丰富条件,简单目标”的不匹配

要理解为什么这行得通,请思考“写故事”与“回答常识题”之间的区别。

  1. 图像生成(写故事): 你给 AI 一个提示词,比如“一只猫”。AI 必须发明关于这只猫的所有细节:它的样子、所处的位置、光影、毛发纹理等。可能性是无限的,因此它需要很多步骤来缩小选择范围。
  2. 机器人动作(回答常识题): 你给机器人一个杯子的摄像头画面,一句语音指令“拿起杯子”,以及一个手臂位置的传感器读数。答案是非常具体的。抓取那个杯子只有一两种正确的方式。这个“目标”很小且很简单。

论文称之为 “条件-目标”(Condition-Target)不匹配。机器人拥有极其丰富的各种信息(条件),但只需要预测极少量的输出(动作)。因为在已知线索的情况下,答案是非常显而易见的,所以 AI 不需要使用用于图像生成的那些复杂的、多步迭代的“去噪”机制。

秘诀:在“黑暗”中训练

作者们发现了一个让机器人学会这种单步技能的小窍门。

类比:在深水区学习游泳

  • 标准训练: 通常,AI 模型被教导要循序渐进地学习。它们从一点点噪声开始(浅水池),然后逐渐学习处理更多的噪声(深水),直到能够预测最终答案。
  • 本文的方法: 作者决定直接把机器人扔进深水区。他们调整了训练偏差,让机器人在输入噪声非常大(几乎是随机状态)时进行练习。

为什么这行得通?
想象你在尝试猜一个朋友的电话号码。

  • 如果你得到的号码只缺一位数字,你可能会过度思考并猜错。
  • 但如果你得到的是一串完全混乱、随机的数字,并要求你仅凭朋友的名字和地址(丰富的上下文)来猜出真实的号码,你的大脑会被迫忽略噪声,转而完全专注于线索。

通过训练机器人在输入极其混乱(高噪声)的情况下也能预测正确的动作,机器人学会了高度依赖摄像头和语言线索。当它在现实世界中运行(输入是干净的)时,它就能通过单步操作瞬间“跳跃”到正确答案,因为它在练习中已经学会了忽略噪声并信任上下文。

实验:真的有效吗?

团队通过三种方式测试了这个想法:

  1. “玩具”测试(MNIST 网格): 为了模拟“丰富条件、简单目标”的场景,他们设计了一个与常规图像生成相反的实验。通常 AI 是根据文字描述生成图片,但这里他们让 AI 根据清晰的手写数字网格图片(丰富的视觉条件)来预测具体的数字序列(简单的文本目标)。关键在于,噪声不是加在图片上,而是加在文本目标上。也就是说,AI 必须从一团混乱的文本噪声中,仅凭那张清晰的图片线索,一次性还原出正确的数字序列。结果显示,这种专注于高噪声文本目标的训练,让 AI 在单次尝试中准确识别序列的频率远高于标准方法。
  2. 机器人基准测试(LIBERO): 他们在标准的机器人任务(如堆叠积木或移动物体)上进行了测试。
    • 结果: 使用这种“高噪声”方法训练的机器人可以实现单步完美动作。
    • 对比: 这个单步机器人表现得与需要走十步才能确定动作的机器人一样好,有时甚至更好。
    • 规模: 即使是在一个拥有 14 亿参数的大型模型上,单步法在长任务中的成功率也达到了 95.6%。
  3. 真实机器人测试: 他们在真实的双臂机器人上测试了这一想法。甚至无需改变机器人的“大脑”,仅仅通过改变它的“思考方式”(使用一步而不是十步),它在拧瓶盖或堆叠塔等任务上的表现就优于或等于慢速方法。

他们并没有做的事情

为了保持类比的准确性,有必要指出该论文没有做的事情:

  • 他们并没有发明一种新型的机器人大脑。
  • 他们没有使用“老师”机器人来演示给学生看(没有进行知识蒸馏)。
  • 他们没有添加复杂的额外训练阶段。

他们只是采用了标准的训练方法,并改变了“进度表”,使其更加侧重于高噪声场景。

结论

这篇论文的主要观点很简单:不要用大锤去砸坚果。

因为机器人动作是微小且具体的(不像复杂的图像),我们不需要使用开发用于图像生成的那些沉重的、多步迭代的机制。通过在练习中训练机器人应对混乱(高噪声),它学会了信任线索并能立即做出正确动作。这使得机器人的训练更快速、更简单,且不需要复杂的算法。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →