One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies

该论文提出了一种无需预训练教师模型的自蒸馏框架“单步流策略(OFP)”,通过统一自一致性损失、自引导正则化及温启动机制,在 56 种模拟操作任务及 RoboTwin 2.0 平台上实现了比多步扩散模型快 100 倍以上且精度更高的单步动作生成,显著解决了机器人控制中的推理延迟问题。

Shaolong Li, Lichao Sun, Yongchao Chen

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 OFP (One-Step Flow Policy,单步流策略) 的新方法,旨在解决机器人控制中“想得快”和“做得准”之间的矛盾。

为了让你更容易理解,我们可以把机器人做任务想象成一个在迷雾中摸索着走路的盲人画家,而这篇论文就是教他如何**“一眼看穿终点,一步到位”**。

1. 核心痛点:为什么现在的机器人“慢半拍”?

现状:
现在的先进机器人(比如用扩散模型或流模型控制的)非常聪明,能画出很复杂的动作(比如穿针引线、倒水)。但是,它们画画的方式很笨拙:

  • 传统方法(多步迭代): 就像画家在画布上先涂一层灰,再涂一层白,再涂一层黑……反复涂抹100 次才能画出最终完美的画面。
  • 问题: 每次涂抹都需要大脑(神经网络)思考一次。涂 100 次意味着机器人要思考 100 次才能动一下手。在需要快速反应的场景(比如接住飞来的球、高速抓取),这种延迟会导致机器人动作迟缓,甚至任务失败。

目标:
能不能让机器人只思考 1 次,就直接画出完美的动作?就像画家看一眼参考图,直接一笔成型?

2. 解决方案:OFP 的“三步走”魔法

这篇论文提出了一种“自我蒸馏”(Self-Distillation)的方法,不需要请一位“大师”老师来教,而是让机器人自己通过三种技巧学会“一步到位”。

技巧一:自我一致性训练 (Self-Consistency) —— “走直线,不绕路”

  • 比喻: 想象你要从家走到超市。以前的方法是:先走到路口,再走到公园,再走到超市,每一步都要重新计算方向。
  • OFP 的做法: 它强迫自己学习一种“平均速度”。不管你是从起点直接走到终点,还是从起点走到半路再走到终点,最终到达的终点必须是一样的
  • 作用: 这就像给机器人装了一个“导航校准器”,确保它无论怎么切分时间,都能保证动作的连贯性,不会走歪。

技巧二:自我引导正则化 (Self-Guided Regularization) —— “拒绝平庸,追求极致”

  • 比喻: 如果只追求“不绕路”,机器人可能会画出一个“平均脸”(比如把所有人的脸特征加起来,变成一张模糊的大众脸)。但在机器人世界里,模糊的动作(比如手稍微偏一点)会导致抓不住东西。我们需要的是清晰、锐利的动作(比如精准地捏住针孔)。
  • OFP 的做法: 它利用一种“自我引导”机制。它会问自己:“如果我不看目标(无条件的噪声),我会怎么走?如果我看目标(有条件的专家动作),我会怎么走?”然后,它故意把动作往“专家动作”的高密度区域推,远离那些模糊的中间地带。
  • 作用: 这就像给机器人加了一个“聚光灯”,让它不再画模糊的“大众脸”,而是画出特征鲜明的“精准动作”,确保动作干脆利落。

技巧三:热启动机制 (Warm-Start) —— “站在巨人的肩膀上”

  • 比喻: 机器人是连续做动作的。比如它刚把杯子拿起来,下一步要倒水。
  • OFP 的做法: 它不会每次都从“一片空白”(纯噪声)开始重新思考。它会利用上一秒还没执行完的动作作为“起跑线”。就像跑步接力,下一棒选手直接站在上一棒选手停下的地方开始跑,而不是从起跑线重新跑。
  • 作用: 这大大缩短了机器人需要“跨越”的距离。既然起点离终点已经很近了,那么只需要“一步”就能轻松到达,既快又稳。

3. 成果:快得惊人,准得离谱

论文在 56 种不同的机器人任务中进行了测试(从简单的开门、拿杯子,到复杂的穿针、双手机械臂协作):

  • 速度提升: 相比传统需要走 100 步的方法,OFP 只需要走 1 步。速度提升了 100 多倍
    • 以前: 机器人思考 3 秒,动一下。
    • 现在: 机器人思考 0.03 秒,动一下。
  • 精度提升: 令人惊讶的是,它虽然快,但比那些慢吞吞的 100 步方法还要准
    • 在著名的 RoboTwin 2.0(双手机械臂)测试中,OFP 用 1 步完成的任务成功率,甚至超过了原版模型用 10 步完成的效果。

4. 总结:为什么这很重要?

这就好比以前的自动驾驶汽车,每开一米都要停下来思考 100 次路况,虽然理论上能避开障碍物,但实际开起来像蜗牛,根本没法在高速公路上跑。

OFP 就像给这辆汽车装上了“预知未来”的引擎:

  1. 它不需要反复计算(省时间)。
  2. 它不需要请外部专家教(省资源,自己就能学)。
  3. 它利用上一秒的经验(更聪明)。

这项技术让机器人真正具备了实时、高速、高精度的控制能力,让机器人从“实验室里的慢动作演示”真正走向“工厂和家里的快速干活”。

一句话总结:
OFP 让机器人学会了“一眼定乾坤”,用1 秒钟的思考完成了以前需要100 秒钟才能做好的精细动作,而且做得更准、更稳。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →