RL-100: Performant Robotic Manipulation with Real-World Reinforcement Learning

本文提出了名为 RL-100 的实世界机器人强化学习框架,该框架基于扩散视觉运动策略,通过统一模仿学习与强化学习并结合一致性蒸馏技术,在八个多样化的真实机器人任务中实现了 100% 的成功率,展现出卓越的零样本泛化能力、抗扰动鲁棒性及与人类专家相当甚至更优的操作效率。

Kun Lei, Huanyu Li, Dongjie Yu, Zhenyu Wei, Lingxiao Guo, Zhennan Jiang, Ziyu Wang, Shiyu Liang, Huazhe Xu

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 RL-100 的机器人学习系统。简单来说,它让机器人学会了像人类一样“干活”,而且干得比人类老师教得还要好、还要快、还要稳。

为了让你更容易理解,我们可以把机器人学习的过程想象成培养一个“天才学徒”

1. 以前的困境:只会“照猫画虎”

以前的机器人学习主要靠模仿学习(Imitation Learning)

  • 比喻:就像让一个学徒盯着师傅(人类操作员)做一遍,然后机器人照着做。
  • 问题
    • 师傅教得慢,而且为了安全,动作往往很保守。
    • 如果师傅偶尔手抖了一下,或者走了弯路,机器人也会跟着学错。
    • 机器人只能做到“像师傅一样好”,很难超越师傅,更没法应对师傅没遇到过的突发状况(比如桌子突然被推了一下)。

2. RL-100 的绝招:三步走战略

RL-100 提出了一套新的“培养方案”,分三个阶段,让机器人从“模仿者”进化成“大师”。

第一阶段:拜师学艺(模仿学习)

  • 做法:先让人类专家操作机器人,收集一些高质量的数据。
  • 比喻:就像学徒先跟着师傅看视频、练基本功。机器人学会了“大概怎么做”,比如怎么拿杯子、怎么倒水。这时候它已经能干活了,但还不够完美,偶尔会出错。

第二阶段:自我修炼(离线强化学习)

  • 做法:这是 RL-100 的核心。机器人不再需要人一直盯着,它利用之前学到的“基本功”,在电脑里(或者在机器人身上)自己反复尝试、犯错、总结。
  • 比喻:就像学徒下班后,自己在脑子里(或者在模拟器里)疯狂练习。
    • 它发现:“哎,刚才那样倒水洒出来了,下次手腕再低一点。”
    • 它发现:“那样推箱子太慢了,换个角度推更快。”
    • 关键点:它不是瞎练,而是用一种聪明的算法(PPO),确保它每次练习都在“变好”,不会练歪了。它把成千上万次尝试的经验都存下来,变成自己的肌肉记忆。

第三阶段:实战演练(在线强化学习)

  • 做法:在真实世界里进行最后的微调。
  • 比喻:学徒出师了,去真正的工地干活。遇到一点小意外(比如有人推了它一下,或者地面有点滑),它能迅速调整,把那些还没练完美的“死角”补上。
  • 成果:经过这一套组合拳,机器人不仅学会了,还超越了人类师傅。

3. 它的超能力:快如闪电的“一致性蒸馏”

机器人学得很聪明,但以前有个大问题:思考太慢。

  • 问题:传统的扩散模型(Diffusion Model)像是一个画家,画一幅画要涂涂改改几十遍(多步去噪)才能完成一个动作。这对需要快速反应的机器人来说太慢了。
  • RL-100 的解法:它用了一种叫“一致性蒸馏”的技术。
  • 比喻:就像把那个需要画 10 遍的画家,训练成了一个神笔马良。以前画一幅画要 10 秒,现在看一眼,“唰”的一下,一秒钟就画好了,而且画得和以前一样好,甚至更好。这让机器人能跟上人类的手速,甚至更快。

4. 它有多厉害?(实测成绩)

论文里展示了它在 8 种不同任务上的表现,简直像开了挂:

  • 100% 成功率:在 1000 次尝试中,它成功了 1000 次!连最难的任务(比如把一张皱巴巴的纸折成盒子,或者把橙子榨成汁)也从未失手。
  • 比人快:在推方块、打保龄球等任务上,它的完成速度比人类专家还快。
  • 抗干扰能力强
    • 零样本适应:换个桌子、换个材质的毛巾,它不用重新学习,直接就能干好(90% 成功率)。
    • 抗揍:如果有人在它干活时推它、拉它,它能稳住身形继续干(96% 成功率)。
  • 商场实战:最酷的是,他们把榨橙汁的机器人直接搬到了商场里。在没有任何人干预的情况下,它连续工作了7 个小时,给随机来的顾客榨了无数杯果汁,一次都没坏!

总结

RL-100 就像是给机器人装上了一个“超级大脑”:

  1. (模仿人类);
  2. (自我强化,不断试错);
  3. 最后提速(把复杂的思考过程压缩成瞬间反应)。

它证明了机器人不仅可以学会人类教的东西,还能通过自我进化,变得比人类更可靠、更高效,真正具备了走进家庭和工厂干活的潜力。