SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning

本文提出了名为 ReST-RL 的分层强化学习架构,通过解耦双足步态与负载稳定控制,在仿真与 Unitree G1 人形机器人硬件上实现了高成功率、零样本泛化的平稳托盘运输任务。

Anlun Huang, Zhenyu Wu, Soofiyan Atar, Yuheng Zhi, Michael Yip

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为 SteadyTray(稳盘) 的新技术,它让人形机器人(比如 Unitree G1)学会了像人类服务员一样,端着一盘东西走路,而且盘子里的东西(哪怕是装满酒的杯子)一滴不漏、稳稳当当。

为了让你轻松理解,我们可以把这项技术想象成**“一位老练的保镖带着一个新手保镖去执行任务”**的故事。

1. 核心难题:为什么端盘子走路这么难?

想象一下,你让一个刚学会走路的机器人去端托盘。

  • 走路本身:机器人走路时,脚落地会有震动,身体会左右摇晃(就像人走快了会晃一样)。
  • 端盘子:如果机器人只是机械地模仿走路,托盘就会跟着身体晃。
  • 后果:托盘上的红酒杯会洒出来,或者杯子直接翻倒。

以前的方法通常是让机器人“从头学起”,试图一次性学会怎么走路、怎么端盘子、怎么抗干扰。但这就像让一个刚出生的婴儿同时学会“如何保持平衡”和“如何端着一杯满水”,太难了,很容易学废。

2. 解决方案:ReST-RL(“老保镖 + 新手”的师徒模式)

这篇论文提出了一种叫 ReST-RL 的聪明办法。它把任务拆成了两步,就像训练一个**“师徒组合”**:

第一步:训练“老保镖”(基础策略 Base Policy)

首先,我们训练机器人只学怎么走路

  • 不管它手里有没有盘子,它先学会走得稳、走得快、不被推倒。
  • 这就好比一个经验丰富的保镖,他的核心技能是**“无论发生什么,我都能稳稳地站住和移动”**。
  • 在这个阶段,我们冻结他的技能,不再让他重新学习走路,保证他走路的基本功不变。

第二步:训练“新手”(残差模块 Residual Module)

接下来,我们在这个“老保镖”的基础上,加一个**“超级大脑”**(也就是残差模块)。

  • 这个“超级大脑”专门负责盯着托盘上的东西。
  • 当机器人走路导致身体晃动时,“老保镖”继续按原计划走路,而“超级大脑”会迅速计算出:“哎呀,身体往左晃了,我得把右手稍微抬高一点,左手压低一点,把托盘扶正。”
  • 它做的不是大动作,而是微调(Residual,即“残差”),专门用来抵消走路带来的震动。

比喻: 就像你端着一杯满水走路。你的腿(老保镖)负责走,你的手腕(新手大脑)负责微调角度,抵消身体的晃动,让水面保持水平。

3. 为什么这个方法这么厉害?

A. “特权信息”与“蒸馏”(从开天眼到靠直觉)

在训练室里(模拟环境),机器人拥有“上帝视角”(Privileged Observations),它知道杯子的精确速度、位置、甚至未来的晃动趋势。

  • 训练时:利用这些“上帝视角”数据,让“新手大脑”学得飞快,知道怎么应对各种突发状况。
  • 现实部署时:机器人没有“上帝视角”,只能靠摄像头看。这时候,作者用了一种叫**“知识蒸馏”**的技术,把“新手大脑”学到的经验,压缩成只看摄像头就能用的技能。
  • 结果:机器人从“靠数据作弊”变成了“靠直觉反应”,在真实世界里也能完美工作。

B. 故意“延迟”训练(模拟真实世界的反应慢)

真实世界里,摄像头看到东西、机器人做出反应是有延迟的(比如你看到杯子要倒了,手再动已经晚了 0.1 秒)。

  • 作者很聪明,在训练时故意给机器人加上**“延迟”**,让它习惯在信息滞后的情况下做决策。
  • 效果:这就像让运动员在负重或视线模糊的情况下训练,到了比赛(真实世界)时,反而反应更稳、更鲁棒。

4. 实际效果:Unitree G1 机器人的表现

论文展示了这个技术在真实机器人 Unitree G1 上的表现:

  • 场景:机器人端着一个托盘,上面放着装满红酒的高脚杯、咖啡杯、甚至手术器械。
  • 挑战
    • 机器人被推了一把(外部干扰)。
    • 托盘上的杯子被推了一下。
    • 机器人需要加速、减速、转弯。
  • 结果:无论怎么推,无论换什么形状的物体,机器人都能自动调整身体姿态,把托盘扶正,红酒一滴没洒,杯子也没倒。
  • 成功率:在模拟测试中,面对各种干扰,成功率高达 96.9%,远超以前那种“从头学起”的笨办法。

总结

这篇论文的核心思想就是:不要试图让机器人一次性学会所有事。

它把“走路”和“端盘子”分开:

  1. 让机器人先学会稳稳地走路(这是基础)。
  2. 再给它加一个专门负责扶正托盘的“微调助手”(这是残差模块)。
  3. 通过模拟训练延迟训练,让这个助手学会在真实世界里靠直觉反应。

这就好比教一个新手司机:先让他练好开车(基础策略),再让他专门练习在颠簸路面上保持咖啡杯不洒(残差模块)。最终,他就能在复杂的城市路况中,既开得稳,又端得稳了。