Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一项名为 SteadyTray（稳盘） 的新技术，它让人形机器人（比如 Unitree G1）学会了像人类服务员一样，端着一盘东西走路，而且盘子里的东西（哪怕是装满酒的杯子）一滴不漏、稳稳当当。

为了让你轻松理解，我们可以把这项技术想象成**“一位老练的保镖带着一个新手保镖去执行任务”**的故事。

1. 核心难题：为什么端盘子走路这么难？

想象一下，你让一个刚学会走路的机器人去端托盘。

走路本身：机器人走路时，脚落地会有震动，身体会左右摇晃（就像人走快了会晃一样）。
端盘子：如果机器人只是机械地模仿走路，托盘就会跟着身体晃。
后果：托盘上的红酒杯会洒出来，或者杯子直接翻倒。

以前的方法通常是让机器人“从头学起”，试图一次性学会怎么走路、怎么端盘子、怎么抗干扰。但这就像让一个刚出生的婴儿同时学会“如何保持平衡”和“如何端着一杯满水”，太难了，很容易学废。

2. 解决方案：ReST-RL（“老保镖 + 新手”的师徒模式）

这篇论文提出了一种叫 ReST-RL 的聪明办法。它把任务拆成了两步，就像训练一个**“师徒组合”**：

第一步：训练“老保镖”（基础策略 Base Policy）

首先，我们训练机器人只学怎么走路。

不管它手里有没有盘子，它先学会走得稳、走得快、不被推倒。
这就好比一个经验丰富的保镖，他的核心技能是**“无论发生什么，我都能稳稳地站住和移动”**。
在这个阶段，我们冻结他的技能，不再让他重新学习走路，保证他走路的基本功不变。

第二步：训练“新手”（残差模块 Residual Module）

接下来，我们在这个“老保镖”的基础上，加一个**“超级大脑”**（也就是残差模块）。

这个“超级大脑”专门负责盯着托盘上的东西。
当机器人走路导致身体晃动时，“老保镖”继续按原计划走路，而“超级大脑”会迅速计算出：“哎呀，身体往左晃了，我得把右手稍微抬高一点，左手压低一点，把托盘扶正。”
它做的不是大动作，而是微调（Residual，即“残差”），专门用来抵消走路带来的震动。

比喻： 就像你端着一杯满水走路。你的腿（老保镖）负责走，你的手腕（新手大脑）负责微调角度，抵消身体的晃动，让水面保持水平。

3. 为什么这个方法这么厉害？

A. “特权信息”与“蒸馏”（从开天眼到靠直觉）

在训练室里（模拟环境），机器人拥有“上帝视角”（Privileged Observations），它知道杯子的精确速度、位置、甚至未来的晃动趋势。

训练时：利用这些“上帝视角”数据，让“新手大脑”学得飞快，知道怎么应对各种突发状况。
现实部署时：机器人没有“上帝视角”，只能靠摄像头看。这时候，作者用了一种叫**“知识蒸馏”**的技术，把“新手大脑”学到的经验，压缩成只看摄像头就能用的技能。
结果：机器人从“靠数据作弊”变成了“靠直觉反应”，在真实世界里也能完美工作。

B. 故意“延迟”训练（模拟真实世界的反应慢）

真实世界里，摄像头看到东西、机器人做出反应是有延迟的（比如你看到杯子要倒了，手再动已经晚了 0.1 秒）。

作者很聪明，在训练时故意给机器人加上**“延迟”**，让它习惯在信息滞后的情况下做决策。
效果：这就像让运动员在负重或视线模糊的情况下训练，到了比赛（真实世界）时，反而反应更稳、更鲁棒。

4. 实际效果：Unitree G1 机器人的表现

论文展示了这个技术在真实机器人 Unitree G1 上的表现：

场景：机器人端着一个托盘，上面放着装满红酒的高脚杯、咖啡杯、甚至手术器械。
挑战：
- 机器人被推了一把（外部干扰）。
- 托盘上的杯子被推了一下。
- 机器人需要加速、减速、转弯。
结果：无论怎么推，无论换什么形状的物体，机器人都能自动调整身体姿态，把托盘扶正，红酒一滴没洒，杯子也没倒。
成功率：在模拟测试中，面对各种干扰，成功率高达 96.9%，远超以前那种“从头学起”的笨办法。

总结

这篇论文的核心思想就是：不要试图让机器人一次性学会所有事。

它把“走路”和“端盘子”分开：

让机器人先学会稳稳地走路（这是基础）。
再给它加一个专门负责扶正托盘的“微调助手”（这是残差模块）。
通过模拟训练和延迟训练，让这个助手学会在真实世界里靠直觉反应。

这就好比教一个新手司机：先让他练好开车（基础策略），再让他专门练习在颠簸路面上保持咖啡杯不洒（残差模块）。最终，他就能在复杂的城市路况中，既开得稳，又端得稳了。

Each language version is independently generated for its own context, not a direct translation.

SteadyTray 论文技术总结

1. 研究背景与问题定义 (Problem)

核心挑战：
在动态双足行走过程中，如何稳定地搬运未固定的负载（如托盘上的液体、易碎仪器等），是人形机器人在非结构化环境中应用的关键瓶颈。

物理难点： 双足行走时的脚部冲击会导致躯干和基座产生固有振荡，这些扰动通过运动链传递到末端执行器。
控制冲突： 机器人需要在保持敏捷全身步态（Locomotion）的同时，维持末端执行器（托盘）的水平姿态以稳定负载（Stabilization）。这两者存在目标冲突：为了行走稳定，身体需要摆动；为了托盘水平，身体需要抑制摆动。
现有局限： 现有的端到端（End-to-End）强化学习方法难以同时优化行走和负载稳定；现有的末端稳定方法（如 SoFTA）主要针对悬挂物体，无法有效处理托盘上未固定物体（易滑动、倾倒）在转弯、加减速或受外力推挤时的复杂动力学。

任务定义 (SteadyTray)：
将双足人形机器人搬运托盘上未固定物体的任务形式化为一个**双臂 loco-manipulation（行走与操作）**问题。目标是：在动态行走及受到外部扰动（推机器人或推物体）时，保持托盘水平，防止物体滑落或倾倒。

2. 方法论 (Methodology)

论文提出了 ReST-RL (Residual Student-Teacher Reinforcement Learning)，一种分层强化学习架构，旨在解耦行走控制与负载稳定控制。

2.1 核心架构：分层残差学习

ReST-RL 采用“教师 - 学生”蒸馏与残差控制相结合的策略：

基础策略 (Base Policy, $\pi_{base}$ )：
- 预先训练一个鲁棒的行走策略，仅基于本体感知数据（关节位置、速度、角速度等）和目标速度指令。
- 该策略负责生成基础的步态，保持机器人整体平衡和托盘的基本持握姿态。
- 在后续训练中，该策略参数被冻结。
残差模块 (Residual Module)：
- 在基础策略之上，训练一个残差模块来生成校正动作，专门用于抵消步态引起的扰动并稳定负载。
- 输入：包含本体感知数据、目标指令以及特权信息 (Privileged Information)（如物体的真实位置、速度、重力投影等，这些在仿真中可得，但现实中难以直接精确获取）。
- 两种集成机制：
  - 残差动作适配器 (Residual Action Adapter)：直接输出校正动作 $\tilde{a}_t$ ，与基础动作加权融合： $\hat{a}_t = \alpha_{base} a_t + \alpha_{residual} \tilde{a}_t + q_{default}$ 。
  - 残差 FiLM 适配器 (Residual FiLM Adapter)：通过特征层面的仿射变换（FiLM），调节基础策略中间层的激活值，实现更细粒度的控制修正。
策略蒸馏 (Policy Distillation)：
- 由于特权信息在现实世界中不可直接观测，训练分为两个阶段：
  - 教师训练：使用特权信息训练编码器，学习如何根据物体状态生成校正策略。
  - 学生蒸馏：训练一个“学生编码器”，仅使用可观测的物体感知数据（如相机视觉数据），使其输出特征与教师编码器的特征对齐，并模仿教师的校正动作。
- 最终部署时，使用学生编码器 + 冻结的适配器，实现零样本 (Zero-shot) Sim-to-Real 迁移。

2.2 关键训练设计

延迟观测 (Observation Delay)：在物体相关观测中引入随机延迟，模拟现实感知延迟，提高策略对延迟的鲁棒性。
领域随机化 (Domain Randomization)：随机化物体质量、摩擦系数、机器人质心、控制延迟等，增强泛化能力。
奖励函数设计：
- 基础奖励：关注步态平滑度、速度跟踪、躯干稳定性。
- 稳定奖励：稀疏奖励，主要关注物体是否保持直立（与重力对齐）以及物体与托盘的接触状态，不强制具体的物体位置，鼓励策略发现自适应恢复策略。

3. 主要贡献 (Key Contributions)

提出 ReST-RL 框架：一种用于 SteadyTray 任务的残差学生 - 教师强化学习框架。通过显式解耦行走与负载稳定，在保留基础步态性能的同时，集中学习能力于负载稳定。
关键训练设计验证：证明了引入观测延迟、控制延迟和领域随机化对于提高抗扰动能力和 Sim-to-Real 迁移至关重要。
全面的实验评估：
- 在仿真中，ReST-RL 在步态平滑度和姿态精度上显著优于端到端基线。
- 在 Unitree G1 人形机器人硬件上成功部署，展示了在多种物体（咖啡杯、红酒杯、手术工具等）和外部推力下的零样本泛化能力。

4. 实验结果 (Results)

4.1 仿真结果 (Isaac Lab)

成功率：在变量速度跟踪任务中，ReST-RL (FiLM WB) 达到了 96.9% 的成功率，远高于端到端基线 (89.1%) 和基础策略 (47.4%)。
抗扰动能力：
- 在“推机器人”任务中，ReST-RL 成功率为 84.6%，而端到端仅为 44.0%。
- 在“推物体”任务中，ReST-RL 成功率为 74.6%，端到端为 50.2%。
消融实验：
- 引入观测延迟训练的策略在零延迟和延迟场景下均表现更好，证明延迟训练提升了整体稳定性。
- FiLM 适配器和动作适配器表现相近，说明改进主要源于结构化残差适应机制而非特定网络结构。

4.2 真实世界部署 (Unitree G1)

零样本迁移：模型未经微调直接部署到 Unitree G1 机器人上。
抗干扰表现：
- 当机器人被踢或物体被推时，ReST-RL 能协调上下肢关节，快速恢复托盘水平，防止物体倾倒。
- 恢复过程平滑，无剧烈抖动。
泛化性：成功稳定了多种不同几何形状、质量分布和接触特性的物体（包括装满液体的红酒杯、医疗工具、密封食品容器等）。

5. 意义与展望 (Significance & Future Work)

意义：

工程突破：解决了人形机器人在动态行走中搬运未固定负载的长期难题，为医疗、餐饮、养老等场景的自动化服务提供了关键技术支撑。
方法论创新：证明了“冻结基础策略 + 残差微调”的架构在处理复杂 loco-manipulation 任务时，比端到端学习更高效、更鲁棒，且更容易实现 Sim-to-Real 迁移。
实用性：无需昂贵的重新训练或微调，即可适应不同的负载和扰动环境。

局限与未来方向：

物体编码限制：当前仅支持单物体，且未捕捉精细的几何/物理属性。未来可结合基础姿态估计模型或视觉 RL 改进。
感知限制：依赖头部固定相机，视野受限，难以处理复杂遮挡或特殊持握姿态。
Sim-to-Real 成本：复杂的接触密集型任务仍需要精细的奖励设计和仿真调整。

总结：SteadyTray 项目通过 ReST-RL 架构，成功让人形机器人在动态行走中实现了类似人类的“端盘稳物”能力，是人形机器人从“能走”向“能干活”迈进的重要一步。

SteadyTray: Learning Object Balancing Tasks in Humanoid Tray Transport via Residual Reinforcement Learning