Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HERO 的机器人系统，它让人形机器人（比如宇树科技的 G1）拥有了像人类一样“眼观六路、手到擒来”的能力。

为了让你轻松理解，我们可以把这篇论文的核心内容想象成教一个刚学会走路的“机器人宝宝”如何在一个陌生的房间里，听懂你的指令，然后灵活地弯腰、转身，把桌上的东西拿起来。

以下是用通俗语言和比喻做的详细解读：

1. 核心挑战：为什么这很难？

想象一下，让机器人翻个跟头（像现在的很多机器人视频那样）其实挺酷的，但拿东西难多了。

翻跟头：只要落地站稳就行，落在哪里差别不大。
拿东西：你的手必须精准地碰到那个杯子，差一厘米都拿不起来，甚至会把杯子打翻。

以前的机器人要么太笨，看不懂复杂的场景（比如分不清红苹果和绿苹果）；要么虽然能看懂，但手太“抖”，控制不准，误差能有 10 多厘米（相当于拿东西时手在乱晃）。

2. HERO 的解决方案：一个“超级大脑” + “超级肌肉”的组合

作者没有试图让机器人“死记硬背”所有动作，而是设计了一个模块化的系统，就像给机器人配了一个聪明的指挥官和一个训练有素的执行者。

A. 聪明的指挥官（视觉与规划）

角色：就像你眼睛和大脑。
能力：它使用了大语言模型和视觉模型（比如 Grounding DINO 和 SAM）。
比喻：如果你说“把那个橙色的马克杯拿给我”，这个指挥官能瞬间在杂乱的桌子上认出哪个是“橙色的”，哪个是“马克杯”，甚至能忽略旁边的“玩具狗”或“紫色书”。它不需要提前见过这个杯子，因为它“懂”语言，也“懂”物体长什么样（这就是所谓的“开放词汇”能力）。
动作：它计算出杯子在哪里，并规划出一个大概的抓取姿势。

B. 超级肌肉（精准控制）

角色：就像你的手臂肌肉和神经系统。
痛点：以前的机器人手太“抖”了。因为机器人身体是软的（关节有弹性），加上传感器不准，它以为手伸到了杯子位置，实际上手可能偏了 10 厘米。
HERO 的绝招：
1. 修正“幻觉”：机器人自己算出来的手的位置（正向运动学）经常是错的。HERO 训练了一个AI 小模型来专门“打脸”这些错误计算，告诉机器人：“不，你的手其实在这里，不是那里。”这让位置判断精准了 6 倍。
2. 实时纠偏：就像你走路时如果快摔了会下意识调整重心一样，HERO 会每 6 秒重新规划一次路线。如果机器人身体晃了，它立刻调整，确保手还能稳稳地伸向目标。
3. 全身协调：为了拿到远处的东西，机器人不仅要伸手，还要弯腰、扭腰、甚至下蹲。HERO 能控制全身 29 个关节，像人类一样灵活地调整姿势去够东西。

3. 实验结果：它有多强？

作者在真实的办公室、咖啡馆、甚至杂乱的房间里测试了机器人：

听懂人话：无论你说“拿那个红色的可乐罐”还是“拿那个紫色的书”，它都能找对。
适应各种高度：无论是高桌子（0.74 米）还是矮茶几（0.43 米），它都能通过下蹲或弯腰去拿。
成功率：在测试的 10 种日常物品和不同场景中，它的成功率高达 83.8% 到 90%。
精准度：它的手部控制误差只有 2.5 厘米 左右（以前是 10-13 厘米），这就像从“乱抓”变成了“精准点穴”。

4. 为什么这很重要？

以前：让机器人学会拿东西，需要人类手把手教它成千上万次（模仿学习），而且换个房间、换个杯子，它可能就傻了。
现在：HERO 证明了，我们可以把“看懂世界”（用大模型）和“控制身体”（用强化学习训练）分开来做。这样，机器人既聪明（能理解新指令），又灵活（能控制身体），而且不需要在真实世界里练几百万次。

总结

这篇论文就像是在教机器人**“如何像人一样思考并行动”。它不再是一个只会按死板程序运行的机器，而是一个能听懂你说话、能在复杂环境中灵活弯腰、精准抓取物品的智能助手**。

一句话概括：HERO 让机器人拥有了“火眼金睛”（看懂物体）和“神之手”（精准控制），从此以后，它不仅能陪你聊天，还能帮你把桌上的零食、水杯甚至杂物收拾得井井有条。

Each language version is independently generated for its own context, not a direct translation.

1. 问题背景 (Problem)

人形机器人要在非结构化、开放词汇的真实世界环境中（如办公室、咖啡店）自主地移动并抓取任意物体，面临两大核心挑战：

感知与规划的泛化性：机器人需要理解自然语言指令（如“拿起红色的苹果”），并在未见过的场景中定位物体。传统的端到端模仿学习（Imitation Learning）受限于难以收集大规模真实世界数据集，导致泛化能力不足。
末端执行器（EE）的精确控制：人形机器人需要在保持全身平衡（涉及弯腰、下蹲、扭转）的同时，将手精准地移动到目标位置。现有的全身控制策略在末端执行器跟踪上存在较大误差（通常为 8-13 厘米），这对于需要高精度的物体抓取任务来说是不可接受的。此外，低成本人形机器人（如 Unitree G1）的硬件误差导致解析正向运动学（Analytical FK）不准确，进一步加剧了控制难度。

2. 方法论 (Methodology)

论文提出了 HERO 系统，采用模块化架构，将高层感知规划与底层运动控制解耦，核心在于设计了一个高精度的末端执行器跟踪策略。

A. 系统架构 (Modular System)

系统分为两个主要部分：

高层感知与规划 (Open-Vocabulary Perception & Planning)：
- 利用大型视觉模型（LVMs，如 Grounding DINO 和 SAM）进行开放词汇的目标检测和分割。
- 使用 AnyGrasp 模型生成抓取姿态，并将其重映射（Retargeting）到人形机器人的 Dex-3 灵巧手。
- 将抓取目标转化为机器人基座坐标系下的末端执行器位姿目标。
底层控制 (HERO Tracker)：
- 这是一个基于强化学习（RL）的全身跟踪策略，负责将机器人从当前状态移动到目标抓取位姿。
- 关键创新：结合了经典机器人学（逆运动学 IK、运动规划）与机器学习，专门解决 Sim2Real 中的精度问题。

B. 核心技术组件 (Key Technical Components)

残差感知末端执行器跟踪策略 (Residual-aware EE Tracking Policy, $\pi_t$ )：
- 输入不仅包含参考关节角度，还包含残差末端执行器误差（当前 EE 位姿与目标位姿的差值）。
- 策略网络输出全身 29 个自由度的关节控制指令。
学习到的残差前向运动学模型 (Learned Residual Neural FK, $\eta$ )：
- 问题：解析正向运动学（Analytical FK）在 Unitree G1 上存在约 1.76cm 的系统性误差。
- 方案：训练一个神经网络模型，预测解析 FK 输出与真实位姿之间的残差变换（旋转和平移），将误差降低至 0.27cm。
学习到的残差腿部里程计 (Learned Residual Neural Leg Odometry, $\xi$ )：
- 问题：在全身移动过程中，机器人基座会发生位移，导致基于基座坐标系的目标位姿失效。由于视觉视野受限（Egocentric view），无法时刻通过视觉闭环修正。
- 方案：假设双脚静止，利用下肢关节状态训练神经网络预测基座相对于初始时刻的位移残差，从而准确估计基座位姿。
闭环重规划 (Closed-Loop Replanning)：
- 每 6 秒（300 步）重新运行一次运动规划器（cuRobo），生成新的参考轨迹，以应对累积的跟踪误差和分布外（OOD）状态。
目标调整 (Goal Adjustment)：
- 在接近目标时，根据当前的跟踪误差，按比例（ $\alpha=1.6$ ）放大误差向量输入给策略，强制策略向目标修正，消除系统性偏差。

3. 主要贡献 (Key Contributions)

高精度末端执行器控制框架 (HERO)：提出了一种结合经典控制与神经网络的混合架构，将人形机器人末端执行器的跟踪误差从现有的 8-13cm 降低至 2.44cm（真实世界 MoCap 测试），提升了 3.2 倍 的精度。
残差建模解决硬件误差：证明了通过离线系统辨识（System Identification）训练残差前向运动学和里程计模型，可以有效补偿低成本人形机器人的硬件制造误差和弹性形变。
开放词汇移动操作系统：首次展示了人形机器人能够在完全自主、无遥操作演示的情况下，利用开放词汇指令在真实世界的复杂场景（不同高度桌子、杂乱环境）中抓取未见过的物体。
模块化设计的验证：验证了将“感知/规划”（利用预训练大模型）与“执行”（利用仿真训练的控制策略）解耦的范式，比纯端到端模仿学习更具可扩展性和泛化性。

4. 实验结果 (Results)

末端跟踪精度：
- 仿真中：平均平移误差 2.21-3.30 cm（对比基线 FALCON 和 AMO 的 8-22 cm）。
- 真实世界（MoCap 房间）：平均平移误差 2.44 cm。
端到端抓取成功率：
- 10 种日常物体（不同形状、材质）：在标准桌（0.74m）和矮桌（0.56m）上，平均成功率 90%。
- 10 个新场景（办公室、休息室、教室等）：泛化成功率 73.3%。
- 杂乱场景：在 5 个随机杂乱布局中，成功率 80%。
工作空间分析：
- 引入腰部弯曲（Waist Bending）使单臂可达工作空间体积增加了约 2.1 倍，显著提升了机器人对低处和远处物体的抓取能力。

5. 意义与影响 (Significance)

突破人形机器人操作瓶颈：解决了人形机器人“手眼协调”中“手不准”的核心痛点，使得人形机器人能够执行精细的物体操作任务，而不仅仅是展示运动能力（如后空翻）。
推动 Sim2Real 落地：通过残差学习和系统辨识，证明了在低成本硬件上实现高精度控制的可行性，降低了对昂贵硬件和大规模真实数据收集的依赖。
通用性范式：该模块化方法为未来人形机器人处理开放词汇任务提供了新范式，即利用大模型解决“做什么”（What to do），利用强化学习解决“怎么做”（How to do），有望加速人形机器人在家庭和服务场景中的实际应用。
未来方向：论文指出的局限性（如视野受限、灵巧手能力不足）也为后续研究（如主动视觉、更灵巧的手部设计）指明了方向。

总结：HERO 系统通过创新的混合控制策略，成功将人形机器人的操作精度提升到了实用水平，实现了在真实世界中根据自然语言指令自主抓取未知物体的能力，是人形机器人从“动起来”向“干得好”迈进的重要一步。