Learning Humanoid End-Effector Control for Open-Vocabulary Visual Loco-Manipulation

本文提出了名为 HERO 的新范式,通过结合大视觉模型的开放词汇泛化能力与基于仿真的残差感知末端执行器追踪策略,显著提升了人形机器人在真实复杂环境中对任意物体的视觉 loco-manipulation 性能。

Runpei Dong, Ziyan Li, Xialin He, Saurabh Gupta

发布于 2026-02-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 HERO 的机器人系统,它让人形机器人(比如宇树科技的 G1)拥有了像人类一样“眼观六路、手到擒来”的能力。

为了让你轻松理解,我们可以把这篇论文的核心内容想象成教一个刚学会走路的“机器人宝宝”如何在一个陌生的房间里,听懂你的指令,然后灵活地弯腰、转身,把桌上的东西拿起来。

以下是用通俗语言和比喻做的详细解读:

1. 核心挑战:为什么这很难?

想象一下,让机器人翻个跟头(像现在的很多机器人视频那样)其实挺酷的,但拿东西难多了。

  • 翻跟头:只要落地站稳就行,落在哪里差别不大。
  • 拿东西:你的手必须精准地碰到那个杯子,差一厘米都拿不起来,甚至会把杯子打翻。

以前的机器人要么太笨,看不懂复杂的场景(比如分不清红苹果和绿苹果);要么虽然能看懂,但手太“抖”,控制不准,误差能有 10 多厘米(相当于拿东西时手在乱晃)。

2. HERO 的解决方案:一个“超级大脑” + “超级肌肉”的组合

作者没有试图让机器人“死记硬背”所有动作,而是设计了一个模块化的系统,就像给机器人配了一个聪明的指挥官和一个训练有素的执行者

A. 聪明的指挥官(视觉与规划)

  • 角色:就像你眼睛和大脑。
  • 能力:它使用了大语言模型视觉模型(比如 Grounding DINO 和 SAM)。
  • 比喻:如果你说“把那个橙色的马克杯拿给我”,这个指挥官能瞬间在杂乱的桌子上认出哪个是“橙色的”,哪个是“马克杯”,甚至能忽略旁边的“玩具狗”或“紫色书”。它不需要提前见过这个杯子,因为它“懂”语言,也“懂”物体长什么样(这就是所谓的“开放词汇”能力)。
  • 动作:它计算出杯子在哪里,并规划出一个大概的抓取姿势。

B. 超级肌肉(精准控制)

  • 角色:就像你的手臂肌肉和神经系统。
  • 痛点:以前的机器人手太“抖”了。因为机器人身体是软的(关节有弹性),加上传感器不准,它以为手伸到了杯子位置,实际上手可能偏了 10 厘米。
  • HERO 的绝招
    1. 修正“幻觉”:机器人自己算出来的手的位置(正向运动学)经常是错的。HERO 训练了一个AI 小模型来专门“打脸”这些错误计算,告诉机器人:“不,你的手其实在这里,不是那里。”这让位置判断精准了 6 倍。
    2. 实时纠偏:就像你走路时如果快摔了会下意识调整重心一样,HERO 会每 6 秒重新规划一次路线。如果机器人身体晃了,它立刻调整,确保手还能稳稳地伸向目标。
    3. 全身协调:为了拿到远处的东西,机器人不仅要伸手,还要弯腰、扭腰、甚至下蹲。HERO 能控制全身 29 个关节,像人类一样灵活地调整姿势去够东西。

3. 实验结果:它有多强?

作者在真实的办公室、咖啡馆、甚至杂乱的房间里测试了机器人:

  • 听懂人话:无论你说“拿那个红色的可乐罐”还是“拿那个紫色的书”,它都能找对。
  • 适应各种高度:无论是高桌子(0.74 米)还是矮茶几(0.43 米),它都能通过下蹲或弯腰去拿。
  • 成功率:在测试的 10 种日常物品和不同场景中,它的成功率高达 83.8%90%
  • 精准度:它的手部控制误差只有 2.5 厘米 左右(以前是 10-13 厘米),这就像从“乱抓”变成了“精准点穴”。

4. 为什么这很重要?

  • 以前:让机器人学会拿东西,需要人类手把手教它成千上万次(模仿学习),而且换个房间、换个杯子,它可能就傻了。
  • 现在:HERO 证明了,我们可以把“看懂世界”(用大模型)和“控制身体”(用强化学习训练)分开来做。这样,机器人既聪明(能理解新指令),又灵活(能控制身体),而且不需要在真实世界里练几百万次。

总结

这篇论文就像是在教机器人**“如何像人一样思考并行动”。它不再是一个只会按死板程序运行的机器,而是一个能听懂你说话、能在复杂环境中灵活弯腰、精准抓取物品的智能助手**。

一句话概括:HERO 让机器人拥有了“火眼金睛”(看懂物体)和“神之手”(精准控制),从此以后,它不仅能陪你聊天,还能帮你把桌上的零食、水杯甚至杂物收拾得井井有条。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →