APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

本文提出了 APEX 系统,通过结合地形条件行为与通用“棘轮”进度奖励机制,训练出单一人形机器人策略,实现了在零样本条件下从仿真到现实的 0.8 米高平台(约腿长 114%)自主攀爬、行走及姿态重构的全流程稳定遍历。

Yikai Wang, Tingxuan Leng, Changyi Lin, Shiqi Liu, Shir Simon, Bingqing Chen, Jonathan Francis, Ding Zhao

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 APEX 的机器人系统,它让人形机器人(比如 Unitree G1)学会了像杂技演员一样,轻松跨越比它腿还高的平台。

想象一下,如果你面前有一堵墙,高度比你整个人还高,普通机器人可能会试图“跳”过去,但这就像让你试图跳上一辆双层巴士一样危险且容易失败。而 APEX 系统让机器人学会了**“爬”**,就像人类翻越栏杆或爬梯子一样,手脚并用,稳扎稳打。

以下是用通俗易懂的比喻和语言对这篇论文的解读:

1. 核心挑战:为什么“跳”不行,必须“爬”?

以前的机器人主要靠脚走路。遇到稍微高一点的平台,它们会尝试“跳”上去。

  • 比喻:这就好比一只小狗试图跳上高高的桌子。如果桌子太高(超过腿长的 63%),小狗必须用尽全力猛蹬,这不仅容易摔下来,还容易把腿(机器人的电机)弄坏。
  • APEX 的解法:它不再死磕“跳”,而是学会了全身协调。就像人类翻越障碍时,会先用手撑住,把身体拉上去,或者先趴下再站起来。它把“爬上去”、“爬下来”、“站起来”、“趴下”和“走/爬”这六种技能都学会了。

2. 核心魔法:什么是“棘轮奖励” (Ratchet Progress Reward)?

这是这篇论文最聪明的地方。在教机器人做这些复杂动作时,传统的奖励方法(比如“离目标越近越好”)会让机器人变得很急躁,像无头苍蝇一样乱撞,或者为了拿分而做出危险的“假动作”。

  • 比喻:想象你在玩一个**“只能前进,不能后退”的爬楼梯游戏**。
    • 传统方法:裁判说“你离终点越近分越高”。机器人可能会为了得分,在楼梯口疯狂前后摇摆,或者试图直接飞过去(虽然飞不过去,但会乱动)。
    • APEX 的“棘轮奖励”:裁判手里有一个**“历史最高纪录”**。
      • 如果你今天的表现比昨天最好的时候还要好一点点,你就得分。
      • 如果你退步了,或者原地踏步,你就扣分
      • 关键点:这个奖励不看你跑得多快,只看你有没有真正进步
  • 效果:这迫使机器人变得**“有耐心”**。在爬高台时,它知道不能急着冲,必须先把手脚稳稳地搭好(建立支撑),确认安全了再移动身体。这种“稳扎稳打”的策略,让机器人学会了在接触点之间安全地转移重心,而不是鲁莽地跳跃。

3. 如何从“模拟”到“现实”?(解决“眼瞎”问题)

在电脑里训练机器人时,地图是完美的;但在现实世界里,机器人的眼睛(激光雷达)会因为震动、反光或遮挡看到一堆乱码(比如把空气看成障碍物,或者把平台看成洞)。

  • 比喻:这就好比机器人戴着一副**“脏兮兮且会晃动的眼镜”**。
    • 训练时:研究人员故意给机器人的“眼镜”上涂满污渍、制造假象(模拟现实中的干扰),让它学会在看不清的时候也能猜对地形。
    • 现实中:当机器人真的戴上这副眼镜时,系统会先帮它**“擦眼镜”(过滤噪点)和“补全画面”**(把看不清的地方填上合理的推测)。
  • 结果:即使机器人看到的地图有点乱,它也能像经验丰富的登山者一样,凭经验判断哪里能踩,哪里不能踩。

4. 技能整合:从“六神”到“一人”

机器人一开始是分别学习这六种技能(爬、站、趴、走等),就像六个不同的专家。但我们需要一个**“全能指挥官”**,能根据眼前的情况自动决定用哪个技能。

  • 比喻:这就像把六个**“特级大厨”(每个只擅长做一道菜)的知识,蒸馏(提炼)进一个“超级主厨”**的脑子里。
    • 这个“超级主厨”不需要别人告诉它“现在该爬了”,它看一眼地形(是平地还是高台?),听一下指令(往前走还是往后退?),就能自动切换模式:该爬墙时立刻爬墙,到了平台顶上自动站起来走路,到了边缘自动趴下准备爬下来。
    • 这种切换非常丝滑,就像人走路一样自然,不会卡顿或摔倒。

5. 实际成果:Unitree G1 的壮举

研究人员在真实的 Unitree G1 人形机器人(有 29 个关节,非常灵活)上测试了这个系统。

  • 成绩:机器人成功跨越了 0.8 米高 的平台。
  • 意义:这个高度大约是机器人腿长的 114%。也就是说,它翻越了比它自己腿还高的障碍,而且是从电脑模拟直接跳到现实世界(Zero-shot Sim-to-Real),中间没有再重新训练。
  • 抗干扰能力:即使有人在机器人爬墙时猛推它一下,或者地面是软软的垫子,它也能迅速调整姿势,重新站稳并继续爬上去。

总结

APEX 系统让人形机器人从“只会跳的笨小孩”进化成了“会攀爬的灵巧登山家”。
它通过一种**“只奖励进步,不奖励速度”的聪明训练法,让机器人学会了耐心安全**;通过**“给眼镜做清洁”的技术,让机器人能看清现实世界;最后通过“知识蒸馏”**,让机器人能像人一样灵活地在各种动作间切换。

这不仅是机器人技术的突破,更是让机器人真正走进复杂人类环境(比如翻越台阶、跨越障碍)的关键一步。