APEX: Learning Adaptive High-Platform Traversal for Humanoid Robots

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 APEX 的机器人系统，它让人形机器人（比如 Unitree G1）学会了像杂技演员一样，轻松跨越比它腿还高的平台。

想象一下，如果你面前有一堵墙，高度比你整个人还高，普通机器人可能会试图“跳”过去，但这就像让你试图跳上一辆双层巴士一样危险且容易失败。而 APEX 系统让机器人学会了**“爬”**，就像人类翻越栏杆或爬梯子一样，手脚并用，稳扎稳打。

以下是用通俗易懂的比喻和语言对这篇论文的解读：

1. 核心挑战：为什么“跳”不行，必须“爬”？

以前的机器人主要靠脚走路。遇到稍微高一点的平台，它们会尝试“跳”上去。

比喻：这就好比一只小狗试图跳上高高的桌子。如果桌子太高（超过腿长的 63%），小狗必须用尽全力猛蹬，这不仅容易摔下来，还容易把腿（机器人的电机）弄坏。
APEX 的解法：它不再死磕“跳”，而是学会了全身协调。就像人类翻越障碍时，会先用手撑住，把身体拉上去，或者先趴下再站起来。它把“爬上去”、“爬下来”、“站起来”、“趴下”和“走/爬”这六种技能都学会了。

2. 核心魔法：什么是“棘轮奖励” (Ratchet Progress Reward)？

这是这篇论文最聪明的地方。在教机器人做这些复杂动作时，传统的奖励方法（比如“离目标越近越好”）会让机器人变得很急躁，像无头苍蝇一样乱撞，或者为了拿分而做出危险的“假动作”。

比喻：想象你在玩一个**“只能前进，不能后退”的爬楼梯游戏**。
- 传统方法：裁判说“你离终点越近分越高”。机器人可能会为了得分，在楼梯口疯狂前后摇摆，或者试图直接飞过去（虽然飞不过去，但会乱动）。
- APEX 的“棘轮奖励”：裁判手里有一个**“历史最高纪录”**。
  - 如果你今天的表现比昨天最好的时候还要好一点点，你就得分。
  - 如果你退步了，或者原地踏步，你就扣分。
  - 关键点：这个奖励不看你跑得多快，只看你有没有真正进步。
效果：这迫使机器人变得**“有耐心”**。在爬高台时，它知道不能急着冲，必须先把手脚稳稳地搭好（建立支撑），确认安全了再移动身体。这种“稳扎稳打”的策略，让机器人学会了在接触点之间安全地转移重心，而不是鲁莽地跳跃。

3. 如何从“模拟”到“现实”？（解决“眼瞎”问题）

在电脑里训练机器人时，地图是完美的；但在现实世界里，机器人的眼睛（激光雷达）会因为震动、反光或遮挡看到一堆乱码（比如把空气看成障碍物，或者把平台看成洞）。

比喻：这就好比机器人戴着一副**“脏兮兮且会晃动的眼镜”**。
- 训练时：研究人员故意给机器人的“眼镜”上涂满污渍、制造假象（模拟现实中的干扰），让它学会在看不清的时候也能猜对地形。
- 现实中：当机器人真的戴上这副眼镜时，系统会先帮它**“擦眼镜”（过滤噪点）和“补全画面”**（把看不清的地方填上合理的推测）。
结果：即使机器人看到的地图有点乱，它也能像经验丰富的登山者一样，凭经验判断哪里能踩，哪里不能踩。

4. 技能整合：从“六神”到“一人”

机器人一开始是分别学习这六种技能（爬、站、趴、走等），就像六个不同的专家。但我们需要一个**“全能指挥官”**，能根据眼前的情况自动决定用哪个技能。

比喻：这就像把六个**“特级大厨”（每个只擅长做一道菜）的知识，蒸馏（提炼）进一个“超级主厨”**的脑子里。
- 这个“超级主厨”不需要别人告诉它“现在该爬了”，它看一眼地形（是平地还是高台？），听一下指令（往前走还是往后退？），就能自动切换模式：该爬墙时立刻爬墙，到了平台顶上自动站起来走路，到了边缘自动趴下准备爬下来。
- 这种切换非常丝滑，就像人走路一样自然，不会卡顿或摔倒。

5. 实际成果：Unitree G1 的壮举

研究人员在真实的 Unitree G1 人形机器人（有 29 个关节，非常灵活）上测试了这个系统。

成绩：机器人成功跨越了 0.8 米高 的平台。
意义：这个高度大约是机器人腿长的 114%。也就是说，它翻越了比它自己腿还高的障碍，而且是从电脑模拟直接跳到现实世界（Zero-shot Sim-to-Real），中间没有再重新训练。
抗干扰能力：即使有人在机器人爬墙时猛推它一下，或者地面是软软的垫子，它也能迅速调整姿势，重新站稳并继续爬上去。

总结

APEX 系统让人形机器人从“只会跳的笨小孩”进化成了“会攀爬的灵巧登山家”。
它通过一种**“只奖励进步，不奖励速度”的聪明训练法，让机器人学会了耐心和安全**；通过**“给眼镜做清洁”的技术，让机器人能看清现实世界；最后通过“知识蒸馏”**，让机器人能像人一样灵活地在各种动作间切换。

这不仅是机器人技术的突破，更是让机器人真正走进复杂人类环境（比如翻越台阶、跨越障碍）的关键一步。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

核心挑战：
人形机器人的运动控制近年来通过深度强化学习（DRL）取得了显著进展，能够稳健地在崎岖地形上行走。然而，跨越超过腿部长度（Leg Length）的高平台（如桌子、高台）仍然是一个巨大的挑战。

现有方法的局限性：

跳跃式方案（Jumping-based）： 现有的 DRL 方法倾向于学习跳跃动作。对于高度超过腿部长度（例如 >100% 腿长）的平台，跳跃需要巨大的瞬时冲量扭矩，导致高冲击动力学，容易超出执行器限制，且在现实部署中存在安全隐患。
学习难点： 高平台穿越需要多种全身体态的协调（如攀爬、站立、躺下、爬行），这些是**接触丰富（Contact-rich）且目标导向（Goal-reaching）**的任务。传统的基于速度跟踪的奖励函数难以定义，且难以在强安全正则化下引导智能体探索复杂的接触序列。
长程序列问题： 完整的穿越过程需要自主选择合适的技能（如先攀爬，再站立，再行走，再躺下，最后爬下），并实现平滑的技能切换，这对感知、高层决策和底层控制的耦合提出了极高要求。

2. 方法论 (Methodology)

作者提出了 APEX 系统，采用两阶段学习框架，结合感知、技能学习与策略蒸馏，实现人形机器人的自适应高平台穿越。

A. 核心创新：广义棘轮进度奖励 (Generalized Ratchet Progress Reward)

针对接触丰富且无固定参考轨迹的任务，作者提出了一种新的奖励机制：

机制： 维护一个“当前最佳进度状态”（Best-so-far task state, $x^*_t$ ）。只有当智能体在当前步的状态严格超越历史最佳状态时，才给予奖励（或零惩罚）；否则给予惩罚。
优势：
- 稠密且无速度偏置： 提供稠密的监督信号，但不鼓励盲目加速，允许机器人在接触点不稳定时“暂停”等待（如攀爬时等待腿部稳定落地）。
- 防止回退： 避免了智能体通过前后振荡来“刷分”的局部最优解，确保向目标 genuine 推进。
- 安全正则化： 在强安全约束（如限制接触力）下，仍能高效探索。

B. 技能库构建 (Skill Library)

系统训练了 6 种技能 的专家策略（Teacher Policies）：

4 种全身体态机动（Goal-reaching）： 向上攀爬 (Climb-up)、向下攀爬 (Climb-down)、站立 (Stand-up)、躺下 (Lie-down)。
2 种周期性运动（Cyclic Locomotion）： 行走 (Walking)、爬行 (Crawling)。

感知输入： 所有策略均基于 LiDAR 高程图 (Elevation Mapping)，使机器人具备地形感知能力。
Sim-to-Real 感知差距消除：
- 训练时： 在仿真中注入映射伪影（高斯噪声、定位漂移、异常点簇）。
- 部署时： 对真实 LiDAR 数据进行空间滤波和修复（Inpainting），重建结构连贯的地形表示。

C. 策略蒸馏与集成 (Policy Distillation)

为了将分散的技能整合为一个统一的控制器：

两阶段蒸馏： 先通过行为克隆（BC）预训练学生策略，再利用 DAgger 算法进行迭代优化，提高鲁棒性和分布覆盖。
数据分布策略： 采用“分而治之”的数据采样规则，确保训练数据覆盖所有技能及其过渡状态（如从站立到攀爬的过渡），解决长程序列中数据不平衡的问题。
统一策略： 最终蒸馏出一个单一的感知策略，能根据局部几何环境和用户指令，自主选择技能并平滑切换。

3. 关键贡献 (Key Contributions)

两阶段学习框架： 首次将接触丰富的全身体态机动（攀爬、姿态转换）与周期性运动（行走、爬行）整合到单一控制器中，实现人形机器人对极端高度平台的完整穿越。
广义棘轮进度奖励： 提出了一种无需速度参考、基于历史最佳进度的奖励函数，解决了接触丰富任务中稀疏奖励和探索效率低下的问题，是学习安全、稳健机动行为的关键。
现实世界突破： 在 Unitree G1 (29 自由度) 人形机器人上实现了 0 样本 (Zero-shot) 的 Sim-to-Real 迁移。成功穿越 0.8 米 高的平台（约为机器人腿长的 114%），远超以往基于跳跃方法的极限（通常 <63% 腿长）。
鲁棒性与适应性： 系统能自适应不同平台高度、初始姿态、接近角度，甚至在受到强烈外部扰动（如被踢）或感知噪声干扰下，仍能通过调整接触策略恢复平衡并完成穿越。

4. 实验结果 (Results)

仿真与实机表现：
- 成功率： 在仿真中，各单项技能成功率接近 100%。在实机测试中，0.8 米平台（不同接近角度）的攀爬成功率达到 97.8% - 100%。
- 连续穿越： 机器人能够自主执行“行走 -> 攀爬 -> 爬行 -> 站立 -> 行走 -> 躺下 -> 爬行 -> 爬下 -> 行走”的完整长序列任务，无需重置。
- 抗扰动能力： 在机器人接近平台时被重踢导致失衡，策略能迅速调整步态和支撑腿，利用接触点恢复平衡并继续攀爬。
对比实验：
- 与基于速度跟踪、距离最小化、RND（好奇心驱动）等基线奖励相比，棘轮进度奖励是唯一能同时实现高成功率、低接触力（安全）且避免局部最优（如原地踏步）的方法。
- 基于距离的奖励往往导致激进的“全身体跳跃”行为，接触力过大，无法在实机上部署。
感知鲁棒性： 即使在 LiDAR 地图存在严重异常点（Ghost points）或漂移的情况下，经过修复和训练的策略仍能准确识别平台并执行任务。

5. 意义与影响 (Significance)

拓展了人形机器人的作业边界： 证明了通过全身体态协调（而非单纯跳跃）可以安全、稳健地跨越远超腿部长度的障碍物，为未来人形机器人在复杂工业环境、灾难救援或家庭服务中的实际应用奠定了基础。
解决了接触丰富任务的 RL 训练难题： 提出的“棘轮进度奖励”为学习非周期性、多接触、目标导向的复杂机动行为提供了通用的奖励设计范式，对强化学习在机器人控制领域的应用具有方法论价值。
推动了 Sim-to-Real 的落地： 通过精细的感知建模（训练时注入伪影、部署时修复）和策略蒸馏，成功克服了感知差距，展示了在真实物理世界中部署复杂 DRL 策略的可行性。

总结： APEX 系统通过创新的奖励机制和两阶段学习架构，成功让 Unitree G1 人形机器人学会了像人类一样“攀爬”而非“跳跃”过高的障碍，实现了从感知到决策再到控制的端到端自适应高难度穿越，是人形机器人运动控制领域的一项重大突破。