Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一个名为 APEX 的机器人系统,它让人形机器人(比如 Unitree G1)学会了像杂技演员一样,轻松跨越比它腿还高的平台。
想象一下,如果你面前有一堵墙,高度比你整个人还高,普通机器人可能会试图“跳”过去,但这就像让你试图跳上一辆双层巴士一样危险且容易失败。而 APEX 系统让机器人学会了**“爬”**,就像人类翻越栏杆或爬梯子一样,手脚并用,稳扎稳打。
以下是用通俗易懂的比喻和语言对这篇论文的解读:
1. 核心挑战:为什么“跳”不行,必须“爬”?
以前的机器人主要靠脚走路。遇到稍微高一点的平台,它们会尝试“跳”上去。
- 比喻:这就好比一只小狗试图跳上高高的桌子。如果桌子太高(超过腿长的 63%),小狗必须用尽全力猛蹬,这不仅容易摔下来,还容易把腿(机器人的电机)弄坏。
- APEX 的解法:它不再死磕“跳”,而是学会了全身协调。就像人类翻越障碍时,会先用手撑住,把身体拉上去,或者先趴下再站起来。它把“爬上去”、“爬下来”、“站起来”、“趴下”和“走/爬”这六种技能都学会了。
2. 核心魔法:什么是“棘轮奖励” (Ratchet Progress Reward)?
这是这篇论文最聪明的地方。在教机器人做这些复杂动作时,传统的奖励方法(比如“离目标越近越好”)会让机器人变得很急躁,像无头苍蝇一样乱撞,或者为了拿分而做出危险的“假动作”。
- 比喻:想象你在玩一个**“只能前进,不能后退”的爬楼梯游戏**。
- 传统方法:裁判说“你离终点越近分越高”。机器人可能会为了得分,在楼梯口疯狂前后摇摆,或者试图直接飞过去(虽然飞不过去,但会乱动)。
- APEX 的“棘轮奖励”:裁判手里有一个**“历史最高纪录”**。
- 如果你今天的表现比昨天最好的时候还要好一点点,你就得分。
- 如果你退步了,或者原地踏步,你就扣分。
- 关键点:这个奖励不看你跑得多快,只看你有没有真正进步。
- 效果:这迫使机器人变得**“有耐心”**。在爬高台时,它知道不能急着冲,必须先把手脚稳稳地搭好(建立支撑),确认安全了再移动身体。这种“稳扎稳打”的策略,让机器人学会了在接触点之间安全地转移重心,而不是鲁莽地跳跃。
3. 如何从“模拟”到“现实”?(解决“眼瞎”问题)
在电脑里训练机器人时,地图是完美的;但在现实世界里,机器人的眼睛(激光雷达)会因为震动、反光或遮挡看到一堆乱码(比如把空气看成障碍物,或者把平台看成洞)。
- 比喻:这就好比机器人戴着一副**“脏兮兮且会晃动的眼镜”**。
- 训练时:研究人员故意给机器人的“眼镜”上涂满污渍、制造假象(模拟现实中的干扰),让它学会在看不清的时候也能猜对地形。
- 现实中:当机器人真的戴上这副眼镜时,系统会先帮它**“擦眼镜”(过滤噪点)和“补全画面”**(把看不清的地方填上合理的推测)。
- 结果:即使机器人看到的地图有点乱,它也能像经验丰富的登山者一样,凭经验判断哪里能踩,哪里不能踩。
4. 技能整合:从“六神”到“一人”
机器人一开始是分别学习这六种技能(爬、站、趴、走等),就像六个不同的专家。但我们需要一个**“全能指挥官”**,能根据眼前的情况自动决定用哪个技能。
- 比喻:这就像把六个**“特级大厨”(每个只擅长做一道菜)的知识,蒸馏(提炼)进一个“超级主厨”**的脑子里。
- 这个“超级主厨”不需要别人告诉它“现在该爬了”,它看一眼地形(是平地还是高台?),听一下指令(往前走还是往后退?),就能自动切换模式:该爬墙时立刻爬墙,到了平台顶上自动站起来走路,到了边缘自动趴下准备爬下来。
- 这种切换非常丝滑,就像人走路一样自然,不会卡顿或摔倒。
5. 实际成果:Unitree G1 的壮举
研究人员在真实的 Unitree G1 人形机器人(有 29 个关节,非常灵活)上测试了这个系统。
- 成绩:机器人成功跨越了 0.8 米高 的平台。
- 意义:这个高度大约是机器人腿长的 114%。也就是说,它翻越了比它自己腿还高的障碍,而且是从电脑模拟直接跳到现实世界(Zero-shot Sim-to-Real),中间没有再重新训练。
- 抗干扰能力:即使有人在机器人爬墙时猛推它一下,或者地面是软软的垫子,它也能迅速调整姿势,重新站稳并继续爬上去。
总结
APEX 系统让人形机器人从“只会跳的笨小孩”进化成了“会攀爬的灵巧登山家”。
它通过一种**“只奖励进步,不奖励速度”的聪明训练法,让机器人学会了耐心和安全**;通过**“给眼镜做清洁”的技术,让机器人能看清现实世界;最后通过“知识蒸馏”**,让机器人能像人一样灵活地在各种动作间切换。
这不仅是机器人技术的突破,更是让机器人真正走进复杂人类环境(比如翻越台阶、跨越障碍)的关键一步。
Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题 (Problem)
核心挑战:
人形机器人的运动控制近年来通过深度强化学习(DRL)取得了显著进展,能够稳健地在崎岖地形上行走。然而,跨越超过腿部长度(Leg Length)的高平台(如桌子、高台)仍然是一个巨大的挑战。
现有方法的局限性:
- 跳跃式方案(Jumping-based): 现有的 DRL 方法倾向于学习跳跃动作。对于高度超过腿部长度(例如 >100% 腿长)的平台,跳跃需要巨大的瞬时冲量扭矩,导致高冲击动力学,容易超出执行器限制,且在现实部署中存在安全隐患。
- 学习难点: 高平台穿越需要多种全身体态的协调(如攀爬、站立、躺下、爬行),这些是**接触丰富(Contact-rich)且目标导向(Goal-reaching)**的任务。传统的基于速度跟踪的奖励函数难以定义,且难以在强安全正则化下引导智能体探索复杂的接触序列。
- 长程序列问题: 完整的穿越过程需要自主选择合适的技能(如先攀爬,再站立,再行走,再躺下,最后爬下),并实现平滑的技能切换,这对感知、高层决策和底层控制的耦合提出了极高要求。
2. 方法论 (Methodology)
作者提出了 APEX 系统,采用两阶段学习框架,结合感知、技能学习与策略蒸馏,实现人形机器人的自适应高平台穿越。
A. 核心创新:广义棘轮进度奖励 (Generalized Ratchet Progress Reward)
针对接触丰富且无固定参考轨迹的任务,作者提出了一种新的奖励机制:
- 机制: 维护一个“当前最佳进度状态”(Best-so-far task state, xt∗)。只有当智能体在当前步的状态严格超越历史最佳状态时,才给予奖励(或零惩罚);否则给予惩罚。
- 优势:
- 稠密且无速度偏置: 提供稠密的监督信号,但不鼓励盲目加速,允许机器人在接触点不稳定时“暂停”等待(如攀爬时等待腿部稳定落地)。
- 防止回退: 避免了智能体通过前后振荡来“刷分”的局部最优解,确保向目标 genuine 推进。
- 安全正则化: 在强安全约束(如限制接触力)下,仍能高效探索。
B. 技能库构建 (Skill Library)
系统训练了 6 种技能 的专家策略(Teacher Policies):
- 4 种全身体态机动(Goal-reaching): 向上攀爬 (Climb-up)、向下攀爬 (Climb-down)、站立 (Stand-up)、躺下 (Lie-down)。
- 2 种周期性运动(Cyclic Locomotion): 行走 (Walking)、爬行 (Crawling)。
- 感知输入: 所有策略均基于 LiDAR 高程图 (Elevation Mapping),使机器人具备地形感知能力。
- Sim-to-Real 感知差距消除:
- 训练时: 在仿真中注入映射伪影(高斯噪声、定位漂移、异常点簇)。
- 部署时: 对真实 LiDAR 数据进行空间滤波和修复(Inpainting),重建结构连贯的地形表示。
C. 策略蒸馏与集成 (Policy Distillation)
为了将分散的技能整合为一个统一的控制器:
- 两阶段蒸馏: 先通过行为克隆(BC)预训练学生策略,再利用 DAgger 算法进行迭代优化,提高鲁棒性和分布覆盖。
- 数据分布策略: 采用“分而治之”的数据采样规则,确保训练数据覆盖所有技能及其过渡状态(如从站立到攀爬的过渡),解决长程序列中数据不平衡的问题。
- 统一策略: 最终蒸馏出一个单一的感知策略,能根据局部几何环境和用户指令,自主选择技能并平滑切换。
3. 关键贡献 (Key Contributions)
- 两阶段学习框架: 首次将接触丰富的全身体态机动(攀爬、姿态转换)与周期性运动(行走、爬行)整合到单一控制器中,实现人形机器人对极端高度平台的完整穿越。
- 广义棘轮进度奖励: 提出了一种无需速度参考、基于历史最佳进度的奖励函数,解决了接触丰富任务中稀疏奖励和探索效率低下的问题,是学习安全、稳健机动行为的关键。
- 现实世界突破: 在 Unitree G1 (29 自由度) 人形机器人上实现了 0 样本 (Zero-shot) 的 Sim-to-Real 迁移。成功穿越 0.8 米 高的平台(约为机器人腿长的 114%),远超以往基于跳跃方法的极限(通常 <63% 腿长)。
- 鲁棒性与适应性: 系统能自适应不同平台高度、初始姿态、接近角度,甚至在受到强烈外部扰动(如被踢)或感知噪声干扰下,仍能通过调整接触策略恢复平衡并完成穿越。
4. 实验结果 (Results)
- 仿真与实机表现:
- 成功率: 在仿真中,各单项技能成功率接近 100%。在实机测试中,0.8 米平台(不同接近角度)的攀爬成功率达到 97.8% - 100%。
- 连续穿越: 机器人能够自主执行“行走 -> 攀爬 -> 爬行 -> 站立 -> 行走 -> 躺下 -> 爬行 -> 爬下 -> 行走”的完整长序列任务,无需重置。
- 抗扰动能力: 在机器人接近平台时被重踢导致失衡,策略能迅速调整步态和支撑腿,利用接触点恢复平衡并继续攀爬。
- 对比实验:
- 与基于速度跟踪、距离最小化、RND(好奇心驱动)等基线奖励相比,棘轮进度奖励是唯一能同时实现高成功率、低接触力(安全)且避免局部最优(如原地踏步)的方法。
- 基于距离的奖励往往导致激进的“全身体跳跃”行为,接触力过大,无法在实机上部署。
- 感知鲁棒性: 即使在 LiDAR 地图存在严重异常点(Ghost points)或漂移的情况下,经过修复和训练的策略仍能准确识别平台并执行任务。
5. 意义与影响 (Significance)
- 拓展了人形机器人的作业边界: 证明了通过全身体态协调(而非单纯跳跃)可以安全、稳健地跨越远超腿部长度的障碍物,为未来人形机器人在复杂工业环境、灾难救援或家庭服务中的实际应用奠定了基础。
- 解决了接触丰富任务的 RL 训练难题: 提出的“棘轮进度奖励”为学习非周期性、多接触、目标导向的复杂机动行为提供了通用的奖励设计范式,对强化学习在机器人控制领域的应用具有方法论价值。
- 推动了 Sim-to-Real 的落地: 通过精细的感知建模(训练时注入伪影、部署时修复)和策略蒸馏,成功克服了感知差距,展示了在真实物理世界中部署复杂 DRL 策略的可行性。
总结: APEX 系统通过创新的奖励机制和两阶段学习架构,成功让 Unitree G1 人形机器人学会了像人类一样“攀爬”而非“跳跃”过高的障碍,实现了从感知到决策再到控制的端到端自适应高难度穿越,是人形机器人运动控制领域的一项重大突破。