HybridMimic: Hybrid RL-Centroidal Control for Humanoid Motion Mimicking

本文提出了 HybridMimic 框架,通过让学习策略动态预测连续接触状态和期望质心速度来调节基于质心模型的控制器,从而在 Booster T1 人形机器人硬件实验中实现了比现有强化学习基线更低的跟踪误差和更强的动态适应性。

Ludwig Chee-Ying Tay, I-Chia Chang, Yan Gu

发布于 Tue, 10 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HybridMimic 的新方法,目的是让人形机器人(比如图中的 Booster T1)能像真人一样灵活地模仿各种动作,比如走路、跑步、甚至踢腿。

为了让你更容易理解,我们可以把机器人控制想象成教一个刚学开车的新手司机,或者指挥一个乐队

1. 核心问题:为什么现在的机器人“学艺不精”?

目前的机器人控制主要有两种流派,但都有缺点:

  • 流派 A:纯“感觉派”(标准强化学习 RL)

    • 比喻:这就像让一个司机完全凭“肌肉记忆”和直觉开车。他在模拟器里练了成千上万次,开得飞快,反应极快。
    • 缺点:一旦上了真实的路(现实世界),遇到一点没练过的情况(比如路面突然变滑、或者有人突然推了他一下),他的大脑(神经网络)就懵了。因为他只记得“怎么动”,却不懂“为什么这么动能保持平衡”。一旦环境变了,他很容易摔倒,因为他的指令在物理上是不合理的。
  • 流派 B:纯“理论派”(传统模型控制)

    • 比喻:这就像让一个司机手里拿着厚厚的《物理教科书》开车。他每一步都严格计算重心、摩擦力。
    • 缺点:虽然理论上很稳,但他太死板了。比如,他必须提前知道“第 3 秒左脚落地,第 4 秒右脚落地”。如果路上突然有个坑,或者他需要做一个复杂的舞蹈动作(比如踢腿),这种死板的“时间表”就失效了,机器人会僵住或者摔倒。

2. 解决方案:HybridMimic(混合模仿者)

这篇论文提出的 HybridMimic,就是把“感觉派”和“理论派”结合起来,打造了一个**“懂物理的直觉型司机”**。

它的运作机制(三个关键角色):

  1. AI 大脑(强化学习策略)

    • 角色:它是那个有灵气的“直觉派”。它看着人类的动作视频,决定机器人“大概要往哪走”、“脚大概什么时候落地”、“大概要用多大力气”。
    • 创新点:以前的 AI 只能瞎猜脚什么时候落地。现在的 HybridMimic 能实时预测脚是不是接触地面了(就像人走路时,脚还没完全落地,大脑就已经知道重心要转移了)。
  2. 物理引擎(质心模型控制器)

    • 角色:它是那个严谨的“理论派”副驾驶。它不管复杂的关节细节,只关注机器人的整体重心(就像不倒翁的重心)。
    • 任务:它根据 AI 大脑给出的“大概指令”,利用物理公式计算出最完美的力。比如,它算出:“为了保持不倒,左脚需要施加 50 牛顿的力,右脚需要 30 牛顿”。
  3. 翻译官(混合架构)

    • 角色:它把“理论派”算出的完美力,翻译成电机能听懂的“扭矩指令”。
    • 效果:机器人发出的每一个动作,既符合人类的自然姿态(AI 的功劳),又严格遵守物理定律(物理引擎的功劳)。

3. 它是怎么学习的?(物理奖励机制)

为了让 AI 大脑学会尊重物理规律,作者设计了一套特殊的“考试评分系统”(奖励函数):

  • 以前:只要机器人动作像人,就加分。
  • 现在:除了像人,还要考它**“懂不懂物理”**。
    • 如果你预测脚落地了,但实际没落地,扣分。
    • 如果你算出的力太大,电机转不动,扣分。
    • 如果你算出的重心加速度和实际跑出来的加速度对不上,扣分。
    • 比喻:就像教孩子骑自行车,以前只要他骑得直就表扬;现在还要告诉他:“你刚才那个转弯太急了,按照物理定律你会摔倒的,下次要慢一点。”

4. 实验结果:真的好用吗?

作者在真实的 Booster T1 人形机器人上做了实验,让它做走路、侧步、后退、甚至踢腿(这是一个很难的动作,因为单脚支撑时平衡极难控制)。

  • 对比对象:和目前最先进的纯 AI 方法(BeyondMimic)比。
  • 成绩:HybridMimic 在真实世界中的位置跟踪误差减少了 13%
  • 直观感受
    • 纯 AI 机器人:走路时身体晃晃悠悠,像喝醉了酒,稍微有点风就容易歪。
    • HybridMimic 机器人:走路非常稳,踢腿动作干脆利落,落地后能迅速稳住重心,就像真正的运动员一样。

5. 总结:为什么这很重要?

这就好比我们终于找到了一种方法,让机器人既拥有人类的灵活性和适应性,又拥有物理学家般的严谨和稳定性

  • 以前:机器人要么太笨(死板),要么太飘(容易摔)。
  • 现在:HybridMimic 让机器人学会了“在规则内跳舞”。它不需要人类提前写好每一步的剧本(不需要预设接触时间表),而是能根据现场情况,实时计算出最合理的动作。

一句话总结
HybridMimic 就像给机器人装了一个**“物理直觉”,让它不再只是机械地模仿动作,而是真正理解**如何像人一样在物理世界中稳健地运动。这让机器人未来能更安全、更灵活地进入我们的家庭或工厂帮忙。