RL-Augmented MPC for Non-Gaited Legged and Hybrid Locomotion

该论文提出了一种将强化学习与模型预测控制(MPC)相结合的接触显式分层架构,通过高层智能体学习非周期性步态来减轻 MPC 的接触时序计算负担,并在多种机器人平台上成功实现了无需域随机化的零样本仿真到现实迁移。

Andrea Patrizi, Carlo Rizzardo, Arturo Laurenzi, Francesco Ruscelli, Luca Rossini, Nikos G. Tsagarakis

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让机器人(特别是像狗、人形机器人这样有腿的机器)走得更聪明、更灵活的新方法。我们可以把它想象成给机器人装了一个"超级大脑"和一个"专业执行团队"的完美组合。

为了让你更容易理解,我们用"指挥家与乐团"或者"老司机与导航员"的比喻来拆解这项技术。

1. 核心问题:机器人走路太难了

传统的机器人走路控制(MPC,模型预测控制)就像是一个极其严谨的数学家。它每走一步都要计算:

  • 脚什么时候落地?
  • 落地时要用多大的力?
  • 怎么保持平衡?

如果机器人有 4 条腿,每条腿都要决定是“踩”还是“抬”,这就变成了海量的数学组合题(就像解一道超级复杂的奥数题)。如果让数学家在走路的同时还要算出所有可能的组合,他的大脑会死机,机器人就会走不动或者摔倒。

而传统的强化学习(RL)方法(让机器人通过试错自己学)就像是一个莽撞的学徒。它虽然能学会走路,但通常需要海量的试错(比如摔几千次),而且很难把在模拟器里学的本事直接用到真机器人上(因为现实世界太复杂了)。

2. 解决方案:分层架构(大脑 + 执行)

这篇论文提出了一种分层架构,把任务分成了两层:

🧠 高层:RL 代理(“直觉型指挥官”)

  • 角色:就像一位经验丰富的老司机或者乐队指挥
  • 任务:它不负责计算每一个关节怎么动,它只负责宏观决策
    • “我们要往哪走?”(导航)
    • “现在该抬哪只脚?该迈多大步?”(决定步态节奏)
  • 特点:它通过“试错”在虚拟世界里学习。它不需要知道复杂的物理公式,只需要知道“这样走能拿到奖励(比如走得快、不摔倒)”。它学会了非周期性的步态,也就是说,它不会像节拍器一样机械地重复“左 - 右 - 左 - 右”,而是根据情况灵活调整,比如急转弯时脚步会变快,停下来时脚步会变慢。

🤖 低层:MPC 控制器(“严谨的执行者”)

  • 角色:就像乐团里的乐手或者副驾驶的导航员
  • 任务:它接收指挥官的指令(比如“抬左脚,向前迈”),然后利用精确的数学模型,计算出具体的肌肉力量(关节力矩),确保机器人真的能稳稳地迈出去,不会滑倒。
  • 特点:它非常擅长处理物理约束(比如摩擦力、重力),保证动作的可行性。

3. 这个组合的妙处在哪里?

  • 各司其职,效率极高
    以前,让机器人决定“什么时候抬脚”和“怎么抬脚”是混在一起算的,太难了。现在,指挥官只负责决定“节奏”,执行者负责“怎么动”。这大大降低了难度。

    • 比喻:就像你开车,你(指挥官)决定“变道”和“加速”,而汽车的 ESP 系统(执行者)自动帮你控制刹车和方向盘,防止侧滑。
  • 不需要“死记硬背”
    以前的机器人走路往往需要预先设定好“ trot(小跑)”或“walk(走)”的模式。而这个系统里的“指挥官”学会了即兴发挥。它发现,有时候单脚跳一下比双脚跑更稳,或者在转弯时脚步要乱一点。它学会了非周期性的步态,就像人类走路一样自然,而不是像机器人一样僵硬。

  • 惊人的“零样本”迁移能力
    这是论文最厉害的地方。

    • Sim-to-Sim(模拟到模拟):在一种机器人(比如 50 公斤的四足狗)上训练好的“老司机”,直接拿去开另一种完全不同的机器人(比如 120 公斤的人形机器人 Centauro),不需要重新训练,也不需要调整参数,直接就能跑!
    • Sim-to-Real(模拟到现实):在电脑模拟里训练好的策略,直接下载到真实的 120 公斤人形机器人身上,不需要任何额外的调试,机器人就能立刻在真实世界里跑起来。
    • 比喻:这就像你在模拟器里练熟了开法拉利,然后直接坐进一辆真实的卡车里,不用学就能开得稳稳当当。通常这需要大量的“随机化训练”(让机器人在各种极端天气、不同路面下练习),但这个方法省去了这一步。

4. 实际效果如何?

研究人员在几种不同的机器人上测试了这套系统:

  • 50 公斤的四足机器人:能灵活走路。
  • 80 公斤的轮腿机器人(有轮子也有腿):能根据路况决定是用轮子跑(快)还是用腿跨(稳)。
  • 120 公斤的人形机器人 Centauro:这是最重的,但它也能在平地上、甚至像金字塔台阶一样的复杂地形上灵活移动。

关键发现

  • 当机器人需要快速转弯或改变方向时,它会自动打破规律的步态,出现“乱步”或“单脚跳”,这是为了保持平衡。
  • 在混合模式(轮子 + 腿)下,机器人非常聪明:平路用轮子滑(省电),遇到台阶或需要转向时,瞬间切换成腿跨步。

5. 总结

这篇论文的核心思想就是:不要试图让一个大脑解决所有问题

他们把“决定怎么走”(由 AI 通过试错学习,灵活多变)和“怎么具体动”(由数学模型精确计算,稳定可靠)分开。这种分工让机器人既拥有了生物般的灵活性(能应对突发状况、非周期性步态),又保留了工程上的稳定性(不会摔跟头)。

最重要的是,这套系统不需要让机器人在模拟器里摔几千次来适应现实世界的差异,它学一次,就能直接用在真机器上。这为未来让机器人真正走进家庭、工厂和灾难现场迈出了坚实的一步。