TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

本文提出了名为 TOLEBI 的故障容错学习框架,通过在线状态估计模块和故障奖励机制,使双足机器人能够在仿真中应对关节锁死、断电及外部干扰等故障,并成功将策略迁移至真实机器人 TOCABI 上实现容错行走。

Hokyun Lee, Woo-Jeong Baek, Junhyeok Cha, Jaeheung Park

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TOLEBI 的聪明系统,它的核心任务是教双足机器人(像人一样的机器人)在**“受伤”或“生病”**的情况下,依然能稳稳地走路,甚至下楼梯。

为了让你更容易理解,我们可以把这篇论文想象成在讲一个**“带伤奔跑的运动员”**的故事。

1. 核心问题:机器人也会“生病”

想象一下,你正在教一个机器人像人一样走路。在实验室里,一切都很完美。但在现实世界中,机器人可能会遇到突发状况:

  • 关节锁死(Joint Locking): 就像你的膝盖突然卡住,完全动不了。
  • 断电(Power Loss): 就像你的腿突然失去了力气,软绵绵的,使不上劲。
  • 外部干扰: 比如有人突然推了你一把,或者地面突然不平。

以前的机器人一旦“生病”,通常就会摔倒。这篇论文就是要解决这个问题:如何让机器人在“带伤”的情况下,依然能像没事人一样走路?

2. TOLEBI 的三大“独门秘籍”

作者给机器人设计了一套特殊的训练方法,就像给运动员安排了三个阶段的特训:

秘籍一:在“模拟医院”里练级(课程学习 + 故障模拟)

  • 比喻: 就像运动员不能直接上赛场,得先在训练场里模拟各种受伤情况。
  • 做法: 研究人员在电脑模拟环境(Isaac Gym)里,故意给机器人“制造麻烦”。他们随机让机器人的某个关节“卡死”或“断电”。
  • 关键点(课程学习): 他们不是上来就搞最难的。
    1. 先让机器人学会健康地走路
    2. 等它走稳了,再开始随机给它“制造故障”(比如突然锁死一个关节)。
    3. 最后,再给它推搡(模拟被人推了一下)。
      这样,机器人就像升级打怪一样,一步步变得无坚不摧。

秘籍二:自带“自我诊断仪”(在线状态估计)

  • 比喻: 想象你在跑步时,突然感觉腿有点不对劲。普通人会停下来摸摸腿,看看是抽筋了还是扭伤了。TOLEBI 给机器人装了一个**“内置医生”**。
  • 做法: 这个“医生”是一个小型的 AI 程序,它时刻监控着机器人的每一个关节。
    • 如果某个关节卡住了,或者没电了,这个“医生”会立刻告诉大脑:“嘿,左腿膝盖卡住了!”
    • 大脑收到消息后,就会立刻调整策略,比如:“既然左腿动不了,那我就多用右腿,或者改变走路节奏。”
  • 创新点: 这个“医生”是和机器人一起训练的,不需要额外花时间去专门学习怎么诊断,它是“边跑边学”的。

秘籍三:特殊的“止痛奖励”(容错奖励机制)

  • 比喻: 这是最精彩的部分。通常,如果机器人脚重重地砸在地上,它会觉得“好疼”(受到惩罚)。但在机器人“生病”时,如果它为了保持平衡不得不重重落地,以前的系统可能会因为“惩罚”而变得畏手畏脚,直接摔倒。
  • 做法: TOLEBI 发明了一种**“容错奖励”**。
    • 如果机器人是在健康状态下,脚落地太重,它会受罚。
    • 但如果机器人是在生病(比如关节锁死)状态下,为了保持平衡不得不重重落地,系统不仅不罚它,反而觉得它“做得好,维持住了平衡”。
    • 这就好比教练对受伤运动员说:“虽然你动作变形了,但你没摔倒,这很棒!”这种鼓励让机器人敢于在受伤时尝试各种奇怪的姿势来维持平衡。

3. 从“虚拟”到“现实”的跨越

很多机器人只能在电脑里跑,一放到现实世界就傻眼。TOLEBI 通过一种叫**“模拟到现实(Sim-to-Real)”**的技术,把在电脑里练成的本事完美地转移到了真机器人(TOCABI)身上。

  • 训练时: 电脑里随机改变机器人的体重、摩擦力、电机反应速度(就像给机器人穿不同重量的鞋子、在光滑或粗糙的地面上跑)。
  • 实战时: 无论现实世界多么复杂,机器人因为已经习惯了各种“变化”,所以能轻松应对。

4. 实验结果:真的行吗?

研究人员在真机器人身上做了两个测试:

  1. 平地行走: 即使机器人的某个关节突然锁死或断电,它依然能稳稳地向前走,速度几乎不受影响。
  2. 下楼梯: 下楼梯比平地难多了,更容易摔倒。但在关节“生病”的情况下,机器人依然成功走下了楼梯。

总结

这篇论文就像是在教机器人**“如何在逆境中生存”**。

以前,机器人一旦“生病”就废了;现在,通过 TOLEBI 系统,机器人学会了:

  1. 自我诊断(知道自己哪里坏了);
  2. 灵活应变(根据病情调整走路姿势);
  3. 心态良好(即使动作变形,只要没摔倒就是胜利)。

这让双足机器人真正具备了在现实世界(比如灾难救援、家庭服务)中应对突发故障的能力,不再是个“玻璃心”的脆弱机器。