TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TOLEBI 的聪明系统，它的核心任务是教双足机器人（像人一样的机器人）在**“受伤”或“生病”**的情况下，依然能稳稳地走路，甚至下楼梯。

为了让你更容易理解，我们可以把这篇论文想象成在讲一个**“带伤奔跑的运动员”**的故事。

1. 核心问题：机器人也会“生病”

想象一下，你正在教一个机器人像人一样走路。在实验室里，一切都很完美。但在现实世界中，机器人可能会遇到突发状况：

关节锁死（Joint Locking）： 就像你的膝盖突然卡住，完全动不了。
断电（Power Loss）： 就像你的腿突然失去了力气，软绵绵的，使不上劲。
外部干扰： 比如有人突然推了你一把，或者地面突然不平。

以前的机器人一旦“生病”，通常就会摔倒。这篇论文就是要解决这个问题：如何让机器人在“带伤”的情况下，依然能像没事人一样走路？

2. TOLEBI 的三大“独门秘籍”

作者给机器人设计了一套特殊的训练方法，就像给运动员安排了三个阶段的特训：

秘籍一：在“模拟医院”里练级（课程学习 + 故障模拟）

比喻： 就像运动员不能直接上赛场，得先在训练场里模拟各种受伤情况。
做法： 研究人员在电脑模拟环境（Isaac Gym）里，故意给机器人“制造麻烦”。他们随机让机器人的某个关节“卡死”或“断电”。
关键点（课程学习）： 他们不是上来就搞最难的。
1. 先让机器人学会健康地走路。
2. 等它走稳了，再开始随机给它“制造故障”（比如突然锁死一个关节）。
3. 最后，再给它推搡（模拟被人推了一下）。
  这样，机器人就像升级打怪一样，一步步变得无坚不摧。

秘籍二：自带“自我诊断仪”（在线状态估计）

比喻： 想象你在跑步时，突然感觉腿有点不对劲。普通人会停下来摸摸腿，看看是抽筋了还是扭伤了。TOLEBI 给机器人装了一个**“内置医生”**。
做法： 这个“医生”是一个小型的 AI 程序，它时刻监控着机器人的每一个关节。
- 如果某个关节卡住了，或者没电了，这个“医生”会立刻告诉大脑：“嘿，左腿膝盖卡住了！”
- 大脑收到消息后，就会立刻调整策略，比如：“既然左腿动不了，那我就多用右腿，或者改变走路节奏。”
创新点： 这个“医生”是和机器人一起训练的，不需要额外花时间去专门学习怎么诊断，它是“边跑边学”的。

秘籍三：特殊的“止痛奖励”（容错奖励机制）

比喻： 这是最精彩的部分。通常，如果机器人脚重重地砸在地上，它会觉得“好疼”（受到惩罚）。但在机器人“生病”时，如果它为了保持平衡不得不重重落地，以前的系统可能会因为“惩罚”而变得畏手畏脚，直接摔倒。
做法： TOLEBI 发明了一种**“容错奖励”**。
- 如果机器人是在健康状态下，脚落地太重，它会受罚。
- 但如果机器人是在生病（比如关节锁死）状态下，为了保持平衡不得不重重落地，系统不仅不罚它，反而觉得它“做得好，维持住了平衡”。
- 这就好比教练对受伤运动员说：“虽然你动作变形了，但你没摔倒，这很棒！”这种鼓励让机器人敢于在受伤时尝试各种奇怪的姿势来维持平衡。

3. 从“虚拟”到“现实”的跨越

很多机器人只能在电脑里跑，一放到现实世界就傻眼。TOLEBI 通过一种叫**“模拟到现实（Sim-to-Real）”**的技术，把在电脑里练成的本事完美地转移到了真机器人（TOCABI）身上。

训练时： 电脑里随机改变机器人的体重、摩擦力、电机反应速度（就像给机器人穿不同重量的鞋子、在光滑或粗糙的地面上跑）。
实战时： 无论现实世界多么复杂，机器人因为已经习惯了各种“变化”，所以能轻松应对。

4. 实验结果：真的行吗？

研究人员在真机器人身上做了两个测试：

平地行走： 即使机器人的某个关节突然锁死或断电，它依然能稳稳地向前走，速度几乎不受影响。
下楼梯： 下楼梯比平地难多了，更容易摔倒。但在关节“生病”的情况下，机器人依然成功走下了楼梯。

总结

这篇论文就像是在教机器人**“如何在逆境中生存”**。

以前，机器人一旦“生病”就废了；现在，通过 TOLEBI 系统，机器人学会了：

自我诊断（知道自己哪里坏了）；
灵活应变（根据病情调整走路姿势）；
心态良好（即使动作变形，只要没摔倒就是胜利）。

这让双足机器人真正具备了在现实世界（比如灾难救援、家庭服务）中应对突发故障的能力，不再是个“玻璃心”的脆弱机器。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 《TOLEBI: Learning Fault-Tolerant Bipedal Locomotion via Online Status Estimation and Fallibility Rewards》 的详细技术总结。

1. 研究背景与问题 (Problem)

随着强化学习（RL）在机器人领域的广泛应用，双足机器人（人形机器人）的步态控制取得了显著进展。然而，现有的研究大多集中在理想环境下的运动控制，缺乏对硬件故障处理机制的探索。

核心挑战：在真实世界部署中，机器人可能面临突发的硬件故障（如关节锁死、电机断电）或环境干扰。对于双足机器人而言，单条腿的功能丧失会显著降低系统稳定性，导致机器人失衡甚至摔倒。
现有局限：
- 现有的容错控制多基于模型方法，依赖人工建模，难以应对未见过的情况。
- 现有的基于学习的方法多针对四足机器人（容错空间大），难以直接迁移到稳定性较差的双足机器人。
- 学习算法的“黑盒”特性使得预测未见数据（如突发故障）变得困难，且缺乏针对故障的在线状态估计。

2. 方法论 (Methodology)

论文提出了 TOLEBI（双足步态容错学习框架），基于强化学习（PPO 算法），在仿真中训练并迁移至真实机器人（TOCABI）。其核心架构包含以下关键模块：

A. 故障模拟与课程学习 (Curriculum Learning)

故障类型：在仿真中模拟两种主要故障：
1. 关节锁死 (Joint Locking)：关节被固定，无法运动。
2. 动力丢失 (Power Loss)：关节自由但无法产生力矩。
课程学习策略：为了避免过早引入故障导致训练不稳定，采用分阶段训练：
1. 先在理想条件下学习正常步态。
2. 当平均步态时长超过 20 秒后，引入关节掩码（Joint Masking）模拟故障。
3. 当故障下的步态时长超过 24 秒后，引入外部推力干扰（Push Perturbations）。

B. 在线关节状态估计器 (Online Joint Status Estimator)

机制：训练一个基于单层 GRU（门控循环单元）的估计器，实时根据本体感知输入（proprioceptive observations）推断关节状态。
输出：输出一个状态向量，指示系统是否健康以及具体哪些关节发生故障（故障=1，正常=0）。
作用：将估计出的关节状态作为观测值的一部分输入给策略网络，使控制器能根据实时健康状况调整控制指令，而无需额外的训练阶段。

C. 动作空间与相位调制 (Action Space & Phase Modulation)

动作空间：包含 12 个关节力矩指令 + 1 个相位调制动作 ( $a_{\delta\phi}$ )。
相位调制：允许策略直接调整步态周期（ $\phi_{t+1}$ ）。在发生故障时，策略可以通过缩短或延长支撑相时间来适应受损腿部的运动能力，从而维持平衡。

D. 容错奖励函数 (Fallibility Rewards)

这是论文的核心创新之一，旨在引导策略在故障下保持稳健：

轨迹模仿奖励 ( $r_q$ )：鼓励即使在故障下，关节轨迹也尽可能接近正常步态的参考轨迹（避免策略退化为过度稳定的蹲伏姿态）。
接触力跟踪奖励 ( $r_{f,ref}$ )：鼓励脚与地面的接触力跟随参考值，减少因故障导致的过早着地冲击（Impulsive forces）。
终止惩罚：对摔倒或自碰撞给予极大惩罚。

E. Sim-to-Real 迁移

采用域随机化 (Domain Randomization) 和 动力学随机化 (Dynamics Randomization)，包括随机化命令速度、外部推力、电机常数、连杆质量、阻尼、惯量及执行延迟等，以弥合仿真与现实的差距。

3. 主要贡献 (Key Contributions)

首个双足容错学习框架：提出了 TOLEBI，这是机器人领域首个基于学习的、针对真实世界环境的双足步态容错框架。
在线状态估计集成：创新性地集成了在线训练的关节状态估计器，使策略能在不增加额外训练阶段的情况下感知并适应故障。
新型容错奖励设计：设计了包含“轨迹模仿”和“接触力跟踪”的复合奖励函数，有效解决了双足机器人在故障下容易摔倒或步态怪异的问题。
实机验证：在真实人形机器人 TOCABI 上成功验证了该方法，实现了平地行走和下楼梯（未针对楼梯进行专门训练）的容错控制。

4. 实验结果 (Results)

实验在仿真（Isaac Gym）和真实机器人（TOCABI）上进行，对比了基线方法、仅加关节掩码/状态估计的方法以及完整的 TOLEBI 方法。

仿真成功率：
- 在关节锁死场景下，完整方法（TOLEBI）的平均成功率达到 81.27%，显著优于基线（8.32%）和中间方法（50.60%）。
- 在动力丢失场景下，平均成功率为 52.67%，同样表现最佳。
- 特别是在髋关节、膝关节和踝关节的锁死/断电测试中，TOLEBI 展现了极强的鲁棒性。
消融实验 (Ablation Study)：
- 移除关节状态观测：导致性能大幅下降，证明在线估计至关重要。
- 移除容错奖励：导致接触力冲击过大，稳定性降低。
- 移除相位调制：导致平均偏差误差（MBE）最高，说明无法适应步态时序。
- 移除课程学习：导致策略无法学习正常的步态基础。
实机验证：
- 平地行走：在关节锁死和断电情况下，机器人能保持稳定的线速度和角速度跟踪。
- 下楼梯：在 9cm 台阶的下楼梯任务中，机器人成功在故障条件下完成动作，证明了策略的泛化能力（无需针对楼梯重新训练）。
- 力控制：容错奖励有效将故障下的地面冲击力从可能的 2000N 降低到了安全范围。

5. 意义与影响 (Significance)

安全性提升：为双足机器人在非结构化环境中的实际部署提供了关键的安全保障，使其在硬件发生故障时仍能保持平衡或安全停止，而非直接摔倒。
泛化能力：证明了基于学习的策略可以处理未见过的故障组合和地形（如从平地迁移到楼梯），无需针对每种故障重新设计控制器。
推动领域发展：填补了双足机器人容错控制领域的空白，为未来开发更 resilient（弹性/韧性）的人形机器人奠定了基础。

总结：TOLEBI 通过结合在线状态估计、自适应步态相位调制和精心设计的容错奖励，成功解决了双足机器人在硬件故障下的生存问题，并成功在真实机器人上实现了从平地到楼梯的稳健行走。