Constraint-Enhanced Reinforcement Learning Based on Dynamic Decoupled Spherical Radial Squashing

本文提出动态解耦球面径向压缩(DD-SRad),这是一种增强约束的强化学习方法,它通过计算位置自适应的、针对每个关节的半径,解决了异构执行器速率限制与各向同性约束之间的几何失配问题,从而在仿真和高保真人形机器人部署中实现了零约束违反、精确的梯度反向传播以及卓越的任务性能。

原作者: Qijun Liao, Zhaoxin Yu, Jue Yang

发布于 2026-05-07
📖 1 分钟阅读☕ 轻松阅读

原作者: Qijun Liao, Zhaoxin Yu, Jue Yang

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

Each language version is independently generated for its own context, not a direct translation.

想象一下,你正用游戏手柄教一个机器人走路、跳舞或跑步。在现实世界中,机器人的关节(如膝盖、髋部和脚踝)在移动速度上存在物理限制。如果你命令机器人的膝盖从一个位置瞬间切换到另一个位置,速度过快,电机可能会烧毁,或者机器人可能会绊倒摔伤。

问题在于,每个关节都有不同的速度限制。机器人的髋部可能强壮且快速,能够迅速移动,而脚踝则脆弱且缓慢。这就像一辆汽车,引擎可以高转速运转,但车轮却陷在泥里,只能缓慢转动。

问题:“一刀切”的错误

以往训练机器人的方法试图通过给整个机器人施加一个“全局速度上限”来处理这些速度限制。想象你有一群跑步者:短跑运动员、马拉松选手和一个幼儿。如果你告诉他们所有人:“你们只能跑得和幼儿一样快”,那么短跑运动员就会被不必要地限制住。如果你告诉他们:“全力奔跑”,幼儿就会被甩下(或者在机器人的情况下,导致损坏)。

用数学术语来说,该论文指出,旧方法试图在一个允许移动的矩形框内拟合一个完美的圆(球体)。

  • 矩形框:代表现实世界,其中髋部可以大幅度移动,但脚踝只能移动一点点。
  • :代表旧的 AI 方法。它试图在这个框内拟合一个圆。
  • 结果:圆在框内留下了巨大的空白角落。机器人被告知无法像其物理能力所允许的那样快速移动髋部,仅仅是为了保持“圆”的安全。这浪费了机器人的潜力。

解决方案:DD-SRad(动态解耦球面径向压缩)

作者创造了一种名为DD-SRad的新方法。这就像给机器人的每根手指(关节)分别戴上一只智能、可调节的手套

DD-SRad 不再为整只手制定一条大规则,而是根据以下两点为每根手指计算特定的“速度限制”:

  1. 该特定手指被允许移动的速度。
  2. 该手指当前的位置。

如果机器人的髋部处于可以安全快速移动的位置,“手套”就会允许它加速。如果脚踝接近其极限,“手套”就仅针对该脚踝收紧。

类比:
想象你驾驶着一辆油门非常灵敏、刹车非常沉重的汽车。

  • 旧方法:你在油门踏板下垫了一块木头,使你无法将其踩下超过 1 英寸。这能确保你的安全,但即使道路畅通,你也无法加速。
  • DD-SRad:你拥有一个智能踏板,它能根据你当前的速度和路况,精确知道你可以踩多深。在安全时,它允许你踩到底;而在接近墙壁时,它会轻柔地松开。

为何重要(结果)

该论文在数字机器人(在名为 MuJoCo 的模拟器中)以及真实人形机器人(Unitree H1 和 G1)的高保真仿真中测试了这种方法。

  1. 零关节损坏:该方法保证机器人绝不要求关节移动超过其限制。这是 100% 的安全保证。
  2. 最大性能:因为它不再限制快速关节,机器人学会了比以往任何方法移动得更好、更快。在测试中,它们在从未违反任何规则的情况下,取得了可能的最高分数。
  3. 更好的覆盖范围:该论文声称,与旧的“圆形”方法相比,这种方法覆盖了**多出 30% 到 50%**的可能动作。它填补了以前空白的“矩形框”角落。
  4. 无延迟:与其他需要每一步都进行复杂数学计算(求解方程)以检查安全性的方法不同,DD-SRad 通过一个简单的公式即时完成此操作。其速度足以满足实时控制的需求。

结论

该论文认为,为了让机器人在现实世界中既安全又敏捷,我们需要停止将所有关节一视同仁。通过为每个关节提供其专属的、随机器人移动而动态变化的“速度限制”,我们可以在不造成损坏风险的情况下释放机器人的全部潜力。作者成功地在仿真人形机器人上展示了这一点,清晰地展示了从机器人的技术手册(数据表)到安全部署、高性能机器的路径。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →