Each language version is independently generated for its own context, not a direct translation.
技术摘要:动态解耦球面径向压缩(DD-SRad)
1. 问题陈述
在物理机器人上部署强化学习(RL)策略需要满足执行器速率约束:即每个关节的位置指令在每个控制步内可变化的硬性上限(∣ati−at−1i∣≤δi)。这些限制在结构上是异构的;由于电机惯量和传动刚度的差异,速率限制 δi 在不同关节间变化显著(例如,髋关节通常允许比踝关节高得多的速率)。
现有方法无法在几何层面处理这种异构性:
- MPC/QP 方法会产生运行时求解器开销,并遭受训练与部署不一致的问题,阻碍了端到端优化。
- 约束 MDP(CMDP)方法(如 CPO、FOCOPS)仅提供期望形式的保证,允许瞬态的每步违规,这可能损坏硬件。
- 动作参数化方法通常施加各向同性的 ℓ2 球约束(例如,球面径向压缩 SRad)。在异构约束下,半径为 R=miniδi 的 ℓ2 球严重低估了真实可行集(一个 ℓ∞ 超矩形)。“ℓ2 球”与“真实可行集”的体积比随维度和异构性呈指数级下降,实际上压缩了高预算关节的探索空间。
- ℓ∞ 截断方法(如 BoxPre+)覆盖了正确的几何形状,但在边界处截断梯度,导致策略更新时丢失方向信息。
核心挑战在于实现硬性每步约束满足、对可行集的精确 ℓ∞ 覆盖,以及端到端梯度反向传播,同时不产生运行时求解器开销。
2. 方法论:DD-SRad
本文提出了动态解耦球面径向压缩(DD-SRad),这是一种平滑的解析动作参数化方法,解决了策略输出与异构速率约束之间的几何失配问题。
核心机制
与使用单一全局半径 R 的 SRad 不同,DD-SRad 为每个动作维度 i 独立计算一个位置自适应的有效半径 Reffi:
Reffi(ui,aprevi)=⎩⎨⎧min(δi,amaxi−aprevi)min(δi,aprevi−amini)δiif ui>0if ui<0if ui=0
该映射通过独立的每维球面压缩,将潜在动作 u∈Rd 转换为物理动作 a:
ai=aprevi+Reffi(ui,aprevi)⋅1+(ui)2ui
关键特性
- 几何对齐:DD-SRad 的可达集精确等于由速率限制和位置边界定义的 ℓ∞ 超矩形,恢复了各向同性 ℓ2 基线在异构约束下损失的体积。
- 硬性约束满足:该映射保证对于任何潜在动作 u,以概率 1 满足 ∣ai−aprevi∣≤δi 且 ai∈[amini,amaxi]。
- 梯度保持:该映射是平滑且解析的(除 u=0 这一零测度事件外)。雅可比矩阵是一个对角正定矩阵,确保来自评论家的完整方向梯度信息无截断地传播到策略。
- 零开销:作为即插即用层,它不需要运行时求解器(QP/MPC),并可直接集成到 SAC 和 TD3 等离线策略骨干网络中。
3. 主要贡献
- 几何对齐:DD-SRad 通过每维自适应半径实现了对可行集的精确 ℓ∞ 覆盖,系统性地恢复了 ℓ2 基线在异构约束下损失的体积。
- 理论保证:本文证明了以概率 1 满足每步硬性约束,并建立了雅可比条件数的界限,确保了条件良好的梯度。
- 端到端兼容性:平滑的解析形式支持精确的策略梯度反向传播,且零运行时求解器开销,兼容标准离线策略算法。
- 实证验证:大量实验表明,DD-SRad 在零约束违规的情况下实现了最高的任务回报,在 MuJoCo 基准测试和高保真 IsaacLab 仿真中均优于基线方法。
4. 实验结果
作者在 MuJoCo(Ant、Humanoid、HalfCheetah、Hopper)和 IsaacLab(Unitree H1 和 G1 人形机器人)上评估了 DD-SRad。
MuJoCo 基准测试
- 性能:在紧密的异构约束下,DD-SRad 在所有 8 种环境 - 骨干配置(SAC 和 TD3)中均取得了最高回报,通常达到或超过无约束上限。
- 约束利用:与球面基线相比,DD-SRad 在约束空间覆盖方面提高了 30%–50%。与遭受结构性崩溃的 SRad-Strict 不同(例如,Ant-SAC 上 68.8% 的约束违规),DD-SRad 保持了零违规。
- 对比:DD-SRad 在回报上比 ℓ∞ 截断(BoxPre+)高出 5%–14%,证实了平滑梯度传播优于边界处的梯度截断。
高保真仿真(IsaacLab)
- 鲁棒性:使用 Unitree H1(崎岖地形)和 G1(平坦地形)的官方关节规格,DD-SRad 实现了最优的步态。
- H1(崎岖):DD-SRad 实现了 37.14 的回报,跌倒率为 48.7%,显著优于 BoxPre+(回报 23.11,跌倒率 70.2%)和 SRad-Strict(回报 0.83,跌倒率 100%)。
- G1(平坦):DD-SRad 实现了 5473 的回报,跌倒率为 0.3%,且速度跟踪误差最低(0.138 m/s)。
- 自适应分配:雷达图和散点图证实,DD-SRad 实现了任务自适应的速率预算分配(例如,在平坦地形上利用髋关节推进,同时最小化踝关节运动),这是被截断方法的均匀激活或球面方法的几何压缩所阻碍的能力。
5. 意义与主张
本文声称提供了一条从硬件数据表到安全部署的系统性路径。通过直接从官方关节速率规范参数化动作空间,DD-SRad 允许 RL 智能体学习尊重物理限制的最优策略,而无需奖励工程或事后安全过滤器。
作者强调,DD-SRad 解决了速率约束的 ℓ∞ 性质与标准球面参数化的 ℓ2 性质之间的根本几何失配。这使得:
- 安全部署:对执行器限制的硬性保证防止了静默的命令丢弃或硬件损坏。
- 高效学习:通过保留可行集的完整几何形状,智能体可以探索物理上可能动作的完整范围,从而实现更快的收敛和更高的性能。
- 可扩展性:该方法可扩展至高维人形机器人(17+ 个关节),而无需 QP 求解器的计算负担。
该工作得出结论:虽然现有方法要么牺牲安全性,要么牺牲几何覆盖,要么牺牲训练效率,但 DD-SRad 同时实现了这三者,验证了其在现实世界机器人控制中的实用性。