Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**如何让机器人像真人一样“既听话又懂分寸”**的故事。

想象一下，你正在教一个刚学走路的孩子（或者一个笨拙的机器人）走路。你面临两个互相矛盾的要求：

听话（命令追踪）： 当你喊“向前走”，它必须立刻、准确地向前走，不能走神。
懂分寸（力顺应）： 当有人轻轻推它一把，或者拉着它的手带它走时，它不能像块石头一样硬抗，而应该顺势而为，温柔地配合。

以前的机器人训练方法，往往只教它们“抗干扰”。就像教孩子“不管别人怎么推，都要站得笔直”。结果就是，机器人虽然很稳，但如果你推它，它会像个倔强的石头一样硬顶回去，甚至可能因为太僵硬而摔倒，或者把推它的人弹开。这显然不适合在人类身边工作。

这篇论文提出了一种新的训练方法，让机器人学会在“听话”和“懂分寸”之间自由切换。

核心概念：一个“万能遥控器”

作者给机器人装了一个**“偏好遥控器”**（Preference Vector）。这就好比给机器人戴了一副可调节的眼镜：

把旋钮拧到“听话模式”： 机器人会像特种兵一样，死死盯着你的指令。如果你让它走，它就冲；如果有人推它，它会像一堵墙一样抵抗，确保不偏离路线。
把旋钮拧到“懂分寸模式”： 机器人变得像柳条一样柔软。如果你推它，它就顺势走；如果你拉着它，它就跟着你走，完全不需要你费很大力气。
拧到中间： 它既能听指令，又能适度配合外力，两者兼顾。

最厉害的是： 以前可能需要训练两个不同的机器人（一个专门听话，一个专门配合），现在只需要训练一个机器人。通过改变遥控器上的数字，同一个机器人就能瞬间切换性格。

它是如何做到的？（三个关键魔法）

1. 把“推力”变成“速度”（速度 - 阻力模型）

在训练时，机器人很难理解“力”和“速度”的区别。

比喻： 想象你在推一辆车。如果你推得慢，车就慢慢走；如果你推得猛，车就走得快。
做法： 作者发明了一个数学公式，把“别人推我的力”直接换算成“我应该走多快”。
- 如果有人推我，系统就认为：“哦，有人想让我往那边走，那我就把那个方向的速度命令当成我的目标。”
- 这样，机器人就把“被推”和“被命令走”看作了同一回事，训练起来就简单多了。

2. “老师”教“学生”（不对称的神经网络）

机器人身上没有装很多昂贵的传感器来直接测量“别人推了它多少力”。

比喻： 就像在训练一个盲人运动员。
- 老师（训练时）： 在虚拟世界里，老师能看到所有秘密信息（比如别人推了它多大的力）。老师根据这些信息告诉学生：“刚才那个力是 10 牛顿，你反应慢了。”
- 学生（部署时）： 机器人只看到自己能看到的（比如脚底的感觉、身体的倾斜）。
- 魔法： 作者设计了一个“编码器 - 解码器”结构。老师强迫学生去猜：“虽然我看不到推力，但我通过身体晃动的历史数据，能猜出刚才肯定有人推了我。”
- 结果：等到机器人真的下地干活时，它虽然摸不到推力，但它的“第六感”（潜层特征）已经学会了通过身体姿态来感知外力，从而做出反应。

3. 在“矛盾”中寻找平衡（多目标强化学习）

以前的训练是“非黑即白”的：要么听话，要么抗干扰。

做法： 作者把训练变成了一个**“权衡游戏”**。
- 奖励函数里有两个目标：A. 走对路，B. 配合推力。
- 这两个目标通常是打架的（越听话越难配合推力）。
- 作者让机器人尝试成千上万种不同的“权重组合”。今天练练“听话为主”，明天练练“配合为主”。
- 最终，机器人学会了一个连续的谱系：它不再是非此即彼，而是知道在什么情况下该强硬，什么情况下该温柔。

实验结果：真的有用吗？

作者在仿真环境和真实的Booster T1 人形机器人上做了测试：

仿真测试： 当给机器人施加不同大小的推力时，它可以根据设定的“偏好”，从“像石头一样硬抗”平滑过渡到“像水一样随波逐流”。
真实世界测试：
- 推它走： 实验人员用手轻轻拉着机器人的肩膀或手臂，机器人就能像被牵引的小狗一样，顺滑地跟着走，不需要人费很大力气（只需要 10 牛顿，而旧方法需要 25 牛顿以上）。
- 突然撞击： 当有人用球突然砸向机器人时，它不仅能站稳，还能通过“顺势后退”来化解冲击力，而不是硬扛导致摔倒。
- 户外行走： 在草地、粗糙地面等复杂环境下，机器人既能听指令转弯，又能适应地面的不平整和人的引导。

总结

这篇论文的核心贡献在于，它不再把“外力”看作是需要抵抗的敌人，而是看作一种可以合作的伙伴。

通过一个**“偏好遥控器”，他们让同一个机器人学会了“看人下菜碟”**：

需要精准执行任务时，它雷厉风行；
需要人机互动时，它温柔顺从。

这让人形机器人从“只能在工厂里干活的铁疙瘩”，真正迈向了“能进入家庭、医院，与人类自然互动”的实用阶段。就像给机器人装上了一颗懂得“察言观色”的心。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion》（基于偏好条件的多目标强化学习用于人形机器人指令跟踪与力顺应集成的步态控制）的详细技术总结。

1. 研究背景与问题 (Problem Statement)

核心挑战：
人形机器人在人机交互环境中需要同时具备两种看似矛盾的能力：

指令跟踪 (Command Tracking)： 准确执行用户的速度指令进行导航。
力顺应性 (Force Compliance)： 在受到外部人力引导（如推、拉）时，能够柔顺地响应，而不是僵硬地抵抗。

现有方法的局限性：

过度强调鲁棒性： 现有的强化学习（RL）方法通常通过在训练中引入随机力扰动来训练，这导致策略倾向于“抵抗”外力以维持稳定，从而缺乏顺应性。
目标冲突： 强指令跟踪会降低顺应性，而高顺应性会牺牲对当前指令的响应速度。现有方法通常通过加权求和（单目标）来折衷，难以显式地处理这种权衡，导致在特定任务（如需要柔顺引导）上表现不佳。
架构复杂： 许多解决方案依赖分层控制或多阶段训练，增加了部署的复杂性。

本文目标：
提出一种单一策略，能够根据用户指定的偏好 (Preference)，在“刚性指令跟踪”和“高顺应性行走”之间平滑切换，无需重新训练或复杂的分层架构。

2. 方法论 (Methodology)

本文提出了一种偏好条件的多目标强化学习 (Preference-Conditioned MORL) 框架。

A. 速度 - 阻力建模 (Velocity-Resistance Modeling)

为了解决速度指令（单位：m/s）和外部力（单位：N）物理空间不一致的问题，作者引入了一个统一的速度 - 阻力模型：

将持续的外部力 $F_{ext}$ 映射为等效速度 $v_{ext}$ ：
$v_{ext} = k \cdot F_{ext}$
物理意义： 基于稳态假设（外力与阻尼力平衡），机器人被外力拉动时产生速度，外力撤除时自然停止。这使得力顺应性目标可以转化为与指令跟踪目标形式一致的“速度跟踪”问题。

B. 多目标强化学习公式化 (MORL Formulation)

将人形机器人步态控制建模为多目标优化问题，包含三个目标：

指令跟踪奖励 ( $r_c$ )： 最小化实际速度与指令速度的误差。
力顺应奖励 ( $r_f$ )： 最小化实际速度与等效外力速度 ( $k \cdot F_{ext}$ ) 的误差。
正则化奖励 ( $r_r$ )： 包含高度保持、能耗、稳定性等常规约束。

偏好条件策略：
策略 $\pi(a|o, w)$ 接收一个偏好向量 $w = [w_c, w_f, w_r]$ （满足 $\sum w_i = 2$ ）。

通过调整 $w_c$ 和 $w_f$ 的权重，策略可以在“严格跟踪指令”和“完全顺应外力”之间连续插值。

C. 训练框架：带特权信息重构的编码器 - 解码器

为了解决部署时无法直接测量外部力的问题，采用了非对称 Actor-Critic 架构结合特权信息重构：

训练阶段 (Simulation)：
- Critic (评论家)： 拥有完整状态信息（包括外部力、线速度等特权信息 $o_p$ ）。
- Actor (执行者)： 仅接收可部署的观测值（本体感知、指令等 $o$ ）和偏好向量 $w$ 。
- 编码器 - 解码器 (Encoder-Decoder)： 编码器从历史观测中提取潜在特征 $z_t$ ，解码器尝试重构特权信息（特别是外力）。通过最小化重构损失 ( $L_{rec}$ )，迫使编码器学习出与力相关的潜在特征。
部署阶段 (Real-world)：
- 仅使用编码器和 Actor。
- 策略根据输入的偏好向量 $w$ 和重构出的潜在特征 $z_t$ （隐含了外力信息）在线调整行为。

3. 主要贡献 (Key Contributions)

统一的多目标建模： 提出了基于“速度 - 阻力”模型的统一表示，将指令跟踪和力顺应性转化为可比较的奖励函数，解决了物理量纲不一致的难题。
偏好条件的 MORL 框架： 设计了一个单一策略，通过用户指定的偏好向量，无需分层控制器或多阶段训练，即可覆盖从刚性跟踪到高度顺应性的连续行为谱系。
实机验证与部署： 在仿真和真实人形机器人（Booster T1）上进行了验证。证明了该方法不仅能实现稳定的零样本部署，还能在户外复杂地形下，仅通过手部引导实现柔顺行走。

4. 实验结果 (Results)

A. 仿真实验 (Simulation)

权衡性能： 实验展示了随着偏好权重 $w_c$ 从 2.0 变到 0.0，机器人行为从“严格抵抗外力以跟踪指令”平滑过渡到“完全顺应外力”。
在线切换： 在运行过程中动态改变偏好权重，机器人能无缝切换行为模式，无失稳现象。
消融研究 (Ablation Study)： 与单目标 RL (SORL) 相比，MORL 训练更稳定，且能更好地平衡冲突目标。
抗扰动能力： 在 30N-50N 的突发外力冲击下，MORL 策略（特别是高顺应性设置）的存活率显著高于基线策略，且关节峰值扭矩更低，表明其通过柔顺运动吸收冲击的能力更强。

B. 实机实验 (Real-World Experiments on Booster T1)

不同偏好适应： 机器人能根据偏好设置，在“快速响应遥控指令”和“被人类轻松推拉”之间切换。
交叉方向行走： 在向前行走指令下施加侧向力，机器人能合成对角线行走轨迹，体现了多目标融合能力。
力顺应性量化： 使用测力计测试，MORL 策略仅需约 10N 的力即可拉动机器人，而基线策略需要超过 25N 甚至超过测量上限（30N），且基线策略在抵抗扭矩时动作生硬。
户外鲁棒性： 在草地、粗糙地面、足球场等户外环境中，机器人仅靠人手引导即可稳定行走，无需支撑。
抗冲击测试： 能够承受高达 5kg 的摆球撞击而不摔倒，通过后退步和柔顺运动吸收能量。

5. 意义与价值 (Significance)

人机交互的突破： 解决了人形机器人在物理交互中“太硬”或“太软”的矛盾，使其既能作为导航工具，又能作为可被引导的协作伙伴。
部署友好性： 不需要昂贵的力/力矩传感器，仅通过本体感知和重构网络即可实现力顺应，降低了硬件成本和部署难度。
通用性框架： 提供了一种无需重新训练即可适应不同交互场景（如紧密跟随、辅助行走、抗干扰）的通用控制范式，为未来人形机器人在家庭、服务及救援场景中的应用奠定了基础。

总结： 该工作通过巧妙的物理建模（速度 - 阻力映射）和先进的多目标 RL 架构，成功统一了人形机器人的指令跟踪与力顺应能力，实现了单一策略下的灵活行为切换，并在真实硬件上验证了其高效性和鲁棒性。