Preference-Conditioned Multi-Objective RL for Integrated Command Tracking and Force Compliance in Humanoid Locomotion

本文提出了一种偏好条件多目标强化学习框架,通过平衡指令跟踪与外力顺应性,使单一人形机器人策略能够根据用户指定的偏好在导航精度与交互柔顺性之间灵活切换,并在仿真与真实硬件实验中验证了其稳定性与部署可行性。

Tingxuan Leng, Yushi Wang, Tinglong Zheng, Changsheng Luo, Mingguo Zhao

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于**如何让机器人像真人一样“既听话又懂分寸”**的故事。

想象一下,你正在教一个刚学走路的孩子(或者一个笨拙的机器人)走路。你面临两个互相矛盾的要求:

  1. 听话(命令追踪): 当你喊“向前走”,它必须立刻、准确地向前走,不能走神。
  2. 懂分寸(力顺应): 当有人轻轻推它一把,或者拉着它的手带它走时,它不能像块石头一样硬抗,而应该顺势而为,温柔地配合。

以前的机器人训练方法,往往只教它们“抗干扰”。就像教孩子“不管别人怎么推,都要站得笔直”。结果就是,机器人虽然很稳,但如果你推它,它会像个倔强的石头一样硬顶回去,甚至可能因为太僵硬而摔倒,或者把推它的人弹开。这显然不适合在人类身边工作。

这篇论文提出了一种新的训练方法,让机器人学会在“听话”和“懂分寸”之间自由切换

核心概念:一个“万能遥控器”

作者给机器人装了一个**“偏好遥控器”**(Preference Vector)。这就好比给机器人戴了一副可调节的眼镜:

  • 把旋钮拧到“听话模式”: 机器人会像特种兵一样,死死盯着你的指令。如果你让它走,它就冲;如果有人推它,它会像一堵墙一样抵抗,确保不偏离路线。
  • 把旋钮拧到“懂分寸模式”: 机器人变得像柳条一样柔软。如果你推它,它就顺势走;如果你拉着它,它就跟着你走,完全不需要你费很大力气。
  • 拧到中间: 它既能听指令,又能适度配合外力,两者兼顾。

最厉害的是: 以前可能需要训练两个不同的机器人(一个专门听话,一个专门配合),现在只需要训练一个机器人。通过改变遥控器上的数字,同一个机器人就能瞬间切换性格。

它是如何做到的?(三个关键魔法)

1. 把“推力”变成“速度”(速度 - 阻力模型)

在训练时,机器人很难理解“力”和“速度”的区别。

  • 比喻: 想象你在推一辆车。如果你推得慢,车就慢慢走;如果你推得猛,车就走得快。
  • 做法: 作者发明了一个数学公式,把“别人推我的力”直接换算成“我应该走多快”。
    • 如果有人推我,系统就认为:“哦,有人想让我往那边走,那我就把那个方向的速度命令当成我的目标。”
    • 这样,机器人就把“被推”和“被命令走”看作了同一回事,训练起来就简单多了。

2. “老师”教“学生”(不对称的神经网络)

机器人身上没有装很多昂贵的传感器来直接测量“别人推了它多少力”。

  • 比喻: 就像在训练一个盲人运动员。
    • 老师(训练时): 在虚拟世界里,老师能看到所有秘密信息(比如别人推了它多大的力)。老师根据这些信息告诉学生:“刚才那个力是 10 牛顿,你反应慢了。”
    • 学生(部署时): 机器人只看到自己能看到的(比如脚底的感觉、身体的倾斜)。
    • 魔法: 作者设计了一个“编码器 - 解码器”结构。老师强迫学生去猜:“虽然我看不到推力,但我通过身体晃动的历史数据,能猜出刚才肯定有人推了我。”
    • 结果:等到机器人真的下地干活时,它虽然摸不到推力,但它的“第六感”(潜层特征)已经学会了通过身体姿态来感知外力,从而做出反应。

3. 在“矛盾”中寻找平衡(多目标强化学习)

以前的训练是“非黑即白”的:要么听话,要么抗干扰。

  • 做法: 作者把训练变成了一个**“权衡游戏”**。
    • 奖励函数里有两个目标:A. 走对路,B. 配合推力。
    • 这两个目标通常是打架的(越听话越难配合推力)。
    • 作者让机器人尝试成千上万种不同的“权重组合”。今天练练“听话为主”,明天练练“配合为主”。
    • 最终,机器人学会了一个连续的谱系:它不再是非此即彼,而是知道在什么情况下该强硬,什么情况下该温柔。

实验结果:真的有用吗?

作者在仿真环境和真实的Booster T1 人形机器人上做了测试:

  1. 仿真测试: 当给机器人施加不同大小的推力时,它可以根据设定的“偏好”,从“像石头一样硬抗”平滑过渡到“像水一样随波逐流”。
  2. 真实世界测试:
    • 推它走: 实验人员用手轻轻拉着机器人的肩膀或手臂,机器人就能像被牵引的小狗一样,顺滑地跟着走,不需要人费很大力气(只需要 10 牛顿,而旧方法需要 25 牛顿以上)。
    • 突然撞击: 当有人用球突然砸向机器人时,它不仅能站稳,还能通过“顺势后退”来化解冲击力,而不是硬扛导致摔倒。
    • 户外行走: 在草地、粗糙地面等复杂环境下,机器人既能听指令转弯,又能适应地面的不平整和人的引导。

总结

这篇论文的核心贡献在于,它不再把“外力”看作是需要抵抗的敌人,而是看作一种可以合作的伙伴

通过一个**“偏好遥控器”,他们让同一个机器人学会了“看人下菜碟”**:

  • 需要精准执行任务时,它雷厉风行
  • 需要人机互动时,它温柔顺从

这让人形机器人从“只能在工厂里干活的铁疙瘩”,真正迈向了“能进入家庭、医院,与人类自然互动”的实用阶段。就像给机器人装上了一颗懂得“察言观色”的心。