Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

该论文提出了一种名为“潜在策略引导”(LPS)的方法,通过利用光流作为跨具身无关的动作表示来预训练世界模型,并结合目标具身的小规模演示数据进行微调与价值函数学习,从而在低数据场景下显著提升了机器人视觉运动策略的性能。

Yiqi Wang, Mrinal Verghese, Jeff Schneider

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让机器人学得更聪明、更省力的新方法。我们可以把它想象成教一个新手厨师(目标机器人)做菜的过程。

1. 核心难题:为什么机器人学东西这么难?

通常,我们要教机器人做任务(比如把萝卜放进锅里),需要给它看很多很多“专家”示范的视频。

  • 问题 A(数据太少): 让机器人亲自做实验太慢、太贵了,很难收集到足够多的好数据。
  • 问题 B(身体不同): 就算我们有很多人类或其他机器人的视频,直接教给目标机器人也不行。因为人类有手,机器人有机械臂,它们的“身体构造”(Embodiment)不一样,动作指令(比如“手臂移动多少厘米”)完全对不上号。就像你不能用教游泳的动作指令去教骑自行车。

2. 核心创意:用“视觉流动”代替“身体动作”

作者发现了一个有趣的规律:不管是谁在干活(人、机械臂、还是大象),只要做同样的事(比如拿杯子),画面里的物体和背景“流动”的样子是非常相似的。

  • 比喻: 想象你在看一场足球赛。不管球员穿的是红队服还是蓝队服,也不管他们是用左脚还是右脚踢球,球在草地上滚动的轨迹(光流,Optical Flow) 看起来是一样的。
  • 解决方案: 作者决定,在预训练阶段,不看机器人具体动了哪块肌肉,只看画面里东西是怎么“动”的
    • 他们把这种“画面流动”当作一种通用的“动作语言”。
    • 这样,人类视频、仿真数据、不同机器人的数据,都可以混在一起训练一个**“世界模型”(World Model)。这个模型就像一个“超级大脑”**,它学会了预测“如果我做了这个动作,画面会变成什么样”,而不关心是谁在做。

3. 具体步骤:三步走战略

第一步:预训练(看大片,学直觉)

  • 做法: 用海量的、来自不同来源(人类、仿真、各种机器人)的数据,训练这个“世界模型”。
  • 输入: 画面 + 光流(物体怎么动)。
  • 结果: 模型学会了物理世界的规律:比如“勺子碰到豆子,豆子会滚”;“布被折叠,形状会变”。它变得非常博学,但还没学会具体怎么操作某个特定的机器人。

第二步:微调(换教练,学规矩)

  • 做法: 现在给目标机器人(比如你的 Franka 机械臂)看少量的专家示范视频(比如 30-50 次)。
  • 变化: 把“世界模型”里的输入从“光流”换成机器人具体的“关节动作”。
  • 结果: 模型迅速把刚才学到的通用物理规律,和这个特定机器人的操作方式对应起来。这就好比让那个博学的大脑,专门去适应你的身体。

第三步:潜空间策略引导(LPS)—— 最精彩的部分

这是论文最厉害的地方。通常机器人学坏了,是因为它走偏了(分布偏移)。

  • 比喻: 想象你在开车。
    • 普通方法(行为克隆): 司机只看后视镜里专家怎么开,专家往左打,他也往左打。但如果路稍微有点滑,他可能就会开偏,越偏越远,最后撞车。
    • LPS 方法(潜空间策略引导): 司机不仅看后视镜,脑子里还有一个**“模拟器”**(世界模型)。
      1. 司机想:“如果我往左打,接下来 5 秒会发生什么?”
      2. 模拟器在脑子里快速推演:“往左打可能会撞树,往右打可能会掉沟里,只有中间那条路最稳。”
      3. 司机还有一个**“价值判断”**(价值函数):它会惩罚那些偏离专家路线太远的想法。
      4. 最终决策: 司机在脑子里试了 10 种方案,发现只有“中间那条路”既符合物理规律,又没偏离专家太远,于是执行这个方案。

简单说:LPS 就是让机器人在做动作之前,先在脑子里“预演”一下,选一个最靠谱、最不容易翻车的方案。

4. 实验结果:效果惊人

  • 仿真环境: 在模拟任务中,比传统方法提升了约 10.6%
  • 真实世界: 效果更炸裂!
    • 只有 30-50 个示范视频时,成功率提升了 70%
    • 60-100 个示范视频时,成功率提升了 44%
  • 对比: 那些直接模仿人类动作(不管身体差异)的大模型,在数据少的时候表现很差;而这种方法利用“光流”这个通用语言,把海量数据变成了真正的营养。

5. 总结与局限

总结: 这篇论文教机器人**“看现象(光流)学道理,再结合少量具体数据学操作,最后靠脑子里的模拟器选最佳方案”**。这让机器人能用很少的数据,学会复杂的任务(比如用勺子舀豆子、折叠毛巾)。

局限:

  • 光流怕遮挡: 如果手挡住了东西,光流就看不到了,模型可能会懵。
  • 视角依赖: 换个角度看,光流就不一样了。不过作者说,只要训练数据里有各种角度的视频,这个问题就能解决。

一句话概括: 就像教孩子骑车,不要死记硬背“腿要抬多高”,而是让他看别人骑车时车轮和地面的相对运动,学会平衡感,最后再让他自己上车微调,这样学得最快、最稳。