PRISM: Personalized Refinement of Imitation Skills for Manipulation via Human Instructions

PRISM 提出了一种结合模仿学习与强化学习的指令驱动方法,通过大语言模型生成奖励函数并结合人类反馈对策略进行迭代优化,从而在无需大量新数据的情况下高效提升机器人操作策略的泛化能力与鲁棒性。

Arnau Boix-Granell, Alberto San-Miguel-Tello, Magí Dalmau-Moreno, Néstor García

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PRISM 的机器人学习系统。简单来说,它教机器人如何像人类一样“举一反三”,不仅能学会做一件事,还能听懂你的新指令,快速学会做一件稍微有点不一样的新事,而且不需要专家手把手教它写复杂的数学公式。

为了让你更容易理解,我们可以把整个过程想象成教一个刚出道的学徒厨师(机器人)做一道新菜

1. 核心问题:机器人太“死板”了

传统的机器人学习(模仿学习)就像让学徒死记硬背一道菜的做法。

  • 场景:你教他“把苹果扔进垃圾桶”。他练了几十次,扔得很准。
  • 问题:如果你突然说:“别扔了,把苹果轻轻在桌子上,而且不能磕碰。”
  • 结果:死记硬背的学徒会懵圈。因为他只学会了“扔”的动作,一旦环境变了(从垃圾桶变成桌子),或者要求变了(不能磕碰),他就不知道该怎么办了,甚至会把苹果摔坏。

而传统的强化学习(RL)虽然能自己摸索,但就像让学徒从零开始瞎试。他可能会为了把苹果放桌上,试几千次,把桌子砸烂、把苹果捏碎,效率极低,而且很危险。

2. PRISM 的解决方案:聪明的“师徒 + 导师”模式

PRISM 把这两种方法结合了起来,分三步走:

第一步:模仿学习(打基础)

  • 比喻:你(非专家用户)戴上 VR 眼镜,像玩游戏一样,亲自操控机械手把苹果扔进垃圾桶。
  • 作用:机器人通过看你的操作,学会了“拿苹果”和“扔苹果”的基本动作。这就像学徒学会了切菜和颠勺的基本功。这时候,机器人已经是个“入门级”厨师了。

第二步:强化学习微调(练内功)

  • 比喻:现在机器人要适应新环境。你告诉它:“我们要把苹果在桌子上,而不是扔。”
  • 作用:机器人开始自己尝试。它发现“扔”会摔坏苹果,于是调整动作,慢慢摸索出“放”的技巧。这时候,它已经比只会死记硬背的机器人强多了,因为它懂得根据结果调整。

第三步:人类指令 + 反馈(点睛之笔)—— 这是 PRISM 最厉害的地方

  • 比喻:你作为“导师”,不需要教它具体的肌肉怎么动,只需要用大白话告诉它你的要求,并在它做错时给点“吐槽”。
    • 指令:你告诉 AI 助手(大语言模型):“我要把苹果放桌上,而且必须保持直立,不能歪。”
    • 自动翻译:AI 助手自动把这个大白话翻译成机器人能听懂的“奖励规则”(比如:放歪了扣分,放直了加分)。
    • 人类反馈:机器人试了几次,发现虽然放直了,但动作太慢。你插话说:“动作太慢了,太磨蹭!”机器人立刻调整,加快了速度。

3. 这个系统为什么牛?(三大亮点)

  1. 听得懂人话(指令驱动)
    你不需要是机器人专家,不需要写代码。你只需要像跟朋友聊天一样说:“把杯子拿起来,别洒了水。”系统就能自动理解并调整机器人的行为。

  2. 不浪费力气(数据高效)
    因为它有第一步打下的“基本功”(模仿学习),所以它不需要像从零开始的机器人那样试错几千次。它只需要在你给的“新指令”基础上,稍微改一改就能学会。这就像学徒已经会切菜了,你只需要教他“这次要切薄片”,他很快就能学会。

  3. 有人情味(个性化)
    每个人的习惯不同。有的人喜欢动作快,有的人喜欢动作稳。PRISM 允许你通过简单的反馈(“太快了”、“太用力了”)来定制机器人的风格。它不再是冷冰冰的机器,而是能根据你的喜好“量身定做”的助手。

4. 实验结果:真的有用吗?

研究人员在电脑模拟环境里测试了“把方块扔进抽屉”和“把方块竖着放在桌面上”这两个任务。

  • 普通机器人:要么学不会新任务,要么需要试错很久。
  • PRISM 机器人:在人类的简单指令和几次反馈下,很快就学会了新任务,成功率高达 96.8%。而且,它比那些完全靠机器自己摸索(没有人类反馈)的系统快得多,也稳得多。

总结

PRISM 就像给机器人装了一个“翻译官”和一个“纠错员”。
它让机器人先学会基本功,然后当你提出新需求时,它能听懂你的大白话指令,结合你偶尔的“吐槽”反馈,迅速调整自己的行为。这让机器人不再是只能干死板活儿的工具,而变成了能真正适应人类生活、懂你心意的智能伙伴。

一句话总结:PRISM 让机器人学会了“听人话、看眼色、快速变通”,从此以后,你不用教它怎么动,只要告诉它“想要什么”,它就能自己学会怎么做。