From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

本文提出了 PRIMO R1 框架,通过基于结果的强化学习将视频多模态大模型从被动观察者转变为主动评估者,使其在长程机器人操作任务中实现了超越 72B 通用模型及 OpenAI o1 的卓越过程推理与故障检测性能。

Yibin Liu, Yaxing Lyu, Daqi Gao, Zhixuan Liang, Weiliang Tang, Shilong Mu, Xiaokang Yang, Yao Mu

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PRIMO R1 的新系统,它的核心目标是让机器人变得更“聪明”,不仅能“看”到自己在做什么,还能像一位经验丰富的老教练一样,实时判断任务做得“有多好”以及“离成功还有多远”。

为了让你轻松理解,我们可以把这篇论文的核心思想拆解成几个生动的比喻:

1. 痛点:从“旁观者”到“评论家”的转变

想象一下,现在的视频大模型(AI)就像是一个只会描述画面的解说员(Passive Observer)。

  • 它的能力:当机器人切洋葱时,它能说:“看,机器人拿起了刀,切了一刀。”
  • 它的缺陷:它是个“瞎子”,分不清这是成功的开始还是失败的中间。如果机器人切到了手,或者切得乱七八糟,它可能还会说:“哦,动作很流畅,任务进度 90%!”因为它只看到了动作,没理解目标

PRIMO R1 做了什么?
它把 AI 从“解说员”升级成了严厉的“评论家”或“裁判”(Active Critic)。

  • 它不再只是描述“发生了什么”,而是会问:“这离把洋葱切好还有多远?哪里做错了?”
  • 它能给出一个具体的分数(比如:任务完成了 85%),并且能解释为什么是这个分数。

2. 核心魔法:让 AI“边想边说” (Chain-of-Thought)

以前的 AI 是直接猜一个分数,就像学生做数学题直接写答案,错了也不知道哪步错了。
PRIMO R1 强迫 AI 在给出答案前,必须先写出一段“思考过程”(Chain-of-Thought)。

它的思考流程是这样的:

  1. 制定计划 (Planning):先想好“切洋葱”的标准步骤是什么?(拿刀 -> 按住洋葱 -> 下刀 -> 装盘)。
  2. 观察现状 (Observation):看着视频,机器人现在做到了哪一步?(哦,它切了两刀,但还没装盘)。
  3. 逻辑推理 (Reasoning):结合计划和现状进行对比。“既然标准是 5 步,它完成了前 3 步,那进度应该是 60% 左右,而不是 90%。”

比喻:这就像老师批改作业,不再只看最后的红叉,而是要求学生在试卷上写出解题步骤。这样,AI 才能学会真正的逻辑,而不是死记硬背。

3. 关键技巧:给视频加上“起点”和“终点”

很多 AI 看视频就像是在看一段没有头尾的片段,容易迷路。
PRIMO R1 给 AI 提供了三张关键图片

  1. 起点图:任务开始前,桌子是什么样?(洋葱是完整的)。
  2. 过程视频:机器人正在切洋葱。
  3. 当前图:机器人现在切成了什么样?

比喻:这就像玩“找不同”游戏。如果你只给看中间的过程,你很难知道变化了多少。但如果你同时看到了开始的样子现在的样子,你就能立刻算出“进度条”走了多少。PRIMO R1 就是利用这种“首尾对照”的方法,让 AI 看得更准。

4. 训练方法:用“奖励”逼出真本事

怎么让 AI 学会这种复杂的思考呢?作者没有用传统的“老师教学生”(监督学习),而是用了强化学习(RL),有点像训练宠物或打游戏

  • 规则:AI 每次给出一个进度分数。如果它猜得准,就给它“奖励”(分数高);如果猜得离谱,就没有奖励。
  • 效果:为了拿到更多奖励,AI 被迫自己去摸索规律,发现“原来只有先想清楚步骤,再对比首尾,才能猜对分数”。
  • 结果:这种训练让 AI 从“死记硬背”变成了“举一反三”。即使遇到没见过的任务(比如换了一个机器人,或者换个环境),它也能靠逻辑推理猜出进度。

5. 成果:小模型打败大模型

最惊人的是,PRIMO R1 只是一个70 亿参数的小模型(相当于一个普通的大学生),但它打败了很多720 亿参数甚至更大的“超级大脑”(如 GPT-4o, OpenAI o1 等)。

  • 为什么? 因为大模型虽然知识多,但如果不经过这种“逻辑推理”的专门训练,它们在面对具体任务时容易“幻觉”(瞎编)。PRIMO R1 通过“思考过程”和“首尾对照”,把逻辑理得清清楚楚,所以更精准。
  • 实战表现:在检测机器人“翻车”(任务失败)的任务上,它的准确率达到了 67%,超过了那些昂贵的闭源大模型。

总结

这篇论文的核心就是:给机器人装上一个会“思考”的大脑。

它不再是一个只会看热闹的视频播放器,而是一个能看懂目标、对比现状、推理进度的智能教练。通过让 AI 学会“先思考,后回答”,并给它提供清晰的“起点”和“终点”作为参照,我们成功训练出了一个既聪明又精准的小模型,让机器人能更可靠地完成复杂的长任务。

一句话概括:PRIMO R1 让 AI 从“只会描述画面的路人”进化成了“能精准打分并指出问题的专业裁判”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →