From Passive Observer to Active Critic: Reinforcement Learning Elicits Process Reasoning for Robotic Manipulation

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 PRIMO R1 的新系统，它的核心目标是让机器人变得更“聪明”，不仅能“看”到自己在做什么，还能像一位经验丰富的老教练一样，实时判断任务做得“有多好”以及“离成功还有多远”。

为了让你轻松理解，我们可以把这篇论文的核心思想拆解成几个生动的比喻：

1. 痛点：从“旁观者”到“评论家”的转变

想象一下，现在的视频大模型（AI）就像是一个只会描述画面的解说员（Passive Observer）。

它的能力：当机器人切洋葱时，它能说：“看，机器人拿起了刀，切了一刀。”
它的缺陷：它是个“瞎子”，分不清这是成功的开始还是失败的中间。如果机器人切到了手，或者切得乱七八糟，它可能还会说：“哦，动作很流畅，任务进度 90%！”因为它只看到了动作，没理解目标。

PRIMO R1 做了什么？
它把 AI 从“解说员”升级成了严厉的“评论家”或“裁判”（Active Critic）。

它不再只是描述“发生了什么”，而是会问：“这离把洋葱切好还有多远？哪里做错了？”
它能给出一个具体的分数（比如：任务完成了 85%），并且能解释为什么是这个分数。

2. 核心魔法：让 AI“边想边说” (Chain-of-Thought)

以前的 AI 是直接猜一个分数，就像学生做数学题直接写答案，错了也不知道哪步错了。
PRIMO R1 强迫 AI 在给出答案前，必须先写出一段“思考过程”（Chain-of-Thought）。

它的思考流程是这样的：

制定计划 (Planning)：先想好“切洋葱”的标准步骤是什么？（拿刀 -> 按住洋葱 -> 下刀 -> 装盘）。
观察现状 (Observation)：看着视频，机器人现在做到了哪一步？（哦，它切了两刀，但还没装盘）。
逻辑推理 (Reasoning)：结合计划和现状进行对比。“既然标准是 5 步，它完成了前 3 步，那进度应该是 60% 左右，而不是 90%。”

比喻：这就像老师批改作业，不再只看最后的红叉，而是要求学生在试卷上写出解题步骤。这样，AI 才能学会真正的逻辑，而不是死记硬背。

3. 关键技巧：给视频加上“起点”和“终点”

很多 AI 看视频就像是在看一段没有头尾的片段，容易迷路。
PRIMO R1 给 AI 提供了三张关键图片：

起点图：任务开始前，桌子是什么样？（洋葱是完整的）。
过程视频：机器人正在切洋葱。
当前图：机器人现在切成了什么样？

比喻：这就像玩“找不同”游戏。如果你只给看中间的过程，你很难知道变化了多少。但如果你同时看到了开始的样子和现在的样子，你就能立刻算出“进度条”走了多少。PRIMO R1 就是利用这种“首尾对照”的方法，让 AI 看得更准。

4. 训练方法：用“奖励”逼出真本事

怎么让 AI 学会这种复杂的思考呢？作者没有用传统的“老师教学生”（监督学习），而是用了强化学习（RL），有点像训练宠物或打游戏。

规则：AI 每次给出一个进度分数。如果它猜得准，就给它“奖励”（分数高）；如果猜得离谱，就没有奖励。
效果：为了拿到更多奖励，AI 被迫自己去摸索规律，发现“原来只有先想清楚步骤，再对比首尾，才能猜对分数”。
结果：这种训练让 AI 从“死记硬背”变成了“举一反三”。即使遇到没见过的任务（比如换了一个机器人，或者换个环境），它也能靠逻辑推理猜出进度。

5. 成果：小模型打败大模型

最惊人的是，PRIMO R1 只是一个70 亿参数的小模型（相当于一个普通的大学生），但它打败了很多720 亿参数甚至更大的“超级大脑”（如 GPT-4o, OpenAI o1 等）。

为什么？ 因为大模型虽然知识多，但如果不经过这种“逻辑推理”的专门训练，它们在面对具体任务时容易“幻觉”（瞎编）。PRIMO R1 通过“思考过程”和“首尾对照”，把逻辑理得清清楚楚，所以更精准。
实战表现：在检测机器人“翻车”（任务失败）的任务上，它的准确率达到了 67%，超过了那些昂贵的闭源大模型。

总结

这篇论文的核心就是：给机器人装上一个会“思考”的大脑。

它不再是一个只会看热闹的视频播放器，而是一个能看懂目标、对比现状、推理进度的智能教练。通过让 AI 学会“先思考，后回答”，并给它提供清晰的“起点”和“终点”作为参照，我们成功训练出了一个既聪明又精准的小模型，让机器人能更可靠地完成复杂的长任务。

一句话概括：PRIMO R1 让 AI 从“只会描述画面的路人”进化成了“能精准打分并指出问题的专业裁判”。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

在具身智能（Embodied AI）领域，长程机器人操作任务（Long-horizon robotic manipulation）面临的核心挑战之一是如何获取有效的奖励信号。

现有瓶颈：当前的视频多模态大语言模型（Video MLLMs）主要基于监督微调（SFT）范式训练，它们充当的是被动的“观察者”（Observers）。
- 它们擅长描述“正在发生什么”（事件识别），但难以进行严格的定量推理来判断“任务进展如何”或“当前状态距离最终目标有多远”。
- 现有的方法通常将进展估计视为简单的回归或分类问题，导致模型缺乏对因果结构的理解。
- 后果：模型在面对未见过的物体或环境时泛化能力差，且容易因为视觉轨迹与成功动作相似而错误地给失败的任务分配高进展分数（即“幻觉”任务完成）。
核心痛点：缺乏显式的时间边界锚定（Temporal Boundary Anchoring）和连续的推理路径，导致模型无法将连续的视觉轨迹与离散的任务成功逻辑条件对齐。

2. 方法论 (Methodology)

作者提出了 PRIMO R1（Process Reasoning Induced MOnitoring），一个 7B 参数量的框架，旨在将视频 MLLM 从被动观察者转变为主动的“批评家”（Critics）。

2.1 核心架构设计

结构化时间输入（Structured Temporal Input）：
- 为了解决连续动态特征空间中的细节丢失问题，PRIMO R1 显式地将视频序列锚定在**初始状态图像（ $I_{init}$ ）和当前状态图像（ $I_{curr}$ ）**之间。
- 输入包括：初始状态、过程视频序列（ $V_{seq}$ ）、当前状态、以及语言指令（任务目标）。
- 这种设计将推理任务从通用的时间感知转化为结构化的状态对齐验证。
思维链（Chain-of-Thought, CoT）生成：
- 模型不再直接输出标量进度值，而是首先生成显式的推理链，包含三个模块：
  1. 规划（Planning）：将高层目标分解为逻辑步骤。
  2. 观察（Observation）：离散化视觉输入，验证部分对象的状态变化。
  3. 推理（Reasoning）：将提取的视觉原语与规划的执行拓扑进行对齐，计算完成比例。

2.2 训练策略：基于结果的强化学习 (Outcome-based RL)

从 SFT 到 RL 的转变：
- 不同于传统的 SFT（直接监督中间变量），PRIMO R1 利用基于结果的强化学习来激励 CoT 的生成。
- 优化目标仅基于最终预测值（ $\hat{y}$ ）与真实值（ $y_{gt}$ ）的准确性，不依赖密集的中间标注。
算法选择：GRPO (Group Relative Policy Optimization)：
- 采用 GRPO 替代传统的 PPO，因为它不需要训练一个独立的、计算昂贵的价值函数 Critic。
- 优势：利用采样输出组的统计信息来估计基线，显著降低了视频 MLLM 的显存开销。
奖励函数设计：
- 格式奖励 ( $r_{fmt}$ )：强制模型输出符合 <thinking>...</thinking><answer>...</answer> 的结构，防止模型直接猜测。
- 精度奖励 ( $r_{acc}$ )：采用有界线性衰减函数，根据预测误差给予连续奖励，鼓励精确的数值推理。

3. 数据集与基准 (Dataset & Benchmark)

为了支持该范式，作者构建了：

PRIMO Dataset：
- 包含 SFT 和 RL 后训练数据，覆盖真实世界（AgiBot）和高保真仿真（BEHAVIOR-1k, RoboTwin）。
- 数据特点：细粒度的进展指标，并标注了 CoT 推理路径。
- 规模：SFT 数据集约 11.6k 样本，RL 数据集约 18.2k 样本。
PRIMO Bench：
- 用于系统评估后训练方法的泛化能力。
- In-Domain (ID)：相同任务、相同环境。
- Out-of-Domain (OOD)：跨任务（Cross-Task）和跨环境（Cross-Environment，包括从未见过的真实人形机器人场景）。

4. 实验结果 (Results)

实验在多种仿真环境和真实人形机器人场景中进行，PRIMO R1 展现了 State-of-the-Art (SOTA) 性能。

任务进展估计（Task Progress Estimation）：
- 精度提升：PRIMO R1（7B）的平均相对准确率（MRA）达到 82.90%，平均绝对误差（MAE）为 15.52。
- 对比优势：
  - 相比 72B 参数量的通用 MLLM（Qwen2.5-VL-72B），MRA 提升了 9.10 个百分点。
  - 相比专用推理基线（如 Video R1 7B），MAE 降低了 50%。
- Sim-to-Real 泛化：在未见过的真实人形机器人（Real Humanoid）环境中，PRIMO R1 保持了 72.32% 的 MRA，而通用模型性能大幅下降（跌至 56.46%）。
失败检测（Failure Detection）：
- 在 RoboFail 基准测试中，PRIMO R1 达到了 67.0% 的准确率。
- 超越闭源模型：超过了 OpenAI o1 (61.0%)、GPT-4o (63.0%) 和 Gemini 2.0 Flash (67.0%)。
- 关键发现：优化连续进展推理的能力，本质上构建了离散失败检测所需的时序上下文表示，实现了零样本（Zero-shot）泛化。
消融实验：
- 证明同时输入初始状态、视频序列和当前状态（三元组配置）是长程任务中降低误差的必要条件。
- 证明 RL 阶段对于从 SFT 的过拟合中恢复并提升 OOD 泛化能力至关重要。

5. 主要贡献 (Key Contributions)

范式转变：提出了 PRIMO R1，通过强化学习将视频 MLLM 从被动观察者转变为可解释的主动批评家，实现了 SOTA 的任务进展估计和失败检测。
数据与基准：发布了 PRIMO Dataset（含 CoT 标注的 SFT/RL 数据）和 PRIMO Bench，系统评估了视频 MLLM 的后训练泛化能力。
架构创新：提出了结构化时间输入策略，显式锚定初始和当前状态，将 MAE 降低了 50%。
理论洞察：证明了优化进展推理（Progress Reasoning）能够内在构建出失败检测所需的时序上下文表示，为长程机器人操作中的奖励信号提取提供了新路径。

6. 意义与影响 (Significance)

解决奖励稀疏问题：PRIMO R1 提供了一种从视觉观察中直接学习通用奖励函数的方法，无需人工设计复杂的奖励函数或依赖特权信息（Privileged Information）。
提升具身智能的鲁棒性：通过显式的过程推理和状态对齐，模型能够更准确地理解物理世界的因果逻辑，减少幻觉，提高在复杂、非结构化环境中的任务成功率。
高效性：作为一个 7B 模型，PRIMO R1 在推理延迟和计算成本上具有竞争力，同时性能超越了参数量大得多的闭源模型，证明了“小模型 + 强推理”在机器人领域的巨大潜力。

总结：该论文通过引入强化学习激发的过程推理和结构化的时间锚定机制，成功解决了视频 MLLM 在机器人任务评估中“只看表面、不懂逻辑”的缺陷，为未来自主机器人策略学习提供了关键的监督信号来源。