Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Perception-R1 的新方法，旨在让多模态大语言模型（MLLMs，即能看懂图、能读文字的 AI）变得更聪明。

为了让你轻松理解，我们可以把 AI 想象成一个正在备考的“天才学生”。

1. 核心问题：学生“眼高手低”

在这个故事里，现有的 AI 模型（比如 Qwen2.5-VL）就像是一个记忆力超群但观察力很差的学生。

现状：以前的训练方法（称为 RLVR，就像只根据考试最终分数来奖励学生）告诉学生：“只要答案对了，就是好样的！”
问题：这就导致了一个奇怪的现象。学生可能根本没看清题目里的图（比如把“圆”看成了“方”，或者漏掉了关键的“垂直”符号），但他通过瞎猜、死记硬背或者逻辑推理，碰巧算出了正确答案。
后果：因为最终答案对了，系统就给他发糖（奖励）。结果，学生发现：“原来我不需要认真看图，只要蒙对答案就行！”于是，他的观察能力（感知能力） 不仅没进步，反而因为缺乏训练而停滞不前。这就好比一个厨师，不管切菜切得乱七八糟，只要最后端出来的菜味道对了，老板就夸他，那他永远学不会把菜切好。

2. 解决方案：Perception-R1（给“观察力”发奖金）

作者们发现，“看图”是“解题”的地基。如果地基不稳（看错图），楼盖得再高（推理再强）也会塌。

于是，他们提出了 Perception-R1，给这个“学生”制定了一套新的奖励规则：

以前的规则：只看最终答案对不对。
现在的规则（Perception-R1）：
1. 先描述，后解题：在解题之前，学生必须先像“解说员”一样，把图里看到了什么（比如：这是一个半径为 26 的圆，弦 AC 和 DF 距离圆心相等）清楚地描述出来。
2. 双重打分：
  - 答案分：最后算出的数字对不对？
  - 观察分（新增加的！）：你刚才描述的图，和图里的真实情况一致吗？如果你把“垂直”看成了“平行”，哪怕你最后答案蒙对了，观察分也会扣光，甚至没有奖励。

3. 具体怎么做？（三个步骤）

为了让这个新规则生效，作者们设计了一个聪明的流程：

找“标准答案”作为参考：他们先让一个超级厉害的 AI（比如 Gemini）去解题，并把这些解题过程中对图片的准确描述提取出来，作为“标准观察笔记”。
请“监考老师”打分：在训练过程中，当学生（被训练的 AI）开始解题时，会请一位“监考老师”（另一个大语言模型）来检查。
- 老师会对比：“学生说的‘图中有个直角’，和‘标准笔记’里的一致吗？”
- 如果一致，就给观察分；如果不一致，就不给分。
强化训练：把“答案分”和“观察分”加在一起，作为最终的奖励。这样，学生为了拿高分，就被迫必须学会认真看图，准确描述，而不仅仅是瞎猜答案。

4. 效果如何？（少花钱，办大事）

这个新方法的效果非常惊人，可以用两个词概括：高效和精准。

数据量极少：以前的方法可能需要几十万甚至上百万张图来训练（就像让学生刷完整个图书馆的题）。而 Perception-R1 只需要 1,442 道 几何题（就像只做了 10 本练习册），就能达到甚至超过那些“题海战术”训练出来的模型的效果。
能力全面：经过这种训练，AI 不仅解题更准了，而且看图更仔细了。在那些必须完全依赖看图才能做的题目（比如“图中哪个角是直角？”）上，它的表现突飞猛进。

总结

Perception-R1 的核心思想就是：不要只奖励结果，要奖励过程，尤其是“观察”这个过程。

它就像是一位高明的教练，不再只盯着运动员冲过终点的秒表（最终答案），而是开始纠正运动员的起跑姿势和跑步动作（视觉感知）。只有动作标准了，成绩才能稳定且长久地提高。

这篇论文告诉我们，想要让 AI 真正具备像人类一样的“智慧”，光让它“会算”是不够的，还得先让它“会看”。

Each language version is independently generated for its own context, not a direct translation.

Perception-R1 技术总结

1. 研究背景与问题定义

背景：多模态大语言模型（MLLMs）在复杂推理任务（如数学解题、科学问答）中展现出巨大潜力。近期，基于可验证奖励的强化学习（RLVR）被广泛应用于提升 MLLM 的推理能力（如 DeepSeek-R1, OpenAI-o1 等）。然而，现有的 RLVR 方法主要关注最终答案的准确性（Accuracy-only RLVR），往往忽略了多模态感知能力（Multimodal Perception）的提升。

核心问题：

感知瓶颈：多模态推理依赖于准确的感知（理解图像内容）和逻辑推理。现有研究表明，仅优化答案准确性的 RLVR 无法有效改善 MLLM 的感知能力。
奖励稀疏性：在传统的 RLVR 中，如果模型通过错误的感知（如看错图中的几何关系）猜对了答案，它依然会获得奖励。这导致模型无法纠正感知错误，甚至强化了错误的推理路径。
统计验证：作者通过 McNemar 检验发现，经过传统 RLVR 训练的模型，其多模态感知能力与基线模型相比没有统计学上的显著差异，感知能力仍是限制推理性能进一步提升的主要瓶颈。

2. 方法论：Perception-R1

为了解决上述问题，作者提出了 Perception-R1，一种引入视觉感知奖励（Visual Perception Reward）的新型 RLVR 训练框架。

核心组件与流程：

视觉标注收集（Visual Annotations Curation）：
- 利用强大的多模态模型（如 Gemini-2.5-Pro）生成包含正确推理过程（CoT）的轨迹。
- 使用文本大语言模型（LLM）从这些 CoT 轨迹中提取原子级视觉标注（Visual Annotations）。这些标注仅包含图像中的关键视觉信息（如“线段 GE 垂直于弦 DF"、"GE=10"），而不包含推理逻辑。
- 这些标注作为“视觉参考答案”，用于评估模型是否准确感知了图像内容。
视觉感知奖励机制（Visual Perception Reward）：
- 在 RLVR 训练过程中，除了传统的格式奖励（Format Reward）和答案准确性奖励（Accuracy Reward）外，引入视觉感知奖励（ $r_v$ ）。
- 评估过程：使用一个判断型 LLM（Judging LLM，如 Qwen2.5-32B）来对比模型生成的响应与提取的视觉标注。
- 奖励计算：如果模型响应中准确包含了视觉标注中的关键信息，则给予正向奖励。奖励公式为：
  $r_v(y_i, V) = \frac{\sum o_{i,j}}{m}$
  其中 $o_{i,j}$ 表示第 $j$ 个视觉标注是否被准确反映， $m$ 为标注总数。
综合奖励函数：
最终奖励函数结合了格式、准确性、感知奖励以及重复惩罚（Repetition Penalty）：
$r(y_i, a, V) = \alpha \cdot r_f + \beta \cdot r_a + \gamma \cdot r_v + r_p$
其中 $\gamma$ 控制感知奖励的权重。
训练算法：
采用 GRPO（Group Relative Policy Optimization）算法进行优化，通过组内相对优势来更新策略模型，无需额外的 Critic 模型。

3. 主要贡献

问题发现与验证：首次通过统计检验（McNemar 检验）量化并证实了现有“仅答案准确性”的 RLVR 方法无法显著提升 MLLM 的多模态感知能力，指出了当前推理模型发展的核心瓶颈。
提出 Perception-R1：设计了一种新颖的视觉感知奖励机制，显式地鼓励模型在推理前准确描述和感知视觉内容，有效缓解了感知奖励的稀疏性问题。
数据高效性：证明了通过引入感知奖励，仅需极少量的训练数据（1,442 条几何题）即可实现超越现有 SOTA 方法（如 Vision-R1 需 200K 数据，MM-Eureka 需 15K 数据）的性能。

4. 实验结果

作者在 8 个主流多模态基准（包括 MathVista, MathVerse, MMMU, MMStar 等）上进行了广泛实验，基座模型为 Qwen2.5-VL-7B-IT。

综合性能：Perception-R1 在所有基准测试中均取得了最佳或次佳性能。例如，在 MathVista testmini 上达到 74.2%（优于 Vision-R1 的 73.1% 和 MM-Eureka 的 72.5%），在 MMMU-Pro 上达到 42.4%。
感知能力提升：
- 在“仅视觉（Vision-Only）”子集上表现尤为突出，证明了感知能力的实质性增强。
- McNemar 检验显示，Perception-R1 训练后的模型在感知能力上与基线模型相比有统计学显著差异（p < 0.05），而传统 RLVR 训练模型则无显著差异。
数据效率：仅使用 1,442 条训练数据，性能超越了使用 200K 数据训练的 Vision-R1，数据效率提升了两个数量级。
消融实验：
- 移除视觉感知奖励或重复惩罚均导致性能下降，证明了各组件的必要性。
- 直接使用 MLLM 作为奖励模型（而非基于标注的 LLM 判断）会导致奖励欺骗（Reward Hacking），验证了构建可验证视觉标注的重要性。

5. 意义与影响

理论意义：揭示了多模态推理中“感知”与“推理”的解耦关系，指出单纯优化推理结果无法自动优化感知能力，必须引入针对感知的显式监督信号。
实践价值：提供了一种低成本、高效率的 MLLM 训练范式。通过引入视觉感知奖励，可以用极小的数据量显著提升模型在数学、科学等需要高精度视觉理解的领域表现。
未来方向：为后续研究指明了方向，即在 RLVR 框架中应更加重视多模态感知能力的构建，而非仅仅关注最终答案的正确性。

总结：Perception-R1 通过引入“视觉感知奖励”，成功解决了传统 RLVR 在多模态领域感知能力停滞不前的问题，以极小的数据成本实现了 MLLM 推理能力的全面飞跃，是迈向通用人工智能（AGI）的重要一步。

Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

1. 核心问题：学生“眼高手低”

2. 解决方案：Perception-R1（给“观察力”发奖金）

3. 具体怎么做？（三个步骤）

4. 效果如何？（少花钱，办大事）

总结

Perception-R1 技术总结

1. 研究背景与问题定义

2. 方法论：Perception-R1

核心组件与流程：

3. 主要贡献

4. 实验结果

5. 意义与影响

类似论文

When both Grounding and not Grounding are Bad -- A Partially Grounded Encoding of Planning into SAT (Extended Version)

Teaching an Agent to Sketch One Part at a Time

Learning to Disprove: Formal Counterexample Generation with Large Language Models

ItinBench: Benchmarking Planning Across Multiple Cognitive Dimensions with Large Language Models

PA2D-MORL: Pareto Ascent Directional Decomposition based Multi-Objective Reinforcement Learning