Perception-R1: Advancing Multimodal Reasoning Capabilities of MLLMs via Visual Perception Reward

该论文提出了 Perception-R1 方法,通过引入基于视觉感知一致性的新型奖励机制,有效解决了现有强化学习范式难以提升多模态大模型感知能力的问题,从而显著增强了其多模态推理性能。

Tong Xiao, Xin Xu, Zhenya Huang, Hongyu Gao, Quan Liu, Qi Liu, Enhong Chen

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Perception-R1 的新方法,旨在让多模态大语言模型(MLLMs,即能看懂图、能读文字的 AI)变得更聪明。

为了让你轻松理解,我们可以把 AI 想象成一个正在备考的“天才学生”

1. 核心问题:学生“眼高手低”

在这个故事里,现有的 AI 模型(比如 Qwen2.5-VL)就像是一个记忆力超群但观察力很差的学生

  • 现状:以前的训练方法(称为 RLVR,就像只根据考试最终分数来奖励学生)告诉学生:“只要答案对了,就是好样的!”
  • 问题:这就导致了一个奇怪的现象。学生可能根本没看清题目里的图(比如把“圆”看成了“方”,或者漏掉了关键的“垂直”符号),但他通过瞎猜、死记硬背或者逻辑推理,碰巧算出了正确答案。
  • 后果:因为最终答案对了,系统就给他发糖(奖励)。结果,学生发现:“原来我不需要认真看图,只要蒙对答案就行!”于是,他的观察能力(感知能力) 不仅没进步,反而因为缺乏训练而停滞不前。这就好比一个厨师,不管切菜切得乱七八糟,只要最后端出来的菜味道对了,老板就夸他,那他永远学不会把菜切好。

2. 解决方案:Perception-R1(给“观察力”发奖金)

作者们发现,“看图”是“解题”的地基。如果地基不稳(看错图),楼盖得再高(推理再强)也会塌。

于是,他们提出了 Perception-R1,给这个“学生”制定了一套新的奖励规则

  • 以前的规则:只看最终答案对不对。
  • 现在的规则(Perception-R1)
    1. 先描述,后解题:在解题之前,学生必须先像“解说员”一样,把图里看到了什么(比如:这是一个半径为 26 的圆,弦 AC 和 DF 距离圆心相等)清楚地描述出来。
    2. 双重打分
      • 答案分:最后算出的数字对不对?
      • 观察分(新增加的!):你刚才描述的图,和图里的真实情况一致吗?如果你把“垂直”看成了“平行”,哪怕你最后答案蒙对了,观察分也会扣光,甚至没有奖励。

3. 具体怎么做?(三个步骤)

为了让这个新规则生效,作者们设计了一个聪明的流程:

  1. 找“标准答案”作为参考:他们先让一个超级厉害的 AI(比如 Gemini)去解题,并把这些解题过程中对图片的准确描述提取出来,作为“标准观察笔记”。
  2. 请“监考老师”打分:在训练过程中,当学生(被训练的 AI)开始解题时,会请一位“监考老师”(另一个大语言模型)来检查。
    • 老师会对比:“学生说的‘图中有个直角’,和‘标准笔记’里的一致吗?”
    • 如果一致,就给观察分;如果不一致,就不给分。
  3. 强化训练:把“答案分”和“观察分”加在一起,作为最终的奖励。这样,学生为了拿高分,就被迫必须学会认真看图,准确描述,而不仅仅是瞎猜答案。

4. 效果如何?(少花钱,办大事)

这个新方法的效果非常惊人,可以用两个词概括:高效精准

  • 数据量极少:以前的方法可能需要几十万甚至上百万张图来训练(就像让学生刷完整个图书馆的题)。而 Perception-R1 只需要 1,442 道 几何题(就像只做了 10 本练习册),就能达到甚至超过那些“题海战术”训练出来的模型的效果。
  • 能力全面:经过这种训练,AI 不仅解题更准了,而且看图更仔细了。在那些必须完全依赖看图才能做的题目(比如“图中哪个角是直角?”)上,它的表现突飞猛进。

总结

Perception-R1 的核心思想就是:不要只奖励结果,要奖励过程,尤其是“观察”这个过程。

它就像是一位高明的教练,不再只盯着运动员冲过终点的秒表(最终答案),而是开始纠正运动员的起跑姿势和跑步动作(视觉感知)。只有动作标准了,成绩才能稳定且长久地提高。

这篇论文告诉我们,想要让 AI 真正具备像人类一样的“智慧”,光让它“会算”是不够的,还得先让它“会看”。