DRA-GRPO: Your GRPO Needs to Know Diverse Reasoning Paths for Mathematical Reasoning

本文提出了多样性感知奖励调整(DRA)框架,通过利用子模互信息校准奖励信号以解决标准 GRPO 在数学推理中因奖励非单射导致的多样性与质量不一致问题,从而在少量数据下显著提升了模型的推理性能。

Xiwen Chen, Wenhui Zhu, Peijie Qiu, Xuanzhao Dong, Hao Wang, Haiyu Wu, Huayu Li, Aristeidis Sotiras, Yalin Wang, Abolfazl Razi

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何教人工智能(AI)更好地“思考”数学问题的故事。为了让你更容易理解,我们可以把训练 AI 的过程想象成教一群学生参加数学竞赛

1. 现状:传统的“只问结果”教学法

以前,我们训练 AI 做数学题(使用一种叫 GRPO 的方法),就像一位只看分数的严厉老师

  • 怎么教? 老师给学生出 10 道题,学生做完后,老师只检查答案对不对
  • 问题出在哪? 如果两个学生都算出了正确答案,哪怕一个学生是“死记硬背”套公式,另一个学生是“灵光一闪”用了非常巧妙的独特解法,老师给他们的奖励(分数)是一模一样的
  • 后果: 学生们发现,只要答案对就行,没必要费脑子想新招。于是,所有学生都倾向于模仿那个“最容易、最常用”的解题套路。这就导致了**“模式坍塌”**:大家的答案都长得一样,虽然都对,但思维变得非常单一、僵化。这就好比全班同学解题都只会用同一种笨办法,一旦遇到变通题就全挂了。

2. 核心发现:多样性与质量的“不匹配”

作者发现了一个大问题:“多样性 - 质量不一致” (Diversity-Quality Inconsistency)

  • 比喻: 想象你在一个满是宝藏的岛上(正确答案的集合)。传统的老师只告诉你“宝藏在这里”,但没告诉你宝藏周围其实有很多不同的路径可以到达。结果,所有人都挤在一条最宽、最好走的主干道上(主流解法),而旁边那些虽然难走但风景更好、甚至可能有更多宝藏的小路(新颖解法)却没人去探索。
  • 数据证明: 作者做了实验,发现两个思维过程完全不同(一个像闲聊式思考,一个像严谨推导)但答案正确的解题过程,得到的奖励分数竟然几乎一样。这说明奖励机制“瞎”了,看不见思维过程的差异。

3. 解决方案:DRA-GRPO(给“多样性”发奖金)

为了解决这个问题,作者提出了一种新方法叫 DRA-GRPO

  • 核心思想: 老师不仅要看答案对不对,还要看你的解题思路是不是“撞车”了
  • 怎么操作?
    • 老师会同时看一组学生的答案。
    • 如果某个学生的解题思路和组里其他人太像了(比如大家都用了同一种死板套路),老师就会扣掉一点奖励(因为这种思路太普通,没新意)。
    • 如果某个学生的解题思路很独特,跟别人都不一样,老师就会额外奖励他(哪怕大家答案都对)。
  • 技术原理(简单版): 他们用了一种叫“子模互信息”(SMI)的数学工具,就像给每个学生的答案拍个“指纹”。如果指纹跟别人重复太多,就降低权重;如果指纹很独特,就放大权重。这就像给那些敢于走“小路”的学生发奖金,鼓励他们去探索。

4. 效果:少花钱,办大事

  • 实验结果: 作者用这个方法训练了一个只有 15 亿参数的小模型(相当于一个很聪明的初中生),只用了7000 道题(别人可能需要 4 万道),就取得了非常惊人的成绩。
  • 成本: 训练成本只要55 美元(大概一杯咖啡钱),就能让模型在数学竞赛中表现优异。
  • 意义: 这证明了,只要让 AI 学会欣赏“不同的思考方式”,它就能用更少的数据、更低的成本,变得更强、更灵活。

总结

这篇论文就像给 AI 教育界开了一剂良药:
别再只盯着“标准答案”了,要鼓励“独特的解题思路”。
通过给“与众不同”的正确答案发额外奖金,我们成功地把 AI 从“只会死记硬背的复读机”变成了“善于多角度思考的聪明学生”。这不仅让 AI 更聪明,还大大节省了训练成本。