CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

该论文提出了一种名为 CoRPO 的新方法,通过引入正确性阈值截断基线来修正 GRPO 中因平均基线导致的错误优势高估问题,从而显著提升了大语言模型在强化学习中的泛化能力和跨领域推理表现。

Anisha Garg, Claire Zhang, Nishit Neema, David Bick, Ganesh Venkatesh, Joel Hestness

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CoRPO 的新方法,旨在改进大语言模型(LLM)在数学和编程等需要逻辑推理任务上的表现。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题或写代码

1. 背景:现在的老师(GRPO)是怎么教学生的?

目前,业界最流行的方法叫 GRPO(组相对策略优化)。它的教学逻辑是这样的:

  • 场景:老师给出一道题,让 AI 学生尝试生成 8 个不同的答案(这就叫“一组”)。
  • 打分:老师检查这 8 个答案,算出一个平均分
  • 奖励机制
    • 如果你的答案比这 8 个答案的平均分高,老师就给你加分(正奖励),鼓励你继续这样写。
    • 如果你的答案比平均分低,老师就给你减分(负奖励),让你改正。

听起来很公平,对吧?但这里有个大漏洞:

想象一下,今天这 8 个学生(AI 生成的 8 个答案)都没做对,大家全都在乱写。

  • 学生 A 写了个完全错误的乱码。
  • 学生 B 虽然也是错的,但稍微有点像人话(比 A 好一点点)。
  • 因为大家都不对,平均分可能是一个“非常差”的分数。
  • 这时候,学生 B 虽然本质上还是错的,但他比平均分高。于是,GRPO 老师会错误地给学生 B 加分,告诉他:“干得漂亮!继续保持这种写法!”

后果:AI 会误以为“稍微像人话的错误”就是对的,从而强化了错误的逻辑,导致它学歪了,而且很难举一反三(泛化能力差)。

2. 解决方案:CoRPO(带“及格线”的新老师)

这篇论文提出的 CoRPO,就是给这位老师加了一条铁律

“不管平均分多低,只要你的答案没达到‘及格线’(正确性阈值),就绝对不能给正分!”

CoRPO 的工作方式是这样的:

  • 它依然计算那 8 个答案的平均分。
  • 但是,它设定了一个最低及格线(比如 0 分,代表“基本正确”)。
  • 新的规则
    • 如果平均分低于及格线(说明大家普遍都错了),老师就强行把基准线拉到及格线
    • 这时候,所有没及格的错误答案,哪怕比平均分高,也拿不到正分,只能拿负分。
    • 只有真正达到或超过及格线的答案,才能开始和其他正确答案竞争,看谁写得更好。

3. 用比喻来理解

  • GRPO(旧方法):就像在一个全员不及格的班级里,老师选了一个“相对不那么差”的学生当班长,并奖励他。结果全班都以为“只要比烂好就行”,没人去追求真正的满分。
  • CoRPO(新方法):就像一位严格的教导主任。他规定:“不管班里其他人考多差,只要没及格,就一律批评,绝不表扬。”只有真正及格了,才允许进入“谁考得更好”的 PK 环节。

4. 这种方法带来了什么好处?

论文通过实验发现,CoRPO 训练出来的 AI 有两个显著优势:

  1. 不再“死记硬背”,而是真正“学会思考”

    • GRPO 训练的 AI 容易在训练数据上表现很好,但换个新题型(比如从编程题转到数学题)就傻了。
    • CoRPO 因为严格惩罚错误,强迫 AI 去探索真正正确的逻辑,而不是在错误的边缘试探。所以,用编程数据训练的 CoRPO 模型,去解数学题时,表现竟然比专门练过数学的 GRPO 模型还要好!这说明它学到了通用的推理能力
  2. 更稳健,不容易“走火入魔”

    • GRPO 容易让 AI 过早地锁定在某个看似不错但其实有缺陷的解法上(分布锐化)。
    • CoRPO 通过持续的“负向反馈”(惩罚错误),让 AI 保持探索,直到找到真正正确的路。

总结

简单来说,GRPO 是“比烂”,谁比平均水平强就夸谁,容易导致 AI 在错误的道路上越走越远;而 CoRPO 是“比及格”,不达标绝不表扬,只有真正做对了才允许竞争谁做得更好。

这种简单的“加一条及格线”的改动,就像给 AI 装上了一个正确的指南针,让它不仅能解决眼前的题目,还能把这种正确的思维方式迁移到从未见过的领域,变得真正聪明。