CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 CoRPO 的新方法，旨在改进大语言模型（LLM）在数学和编程等需要逻辑推理任务上的表现。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生做数学题或写代码。

1. 背景：现在的老师（GRPO）是怎么教学生的？

目前，业界最流行的方法叫 GRPO（组相对策略优化）。它的教学逻辑是这样的：

场景：老师给出一道题，让 AI 学生尝试生成 8 个不同的答案（这就叫“一组”）。
打分：老师检查这 8 个答案，算出一个平均分。
奖励机制：
- 如果你的答案比这 8 个答案的平均分高，老师就给你加分（正奖励），鼓励你继续这样写。
- 如果你的答案比平均分低，老师就给你减分（负奖励），让你改正。

听起来很公平，对吧？但这里有个大漏洞：

想象一下，今天这 8 个学生（AI 生成的 8 个答案）都没做对，大家全都在乱写。

学生 A 写了个完全错误的乱码。
学生 B 虽然也是错的，但稍微有点像人话（比 A 好一点点）。
因为大家都不对，平均分可能是一个“非常差”的分数。
这时候，学生 B 虽然本质上还是错的，但他比平均分高。于是，GRPO 老师会错误地给学生 B 加分，告诉他：“干得漂亮！继续保持这种写法！”

后果：AI 会误以为“稍微像人话的错误”就是对的，从而强化了错误的逻辑，导致它学歪了，而且很难举一反三（泛化能力差）。

2. 解决方案：CoRPO（带“及格线”的新老师）

这篇论文提出的 CoRPO，就是给这位老师加了一条铁律：

“不管平均分多低，只要你的答案没达到‘及格线’（正确性阈值），就绝对不能给正分！”

CoRPO 的工作方式是这样的：

它依然计算那 8 个答案的平均分。
但是，它设定了一个最低及格线（比如 0 分，代表“基本正确”）。
新的规则：
- 如果平均分低于及格线（说明大家普遍都错了），老师就强行把基准线拉到及格线。
- 这时候，所有没及格的错误答案，哪怕比平均分高，也拿不到正分，只能拿负分。
- 只有真正达到或超过及格线的答案，才能开始和其他正确答案竞争，看谁写得更好。

3. 用比喻来理解

GRPO（旧方法）：就像在一个全员不及格的班级里，老师选了一个“相对不那么差”的学生当班长，并奖励他。结果全班都以为“只要比烂好就行”，没人去追求真正的满分。
CoRPO（新方法）：就像一位严格的教导主任。他规定：“不管班里其他人考多差，只要没及格，就一律批评，绝不表扬。”只有真正及格了，才允许进入“谁考得更好”的 PK 环节。

4. 这种方法带来了什么好处？

论文通过实验发现，CoRPO 训练出来的 AI 有两个显著优势：

不再“死记硬背”，而是真正“学会思考”：
- GRPO 训练的 AI 容易在训练数据上表现很好，但换个新题型（比如从编程题转到数学题）就傻了。
- CoRPO 因为严格惩罚错误，强迫 AI 去探索真正正确的逻辑，而不是在错误的边缘试探。所以，用编程数据训练的 CoRPO 模型，去解数学题时，表现竟然比专门练过数学的 GRPO 模型还要好！这说明它学到了通用的推理能力。
更稳健，不容易“走火入魔”：
- GRPO 容易让 AI 过早地锁定在某个看似不错但其实有缺陷的解法上（分布锐化）。
- CoRPO 通过持续的“负向反馈”（惩罚错误），让 AI 保持探索，直到找到真正正确的路。

总结

简单来说，GRPO 是“比烂”，谁比平均水平强就夸谁，容易导致 AI 在错误的道路上越走越远；而 CoRPO 是“比及格”，不达标绝不表扬，只有真正做对了才允许竞争谁做得更好。

这种简单的“加一条及格线”的改动，就像给 AI 装上了一个正确的指南针，让它不仅能解决眼前的题目，还能把这种正确的思维方式迁移到从未见过的领域，变得真正聪明。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 CoRPO (Correctness-Relative Policy Optimization) 的新方法，旨在解决当前大语言模型（LLM）强化学习推理训练中的核心缺陷，并显著提升模型的泛化能力。

以下是对该论文的详细技术总结：

1. 研究背景与问题定义 (Problem)

背景：
在具有可验证奖励（如数学解题、代码生成）的任务中，组相对策略优化 (GRPO) 已成为强化学习（RLVR）的标准算法。GRPO 通过计算一组采样轨迹的平均奖励作为基线（Baseline），替代了传统的、计算昂贵的学习价值函数（Critic），从而实现了高效的扩展。

核心问题：
尽管 GRPO 在实践中取得了成功，但作者指出了其基线构建的两个根本性缺陷，导致模型容易过拟合且泛化能力差：

优势估计过高 (Advantage Overestimation)：
GRPO 使用小样本（通常 4-16 个）的均值来估计期望奖励。由于采样方差，样本均值经常低于真实期望值。这会导致即使表现平庸甚至次优的轨迹，也会因为“优于组内平均水平”而获得被高估的正向优势（Positive Advantage），从而引发过于激进的策略更新。
错误轨迹获得正向奖励 (Sign Inversion for Failed Trajectories)：
在序数奖励（Ordinal Rewards，如评分制）或奖励未校准的场景下（例如使用 LLM 作为裁判），如果组内所有轨迹都表现不佳（即大部分是错误答案），GRPO 的组均值基线会是一个负值。此时，那些“虽然错误但比其他错误稍好”的轨迹，其奖励会高于组均值，从而获得正向优势。
- 后果： 这直接强化了错误的行为模式，违背了“只有正确答案才应被强化”的基本学习信号，导致模型过早收敛于局部最优（分布锐化，Distribution Sharpening），损害了跨域泛化能力。

2. 方法论：CoRPO (Methodology)

为了解决上述问题，作者提出了 CoRPO。其核心思想是对 GRPO 的基线进行简单的截断（Clipping），引入一个“正确性偏差”。

核心机制：
CoRPO 定义了一个最小正确性阈值 $R_{min\_correct}$ （通常设为 0，代表“及格线”）。新的基线 $b_{CoRPO}$ 计算如下：
$b_{CoRPO} = \max(R_{min\_correct}, b_{mean})$
其中 $b_{mean}$ 是 GRPO 的原始组均值。

工作原理的两个阶段：

寻求正确性阶段 (Correctness-Seeking Regime)：
- 当策略表现较差，组平均奖励 $b_{mean} < R_{min\_correct}$ 时，基线被强制固定在 $R_{min\_correct}$ 。
- 效果： 任何低于正确阈值的轨迹（即错误轨迹），其优势 $A(y) = R(y) - b_{CoRPO}$ 必然为负。这彻底消除了错误轨迹获得正向优势的可能性，确保模型只通过“负向强化”来抑制错误行为，而不是通过“正向强化”来奖励次优行为。
寻求质量阶段 (Quality-Seeking Regime)：
- 当策略表现良好，组平均奖励 $b_{mean} \ge R_{min\_correct}$ 时，基线恢复为 $b_{mean}$ 。
- 效果： 此时 CoRPO 退化为标准的 GRPO，在正确轨迹内部进行相对竞争，鼓励模型从“正确”向“更优”进化。

理论优势：

防止优势高估： 通过向上截断基线，减少了因采样方差导致的优势高估。
保护性偏差： 引入了一种保护性偏差，优先抑制错误行为，而非盲目奖励相对较好的错误。
计算效率： 仅增加了一个 max 操作，保留了 GRPO 无需训练 Critic 的高效性。

3. 主要贡献 (Key Contributions)

理论分析： 首次系统性地识别并分析了 GRPO 在 RLVR 设置下的两种失效模式：由组内方差引起的优势高估，以及在序数奖励下对错误轨迹的符号反转（即错误轨迹获得正向优势）。
算法创新： 提出了 CoRPO，一种极简的基线修改方案。它通过引入正确性阈值，在保持 GRPO 计算效率的同时，解决了上述两个关键问题。
实证验证： 证明了 CoRPO 显著提升了模型的跨域泛化能力（Out-of-Domain, OOD）。CoRPO 训练的模型在代码任务上训练，能在数学任务上表现更好，反之亦然，表明其学习到了鲁棒的推理模式而非特定领域的启发式规则。

4. 实验结果 (Results)

作者在 Qwen3-8B 模型上，针对代码生成和数学推理任务进行了实验，对比了 GRPO 和 CoRPO。

跨域泛化 (Cross-Domain Generalization)：
- 在代码任务上训练，CoRPO 在数学 OOD 测试集上的表现（Pass@16: 90.1%）优于 GRPO (88.8%)。
- 在数学任务上训练，CoRPO 在代码 OOD 测试集上同样表现更佳。
- 这表明 CoRPO 学习到了可迁移的推理逻辑，而 GRPO 容易过拟合训练分布。
训练动态分析：
- 负向强化主导： CoRPO 在训练早期主要依赖负向强化（抑制错误），而 GRPO 则同时从正负优势中学习，导致早期过早利用（Premature Exploitation）。
- 隐式课程学习 (Implicit Curriculum)： CoRPO 在训练初期对高难度任务进步较慢（因为严格抑制错误），但随着训练进行，其性能稳步提升并最终超越 GRPO，特别是在困难样本上。这模拟了一种“先求对，再求优”的课程学习过程。
- 分布锐化缓解： GRPO 倾向于集中概率质量于少数高概率解（分布锐化），而 CoRPO 保持了更均匀的探索，避免了多样性丧失。
鲁棒性： 即使在极小的组大小（n=4）下，CoRPO 依然能迅速超越 GRPO，证明其在高方差采样下的稳定性。

5. 意义与影响 (Significance)

重新定义 RLVR 基线： 论文指出，在具有客观正确性信号的任务中，基线不应仅仅是“相对同伴的排名”，而必须包含“绝对正确性”的约束。
解决 LLM 推理的过拟合痛点： 通过强制错误轨迹获得负向优势，CoRPO 有效防止了模型“学会”错误的推理路径，这对于提升 LLM 在复杂推理任务中的可靠性至关重要。
通用性： 该方法简单、计算开销极低，且不需要额外的价值函数训练，易于集成到现有的 RLHF/RLVR 框架中。
未来方向： 为构建更鲁棒、泛化能力更强的推理模型提供了新的优化目标视角，即“正确性优先于相对排名”。

总结：
CoRPO 通过一个简单的基线截断操作，修正了 GRPO 在强化学习推理训练中的根本缺陷。它确保了模型在探索过程中不会因“相对较好”的错误而获得奖励，从而引导模型学习更本质、更通用的推理能力，显著提升了跨领域的泛化性能。

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

1. 背景：现在的老师（GRPO）是怎么教学生的？

2. 解决方案：CoRPO（带“及格线”的新老师）

3. 用比喻来理解

4. 这种方法带来了什么好处？

总结

1. 研究背景与问题定义 (Problem)

2. 方法论：CoRPO (Methodology)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization