Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一种名为 CoRPO 的新方法,旨在改进大语言模型(LLM)在数学和编程等需要逻辑推理任务上的表现。
为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题或写代码。
1. 背景:现在的老师(GRPO)是怎么教学生的?
目前,业界最流行的方法叫 GRPO(组相对策略优化)。它的教学逻辑是这样的:
- 场景:老师给出一道题,让 AI 学生尝试生成 8 个不同的答案(这就叫“一组”)。
- 打分:老师检查这 8 个答案,算出一个平均分。
- 奖励机制:
- 如果你的答案比这 8 个答案的平均分高,老师就给你加分(正奖励),鼓励你继续这样写。
- 如果你的答案比平均分低,老师就给你减分(负奖励),让你改正。
听起来很公平,对吧?但这里有个大漏洞:
想象一下,今天这 8 个学生(AI 生成的 8 个答案)都没做对,大家全都在乱写。
- 学生 A 写了个完全错误的乱码。
- 学生 B 虽然也是错的,但稍微有点像人话(比 A 好一点点)。
- 因为大家都不对,平均分可能是一个“非常差”的分数。
- 这时候,学生 B 虽然本质上还是错的,但他比平均分高。于是,GRPO 老师会错误地给学生 B 加分,告诉他:“干得漂亮!继续保持这种写法!”
后果:AI 会误以为“稍微像人话的错误”就是对的,从而强化了错误的逻辑,导致它学歪了,而且很难举一反三(泛化能力差)。
2. 解决方案:CoRPO(带“及格线”的新老师)
这篇论文提出的 CoRPO,就是给这位老师加了一条铁律:
“不管平均分多低,只要你的答案没达到‘及格线’(正确性阈值),就绝对不能给正分!”
CoRPO 的工作方式是这样的:
- 它依然计算那 8 个答案的平均分。
- 但是,它设定了一个最低及格线(比如 0 分,代表“基本正确”)。
- 新的规则:
- 如果平均分低于及格线(说明大家普遍都错了),老师就强行把基准线拉到及格线。
- 这时候,所有没及格的错误答案,哪怕比平均分高,也拿不到正分,只能拿负分。
- 只有真正达到或超过及格线的答案,才能开始和其他正确答案竞争,看谁写得更好。
3. 用比喻来理解
- GRPO(旧方法):就像在一个全员不及格的班级里,老师选了一个“相对不那么差”的学生当班长,并奖励他。结果全班都以为“只要比烂好就行”,没人去追求真正的满分。
- CoRPO(新方法):就像一位严格的教导主任。他规定:“不管班里其他人考多差,只要没及格,就一律批评,绝不表扬。”只有真正及格了,才允许进入“谁考得更好”的 PK 环节。
4. 这种方法带来了什么好处?
论文通过实验发现,CoRPO 训练出来的 AI 有两个显著优势:
不再“死记硬背”,而是真正“学会思考”:
- GRPO 训练的 AI 容易在训练数据上表现很好,但换个新题型(比如从编程题转到数学题)就傻了。
- CoRPO 因为严格惩罚错误,强迫 AI 去探索真正正确的逻辑,而不是在错误的边缘试探。所以,用编程数据训练的 CoRPO 模型,去解数学题时,表现竟然比专门练过数学的 GRPO 模型还要好!这说明它学到了通用的推理能力。
更稳健,不容易“走火入魔”:
- GRPO 容易让 AI 过早地锁定在某个看似不错但其实有缺陷的解法上(分布锐化)。
- CoRPO 通过持续的“负向反馈”(惩罚错误),让 AI 保持探索,直到找到真正正确的路。
总结
简单来说,GRPO 是“比烂”,谁比平均水平强就夸谁,容易导致 AI 在错误的道路上越走越远;而 CoRPO 是“比及格”,不达标绝不表扬,只有真正做对了才允许竞争谁做得更好。
这种简单的“加一条及格线”的改动,就像给 AI 装上了一个正确的指南针,让它不仅能解决眼前的题目,还能把这种正确的思维方式迁移到从未见过的领域,变得真正聪明。
Each language version is independently generated for its own context, not a direct translation.
这篇论文提出了一种名为 CoRPO (Correctness-Relative Policy Optimization) 的新方法,旨在解决当前大语言模型(LLM)强化学习推理训练中的核心缺陷,并显著提升模型的泛化能力。
以下是对该论文的详细技术总结:
1. 研究背景与问题定义 (Problem)
背景:
在具有可验证奖励(如数学解题、代码生成)的任务中,组相对策略优化 (GRPO) 已成为强化学习(RLVR)的标准算法。GRPO 通过计算一组采样轨迹的平均奖励作为基线(Baseline),替代了传统的、计算昂贵的学习价值函数(Critic),从而实现了高效的扩展。
核心问题:
尽管 GRPO 在实践中取得了成功,但作者指出了其基线构建的两个根本性缺陷,导致模型容易过拟合且泛化能力差:
- 优势估计过高 (Advantage Overestimation):
GRPO 使用小样本(通常 4-16 个)的均值来估计期望奖励。由于采样方差,样本均值经常低于真实期望值。这会导致即使表现平庸甚至次优的轨迹,也会因为“优于组内平均水平”而获得被高估的正向优势(Positive Advantage),从而引发过于激进的策略更新。
- 错误轨迹获得正向奖励 (Sign Inversion for Failed Trajectories):
在序数奖励(Ordinal Rewards,如评分制)或奖励未校准的场景下(例如使用 LLM 作为裁判),如果组内所有轨迹都表现不佳(即大部分是错误答案),GRPO 的组均值基线会是一个负值。此时,那些“虽然错误但比其他错误稍好”的轨迹,其奖励会高于组均值,从而获得正向优势。
- 后果: 这直接强化了错误的行为模式,违背了“只有正确答案才应被强化”的基本学习信号,导致模型过早收敛于局部最优(分布锐化,Distribution Sharpening),损害了跨域泛化能力。
2. 方法论:CoRPO (Methodology)
为了解决上述问题,作者提出了 CoRPO。其核心思想是对 GRPO 的基线进行简单的截断(Clipping),引入一个“正确性偏差”。
核心机制:
CoRPO 定义了一个最小正确性阈值 Rmin_correct(通常设为 0,代表“及格线”)。新的基线 bCoRPO 计算如下:
bCoRPO=max(Rmin_correct,bmean)
其中 bmean 是 GRPO 的原始组均值。
工作原理的两个阶段:
- 寻求正确性阶段 (Correctness-Seeking Regime):
- 当策略表现较差,组平均奖励 bmean<Rmin_correct 时,基线被强制固定在 Rmin_correct。
- 效果: 任何低于正确阈值的轨迹(即错误轨迹),其优势 A(y)=R(y)−bCoRPO 必然为负。这彻底消除了错误轨迹获得正向优势的可能性,确保模型只通过“负向强化”来抑制错误行为,而不是通过“正向强化”来奖励次优行为。
- 寻求质量阶段 (Quality-Seeking Regime):
- 当策略表现良好,组平均奖励 bmean≥Rmin_correct 时,基线恢复为 bmean。
- 效果: 此时 CoRPO 退化为标准的 GRPO,在正确轨迹内部进行相对竞争,鼓励模型从“正确”向“更优”进化。
理论优势:
- 防止优势高估: 通过向上截断基线,减少了因采样方差导致的优势高估。
- 保护性偏差: 引入了一种保护性偏差,优先抑制错误行为,而非盲目奖励相对较好的错误。
- 计算效率: 仅增加了一个
max 操作,保留了 GRPO 无需训练 Critic 的高效性。
3. 主要贡献 (Key Contributions)
- 理论分析: 首次系统性地识别并分析了 GRPO 在 RLVR 设置下的两种失效模式:由组内方差引起的优势高估,以及在序数奖励下对错误轨迹的符号反转(即错误轨迹获得正向优势)。
- 算法创新: 提出了 CoRPO,一种极简的基线修改方案。它通过引入正确性阈值,在保持 GRPO 计算效率的同时,解决了上述两个关键问题。
- 实证验证: 证明了 CoRPO 显著提升了模型的跨域泛化能力(Out-of-Domain, OOD)。CoRPO 训练的模型在代码任务上训练,能在数学任务上表现更好,反之亦然,表明其学习到了鲁棒的推理模式而非特定领域的启发式规则。
4. 实验结果 (Results)
作者在 Qwen3-8B 模型上,针对代码生成和数学推理任务进行了实验,对比了 GRPO 和 CoRPO。
- 跨域泛化 (Cross-Domain Generalization):
- 在代码任务上训练,CoRPO 在数学 OOD 测试集上的表现(Pass@16: 90.1%)优于 GRPO (88.8%)。
- 在数学任务上训练,CoRPO 在代码 OOD 测试集上同样表现更佳。
- 这表明 CoRPO 学习到了可迁移的推理逻辑,而 GRPO 容易过拟合训练分布。
- 训练动态分析:
- 负向强化主导: CoRPO 在训练早期主要依赖负向强化(抑制错误),而 GRPO 则同时从正负优势中学习,导致早期过早利用(Premature Exploitation)。
- 隐式课程学习 (Implicit Curriculum): CoRPO 在训练初期对高难度任务进步较慢(因为严格抑制错误),但随着训练进行,其性能稳步提升并最终超越 GRPO,特别是在困难样本上。这模拟了一种“先求对,再求优”的课程学习过程。
- 分布锐化缓解: GRPO 倾向于集中概率质量于少数高概率解(分布锐化),而 CoRPO 保持了更均匀的探索,避免了多样性丧失。
- 鲁棒性: 即使在极小的组大小(n=4)下,CoRPO 依然能迅速超越 GRPO,证明其在高方差采样下的稳定性。
5. 意义与影响 (Significance)
- 重新定义 RLVR 基线: 论文指出,在具有客观正确性信号的任务中,基线不应仅仅是“相对同伴的排名”,而必须包含“绝对正确性”的约束。
- 解决 LLM 推理的过拟合痛点: 通过强制错误轨迹获得负向优势,CoRPO 有效防止了模型“学会”错误的推理路径,这对于提升 LLM 在复杂推理任务中的可靠性至关重要。
- 通用性: 该方法简单、计算开销极低,且不需要额外的价值函数训练,易于集成到现有的 RLHF/RLVR 框架中。
- 未来方向: 为构建更鲁棒、泛化能力更强的推理模型提供了新的优化目标视角,即“正确性优先于相对排名”。
总结:
CoRPO 通过一个简单的基线截断操作,修正了 GRPO 在强化学习推理训练中的根本缺陷。它确保了模型在探索过程中不会因“相对较好”的错误而获得奖励,从而引导模型学习更本质、更通用的推理能力,显著提升了跨领域的泛化性能。