Each language version is independently generated for its own context, not a direct translation.
这篇论文探讨了一个在大语言模型(LLM)进行“强化学习”训练时非常棘手的问题:为什么模型学久了反而会变笨,或者变得“死板”?
为了让你轻松理解,我们可以把训练大模型想象成带着一群学生(模型)参加一场只有“最终答案”评分的考试。
1. 背景:现在的训练方法(组内比较)
现在的流行做法是“组内比较”(Intra-Group Learning)。
- 场景:老师给出一道数学题,让同一个学生(模型)尝试写出 8 种不同的解题过程(轨迹)。
- 评分:只有最后的答案对,这 8 种过程才给高分;答案错,全给低分。
- 学习逻辑:老师会对比这 8 种过程,告诉模型:“写答案 A 的那条路比写答案 B 的那条路好,你要多学学 A 里的写法。”
2. 问题:为什么学久了会出问题?
论文发现,虽然这种方法初期效果很好,但训练时间一长,模型就会出现三个“绝症”:
- 无效努力(学习税):模型拼命修改那些跟答案好坏完全无关的地方(比如标点符号、常用的连接词“因此”、“综上所述”),导致精力浪费。
- 概率漂移:模型开始“钻空子”,只保留一种固定的、看起来像正确答案的“套话”,而忽略了其他同样正确但写法不同的解法。
- 熵崩溃(死板):模型变得只会用一种固定的句式,失去了多样性,一旦遇到稍微变通的问题就答不上来。
核心原因是什么?
这就好比老师批改作业时,给每个步骤打分的方式不公平。
在传统的算法(如 GRPO, GSPO)中,给某个步骤(比如“因此”这个词)的权重,不仅取决于它本身写得好不好,还取决于整条解题路径的总长度或总概率。
- 比喻:这就好比两个学生,一个写了 10 步,一个写了 20 步。虽然他们在第 3 步都写了完全一样的“因此”,但因为总长度不同,算法给这个“因此”赋予的“功劳”或“惩罚”就不同。
- 后果:当模型试图学习时,它发现“因此”这个词在不同路径里受到的“待遇”不一样。于是,模型就开始胡乱修改这些通用词,试图去迎合那个不公平的评分标准,而不是去修正真正的逻辑错误。这就是梯度抵消失效(Gradient Cancellation Failure)。
3. 核心发现:必须满足的“公平条件”
论文提出了一个设计原则:在组内比较时,对于相同的通用步骤(比如大家都用的“因此”),算法必须保证它们受到的“奖惩”是完全对称的,能够互相抵消。
- 理想状态:如果 8 个学生都在第 3 步写了“因此”,而“因此”这个词跟答案对错没关系。那么,这 8 个“因此”带来的修改信号应该正负抵消,总和为零。这样模型就不会瞎改这个词了。
- 现实问题:现有的算法因为引入了复杂的“序列耦合”(把整条路的分数乘在一起),导致这个抵消机制失效了。就像 8 个人推一辆车,本来应该有人推有人拉,力互相抵消,结果因为每个人推的力大小不一样(受整条路影响),导致车被推向了错误的方向。
4. 解决方案:DFPO(漂移修复策略优化)
为了解决这个问题,作者提出了两个简单的“修正器”(Transformations),就像给老师发了一把公平的尺子:
方法一:取最小值(Min-Replace)
- 做法:在这一组 8 个学生中,找出那个“整体表现最保守”的分数,然后强制让这 8 个学生都按这个最保守的标准来算分。
- 比喻:不管谁写得多长、多复杂,大家都按“最简版”的标准来评价。这样,那些因为路径长短不同而产生的“额外奖惩”就被抹平了。大家回到同一起跑线,通用的词(如“因此”)就不会再因为路径不同而被乱改。
方法二:正交投影(Orth-Proj)
- 做法:通过数学计算,强行把“路径分数”和“答案好坏”之间的错误关联切断,确保它们互不干扰。
- 比喻:就像把“路径长度”这个干扰项从评分表里直接剔除,只保留“答案对错”这个核心指标。
5. 结果:发生了什么变化?
实验证明,用了这两个修正器后:
- 更稳了:训练曲线不再剧烈震荡,模型不会忽高忽低。
- 更高效了:用同样的算力,模型能更快达到高分。
- 更强了:最终在数学和代码任务上的表现更好,而且模型没有变得死板,依然保留了多种解题思路。
总结
这篇论文就像给大模型训练领域的一剂**“纠偏药”**。
它告诉我们:以前我们以为模型学不好是因为题目太难或奖励太少,其实是因为评分规则本身有结构性的缺陷(让无关的步骤承担了错误的责任)。
通过强制让组内相同步骤的评分“互相抵消”,我们消除了那些让模型“瞎忙活”的噪音,让模型能真正专注于学习那些真正决定答案对错的关键逻辑。这就好比老师不再因为学生写字多就加分,而是只盯着解题思路对不对,学生自然就能学得更快、更准、更稳。
您所在领域的论文太多了?
获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。