Design Conditions for Intra-Group Learning of Sequence-Level Rewards: Token Gradient Cancellation

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大语言模型（LLM）进行“强化学习”训练时非常棘手的问题：为什么模型学久了反而会变笨，或者变得“死板”？

为了让你轻松理解，我们可以把训练大模型想象成带着一群学生（模型）参加一场只有“最终答案”评分的考试。

1. 背景：现在的训练方法（组内比较）

现在的流行做法是“组内比较”（Intra-Group Learning）。

场景：老师给出一道数学题，让同一个学生（模型）尝试写出 8 种不同的解题过程（轨迹）。
评分：只有最后的答案对，这 8 种过程才给高分；答案错，全给低分。
学习逻辑：老师会对比这 8 种过程，告诉模型：“写答案 A 的那条路比写答案 B 的那条路好，你要多学学 A 里的写法。”

2. 问题：为什么学久了会出问题？

论文发现，虽然这种方法初期效果很好，但训练时间一长，模型就会出现三个“绝症”：

无效努力（学习税）：模型拼命修改那些跟答案好坏完全无关的地方（比如标点符号、常用的连接词“因此”、“综上所述”），导致精力浪费。
概率漂移：模型开始“钻空子”，只保留一种固定的、看起来像正确答案的“套话”，而忽略了其他同样正确但写法不同的解法。
熵崩溃（死板）：模型变得只会用一种固定的句式，失去了多样性，一旦遇到稍微变通的问题就答不上来。

核心原因是什么？
这就好比老师批改作业时，给每个步骤打分的方式不公平。
在传统的算法（如 GRPO, GSPO）中，给某个步骤（比如“因此”这个词）的权重，不仅取决于它本身写得好不好，还取决于整条解题路径的总长度或总概率。

比喻：这就好比两个学生，一个写了 10 步，一个写了 20 步。虽然他们在第 3 步都写了完全一样的“因此”，但因为总长度不同，算法给这个“因此”赋予的“功劳”或“惩罚”就不同。
后果：当模型试图学习时，它发现“因此”这个词在不同路径里受到的“待遇”不一样。于是，模型就开始胡乱修改这些通用词，试图去迎合那个不公平的评分标准，而不是去修正真正的逻辑错误。这就是梯度抵消失效（Gradient Cancellation Failure）。

3. 核心发现：必须满足的“公平条件”

论文提出了一个设计原则：在组内比较时，对于相同的通用步骤（比如大家都用的“因此”），算法必须保证它们受到的“奖惩”是完全对称的，能够互相抵消。

理想状态：如果 8 个学生都在第 3 步写了“因此”，而“因此”这个词跟答案对错没关系。那么，这 8 个“因此”带来的修改信号应该正负抵消，总和为零。这样模型就不会瞎改这个词了。
现实问题：现有的算法因为引入了复杂的“序列耦合”（把整条路的分数乘在一起），导致这个抵消机制失效了。就像 8 个人推一辆车，本来应该有人推有人拉，力互相抵消，结果因为每个人推的力大小不一样（受整条路影响），导致车被推向了错误的方向。

4. 解决方案：DFPO（漂移修复策略优化）

为了解决这个问题，作者提出了两个简单的“修正器”（Transformations），就像给老师发了一把公平的尺子：

方法一：取最小值（Min-Replace）
- 做法：在这一组 8 个学生中，找出那个“整体表现最保守”的分数，然后强制让这 8 个学生都按这个最保守的标准来算分。
- 比喻：不管谁写得多长、多复杂，大家都按“最简版”的标准来评价。这样，那些因为路径长短不同而产生的“额外奖惩”就被抹平了。大家回到同一起跑线，通用的词（如“因此”）就不会再因为路径不同而被乱改。
方法二：正交投影（Orth-Proj）
- 做法：通过数学计算，强行把“路径分数”和“答案好坏”之间的错误关联切断，确保它们互不干扰。
- 比喻：就像把“路径长度”这个干扰项从评分表里直接剔除，只保留“答案对错”这个核心指标。

5. 结果：发生了什么变化？

实验证明，用了这两个修正器后：

更稳了：训练曲线不再剧烈震荡，模型不会忽高忽低。
更高效了：用同样的算力，模型能更快达到高分。
更强了：最终在数学和代码任务上的表现更好，而且模型没有变得死板，依然保留了多种解题思路。

总结

这篇论文就像给大模型训练领域的一剂**“纠偏药”**。

它告诉我们：以前我们以为模型学不好是因为题目太难或奖励太少，其实是因为评分规则本身有结构性的缺陷（让无关的步骤承担了错误的责任）。

通过强制让组内相同步骤的评分“互相抵消”，我们消除了那些让模型“瞎忙活”的噪音，让模型能真正专注于学习那些真正决定答案对错的关键逻辑。这就好比老师不再因为学生写字多就加分，而是只盯着解题思路对不对，学生自然就能学得更快、更准、更稳。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题

在稀疏终止奖励（Sparse Termination Rewards）场景下，基于**组内比较（Intra-Group Comparison）**的强化学习（如 GRPO, GSPO 等）已成为微调大语言模型（LLM）推理能力的主流范式。其核心思想是通过比较同一输入下的多个候选轨迹（Trajectories）的相对关系来学习。

然而，长期训练往往面临以下稳定性问题：

无效更新累积（Learning Tax）： 模型在与奖励无关的 Token（如通用模板、高频功能词）上产生持续的、无意义的参数漂移。
解概率漂移（Solution Probability Drift）： 语义等价但表面形式不同的正确答案，其概率分布发生非预期的偏移。
熵崩溃（Entropy Collapse）： 模型输出多样性丧失，倾向于收敛到单一的表面模式。

现有解释的不足： 以往工作通常将不稳定性归因于奖励稀疏或优化噪声。但本文指出，不同算法即使实现细节不同，却反复出现相同的失败模式，这表明存在一个结构性的根本限制。

2. 核心洞察：Token 级梯度抵消的必要条件

本文从**Token 级信用分配（Token-level Credit Assignment）**的角度提出了一个关键的设计条件：

核心论点： 为了防止与奖励无关的漂移，组内目标函数必须保持Token 更新的梯度可交换性（Gradient Exchangeability）。
梯度抵消（Gradient Cancellation）： 对于组内共享的、且与轨迹质量区分度无关的 Token（即“弱信用”Token），其梯度贡献在组内应当相互抵消（总和为零）。
结构性失效原因：
1. 序列耦合（Sequence Coupling）： 如 GSPO 等算法，使用序列级别的权重（整个序列的概率比乘积）。这导致即使共享相同的上下文-Token 对，不同轨迹的权重系数也会因序列其他部分的差异而不同，破坏了梯度抵消。
2. 非对称截断（Asymmetric Clipping）： 如 GRPO 中的 min/clip 操作，根据优势值（Advantage）的正负选择不同的分支，导致相同 Token 在不同轨迹中获得不同的有效权重，同样破坏了抵消机制。

理论证明（Proposition 3.1）： 如果组内共享 Token 的梯度无法抵消（即 $g_{t^*} \neq 0$ ），则必然导致条件分布的严格正漂移（KL 散度增加），即产生“学习税”和熵崩溃。

3. 方法论：DFPO (Drift Fixing Policy Optimization)

基于上述理论，作者提出了一种解耦的组相对梯度估计器，旨在恢复或近似 Token 级的梯度抵消结构，而不改变组内比较的核心框架。

核心设计原则

不改变 Token 级梯度的方向。
不重新定义优势函数（Advantage）。
仅消除由序列级耦合权重引入的结构性非对称项。

具体实现：组内变换（Intra-Group Transformations）

作者提出了两种最小化的组内变换方法，应用于序列权重向量 $w$ （或截断后的权重 $\bar{s}$ ），并采用 Stop-Gradient 策略（即变换系数在反向传播时视为常数）：

Group-Constant (Min-Replace)：
- 将组内所有轨迹的权重统一替换为该组的最小权重（ $w_{min}$ ）。
- 作用： 强制组内所有轨迹共享相同的权重标度，消除因权重差异导致的非抵消项。
- 性质： 保守的比例缩放，不改变更新方向，仅减小有效步长，降低方差。
Adv-Orthogonal Reweighting (Orth-Proj)：
- 通过正交投影（或最小扰动重加权），使变换后的权重向量与优势向量正交（ $\sum \tilde{w}_i \hat{A}_i = 0$ ）。
- 作用： 在保持非负约束的前提下，最小化权重与优势之间的相关性，从而在共享 Token 子空间恢复抵消结构。

4. 实验结果

作者在数学推理（HMMT25, AIME25）和代码生成（LiveCodeBench）任务上，使用 Qwen3-32B 和 Qwen3-Next-80B 模型进行了验证。所有实验均在**计算资源匹配（Compute-Matched）**的协议下进行（相同的 Token 生成量、更新步数、硬件配置）。

主要发现：

训练效率提升（Prediction 1）： DFPO 达到相同奖励阈值所需的计算量更少（例如，达到 0.70 奖励阈值，DFPO 仅需 GSPO 的 91% 计算量）。
收敛稳定性增强（Prediction 2）： 训练曲线更平滑，二阶差分抖动（Jitter）显著降低，减少了短期震荡。
最终性能提升（Prediction 3）： 在 AIME25、LiveCodeBench 和 HMMT25 上，DFPO 的最终准确率均显著优于基线（GSPO, GRPO）。
- 示例数据： 在 Qwen3-32B 上，DFPO (Min-Replace) 在 AIME25 上达到 82.5%，而 GSPO 为 76.9%。
机制验证：
- 梯度调制不对称性（Asymmetry）： 新方法显著降低了组内梯度调制的方差。
- 高频 Token 能量（Energy on Frequent Tokens）： 减少了对高频、弱相关 Token 的无效更新能量，验证了“学习税”的降低。

消融实验结论：

Stop-Gradient 的必要性： 移除 Stop-Gradient 会导致性能下降，证明必须将变换视为组内控制变量，而非可学习的参数，以避免引入新的梯度耦合。
结构修正 vs. 步长缩小： 仅将组内归一化替换为全局缩放（模拟更小的步长）无法复现性能提升，证明收益来源于结构性修正（恢复梯度抵消），而非单纯的保守更新。

5. 关键贡献与意义

理论贡献： 首次从 Token 级信用分配的角度，形式化了组内强化学习的结构性边界。证明了序列级耦合权重和不对称截断是破坏梯度可交换性、导致长期训练不稳定的根本原因。
统一视角： 提供了一个统一的解释框架，说明了为何不同算法（GRPO, GSPO 等）会表现出相似的失败模式（熵崩溃、分布漂移）。
工程价值： 提出了极简的修正方案（Min-Replace 或 Orth-Proj），无需改变模型架构或奖励设计，即可显著提升训练稳定性和最终性能。
对“学习税”的重新定义： 将无效更新导致的性能退化归因于结构性梯度抵消的缺失，为未来设计更稳健的 RLHF/RLAIF 算法提供了设计原则。

6. 局限性与未来方向

信用分配不可识别性： 在仅有终止奖励的情况下，信用分配本质上不可识别。本文的方法只能缓解或推迟不稳定性，不能保证完全消除。
剪枝与归一化的交互： 序列耦合与剪枝（Pruning）、归一化等机制的交互作用仍需进一步分析。
投影偏差： 基于投影的变换可能引入偏差，目前作为最小可行构造验证了命题，尚未探索最优实现空间。

总结：
这篇论文揭示了组内强化学习在长期训练中不稳定的深层结构原因——Token 级梯度抵消机制的破坏。通过提出恢复这种抵消结构的简单变换（DFPO），作者成功解决了无效更新累积和熵崩溃问题，显著提升了推理模型的训练效率和最终性能。这项工作为设计更稳健的序列级强化学习算法提供了重要的理论依据和设计准则。