From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大语言模型（LLM）在“自我进化”过程中遇到的棘手问题：如何既让模型大胆尝试新想法（探索），又不至于因为步子迈太大而摔跟头（崩溃）。

我们可以把训练大模型想象成教一个天才学生做数学题。

1. 背景：学生学得太“死”或太“疯”

目前的训练方法（比如 GRPO）就像是一个严厉的老师，手里拿着一把**“硬剪刀”**（Hard Clipping）。

规则是：如果学生给出的答案和之前的想法差别太大（超出了“信任区域”），老师就直接把这部分的学习信号剪掉，告诉模型：“别动，按老规矩来。”
问题：这把剪刀太狠了。有时候学生虽然偏离了老路，但那个新想法可能是通往正确答案的捷径。直接剪掉，模型就学不到新东西，变得死板，容易陷入死胡同（熵崩溃）。

后来，有人提出了“软剪刀”（Soft Clipping），意思是：虽然你偏离了，但我还是给你留点信号，让你慢慢改。

新问题：这篇论文发现，之前的“软剪刀”方法在数学原理上有个大坑。当学生给出的答案概率极低（几乎不可能发生）时，之前的算法会给这个答案无限放大的惩罚或奖励权重。
后果：这就像老师对着一个几乎不可能发生的错误答案，突然情绪失控，大喊大叫（梯度发散）。这种剧烈的波动会让整个学习过程变得极不稳定，模型直接“发疯”崩溃。

2. 核心发现：换个角度看世界

作者发现，之前的算法都在盯着**“对数概率”（Log-Probability）看，这就像是在看一个无限延伸的悬崖**。概率越小，对数概率就越负，越接近负无穷，导致计算出的“修正力度”无限大。

作者提出：别盯着“对数概率”看了，直接看“概率”本身！

比喻：概率就像是一个0 到 1 之间的刻度尺。无论怎么变，它都在这个范围内，不会无限大也不会无限小。
新视角：如果我们直接基于“概率”来调整模型，就能避免那种“无限放大”的疯狂情况。这就像从悬崖边退回到了平坦的操场上。

3. 解决方案：DGPO（双边解耦衰减）

作者提出了一个新算法叫 DGPO。它的核心思想是**“看人下菜碟，两边分开管”**（Decoupled Decay）。

想象你在开车，左边是悬崖（概率太低，模型不敢走），右边是高速路（概率太高，模型太自信）。DGPO 给这辆车装了一个智能刹车系统：

左边（概率太低，模型不敢尝试）：
- 旧方法：要么直接踩死刹车（硬剪），要么猛踩油门导致翻车（之前的软剪导致发散）。
- DGPO 的做法：“慢点，但别停”。它会让模型慢慢减速，但保留一点点探索的力气。就像告诉学生：“这个想法虽然概率低，但别完全放弃，我们试着微调一下。”
- 效果：既防止了模型因为乱撞而翻车，又保留了探索新路径的机会。
右边（概率太高，模型太自信）：
- 旧方法：要么直接踩死刹车（硬剪），要么不管不顾。
- DGPO 的做法：“温柔地减速”。它允许模型继续尝试，但力度会随着自信程度增加而逐渐、平滑地减弱。就像告诉学生：“你很自信，这很好，但别太飘，稍微收着点劲。”
- 效果：防止模型因为太自信而忽略其他可能性，同时保持探索的活力。

4. 为什么这很厉害？

不再“发疯”：通过直接操作概率，彻底解决了之前算法中“概率越低，惩罚越疯”的数学 Bug。
平衡大师：它在“保守（稳定）”和“激进（探索）”之间找到了完美的平衡点。既不让模型因为太胆小而学不到东西，也不让它因为太大胆而学歪了。
实战效果：作者在 DeepSeek-R1 系列模型（从 15 亿参数到 140 亿参数）上做了测试。结果发现，用 DGPO 训练的模型，在数学竞赛（如 AIME、AMC）上的表现全面超越了之前的各种方法。它不仅能解出更多难题，而且训练过程非常稳定，不会中途崩溃。

总结

这篇论文就像给大模型的训练过程装上了一个**“智能减震器”**。

以前的方法要么是把路堵死（硬剪），要么是路太滑容易翻车（旧软剪）。
DGPO 则是把路修得平平整整，并且根据车速（概率大小）自动调节刹车力度：

快撞墙了（概率低），温柔地拉一把，别停，慢慢调方向。
开太快了（概率高），温柔地踩一脚刹车，别飘，稳住。

最终，模型就能在数学推理的道路上，既跑得快，又跑得稳，轻松拿下高分。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与核心问题 (Problem)

背景：
强化学习验证奖励（RLVR）已成为提升大语言模型（LLM）推理能力的关键范式。然而，现有的 RLVR 优化动态仍然脆弱。

现有方法的局限性：

硬截断（Hard Clipping，如 GRPO）： 通过限制重要性采样（IS）比率来保证稳定性，但会直接将超出信任区域的 Token 梯度置零。这导致模型放弃了有价值的探索步骤，引发熵崩溃（Entropy Collapse）和过早收敛。
软截断（Soft Clipping，如 CISPO, GPPO）： 试图保留被截断 Token 的梯度以维持探索，但存在一个致命缺陷：
- 这些方法主要基于 对数概率梯度（ $\nabla_\theta \log \pi_\theta$ ） 进行优化。
- 当 Token 概率 $\pi_\theta$ 趋近于 0 时（即左边界，IS 比率极低），对数概率梯度的权重会趋向于无穷大（发散）。
- 这种发散性权重导致训练极不稳定，甚至引发模型崩溃，尤其是在左边界（低概率、负优势）区域。

核心矛盾：
如何在保证训练稳定性（防止梯度爆炸）的同时，保留被截断 Token 的梯度以维持探索能力？现有的软截断方法在解决左边界发散问题上失效。

2. 方法论：DGPO (Methodology)

作者提出了 解耦梯度策略优化（Decoupled Gradient Policy Optimization, DGPO），其核心思想是从优化原语（Optimization Primitive）层面进行范式转变。

2.1 核心洞察：从 log π 到 π

理论转变： 论文指出，在 LLM 的 RL 训练中，概率梯度（ $\nabla_\theta \pi_\theta$ ） 优于对数概率梯度（ $\nabla_\theta \log \pi_\theta$ $\nabla_{θ} lo g π_{θ}$ ）。
- SFT（监督微调）优化的是对数概率，而 RL 本质上优化的是概率。
- 概率空间 $(0, 1)$ 具有对称性和有界性，而对数概率空间 $(-\infty, 0)$ 是不对称且无界的。基于概率的设计更容易实现梯度的对称衰减和稳定性。

2.2 DGPO 算法设计

DGPO 引入了双边解耦衰减机制（Bilateral Decoupled Decay），针对 IS 比率的左右边界采用不同的衰减策略：

左边界（Left Boundary, LN）：
- 场景： IS 比率低（ $\pi_\theta \ll \pi_{\theta_{old}}$ ），通常对应负优势（Negative Advantage）。
- 问题： 传统软截断在此处权重发散。
- DGPO 策略： 采用 多项式衰减（Polynomial Decay）。
- 公式： 权重与 $\pi_\theta^n$ 成正比。随着概率降低，权重平滑衰减至 0，避免了发散，同时保留了梯度信息。
右边界（Right Boundary, HP）：
- 场景： IS 比率高（ $\pi_\theta \gg \pi_{\theta_{old}}$ ），通常对应正优势（Positive Advantage）。
- DGPO 策略： 采用 倒数根式衰减（Reciprocal Radical Decay）。
- 公式： 权重与 $\pi_\theta^{-1/m}$ 成正比。这种设计鼓励对高概率 Token 进行更温和的探索，防止过度利用。
连续性保证：
- 通过引入常数 $C_{left}$ 和 $C_{right}$ ，确保在边界处梯度权重的连续性，避免梯度突变。

2.3 优势

稳定性： 左边界权重收敛，彻底消除了因概率趋零导致的梯度爆炸。
探索性： 软截断保留了被截断 Token 的梯度，避免了硬截断导致的熵崩溃。
无偏性： 相比其他软截断方法，DGPO 在理论上更接近无偏的策略梯度估计。

3. 主要贡献 (Key Contributions)

范式转移： 确立了 概率梯度（ $\nabla_\theta \pi_\theta$ ） 而非对数概率梯度作为 LLM 强化学习的更优优化原语。揭示了概率空间的几何对称性对稳定梯度设计的必要性。
DGPO 算法： 提出了一种基于重要性采样比率的双边解耦衰减机制。
- 左边界：多项式衰减（解决发散）。
- 右边界：倒数根式衰减（促进探索）。
- 在数学上保证了梯度的连续性和权重的收敛性。
理论分析： 证明了 DGPO 在最小化策略梯度偏差（Bias）方面的优越性，特别是在左边界条件下，其偏差显著小于 CISPO 和 GPPO。
实验验证： 在多个数学推理基准上进行了大规模验证，证明了算法的有效性和可扩展性。

4. 实验结果 (Results)

实验基于 DeepSeek-R1-Distill-Qwen 系列模型（1.5B, 7B, 14B），在 AIME24/25, AMC23, MATH500, Minerva, OlympiadBench 等数学基准上进行测试。

性能提升：
- 1.5B 模型： DGPO 在平均准确率（Avg@32）上比 GRPO 提升 +4.3%，比最佳基线（CE-GPPO）提升 +3.5%。
- 7B 模型： 相比 GRPO 提升 +3.1%，相比 CISPO 提升 +2.7%。
- 14B 模型： 同样表现出显著的性能提升，证明了算法在不同规模模型上的可扩展性。
训练动态分析：
- 稳定性： 传统软截断方法（CISPO, GPPO）在训练后期出现熵崩溃或性能下降，而 DGPO 保持了稳定的熵下降曲线，实现了探索与利用的最佳平衡。
- 收敛速度： DGPO 在训练中期到后期 consistently 优于所有基线。
超参数敏感性：
- 通过调整衰减参数 $n$ 和 $m$ ，可以控制探索程度。实验发现较小的模型（1.5B）适合较大的 $n, m$ （更激进的探索），而较大的模型（7B/14B）需要更保守的参数（如 $n=1, m=2$ ）以维持稳定性。

5. 意义与影响 (Significance)

解决 RLVR 的稳定性瓶颈： 论文从根本上解决了软截断方法在低概率区域梯度发散的问题，为 LLM 的强化学习训练提供了一种更鲁棒的优化方案。
重新定义优化目标： 挑战了长期以来基于 Log-Probability 的梯度优化传统，证明了在 RL 场景下直接优化 Probability 梯度具有理论优势和实践价值。
通用性与可扩展性： 该方法不依赖特定的奖励模型结构，适用于各种基于验证奖励的 RLVR 任务，且在从 1.5B 到 14B 的不同规模模型上均表现出良好的扩展性。
开源贡献： 作者开源了代码和实现，推动了社区在 RLVR 算法优化方面的进一步发展。

总结：
DGPO 通过从“对数概率”转向“概率”作为优化原语，并设计了一种巧妙的双边解耦衰减机制，成功驯服了软截断中的梯度发散问题。它在保持训练稳定性的同时，最大化了模型的探索能力，显著提升了 LLM 在复杂数学推理任务上的表现，是 RLVR 领域的一项重要进展。

From log⁡π\boldsymbol{\log\pi}logπ to π\boldsymbol{\pi}π: Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight

1. 背景：学生学得太“死”或太“疯”

2. 核心发现：换个角度看世界

3. 解决方案：DGPO（双边解耦衰减）

4. 为什么这很厉害？

总结

1. 研究背景与核心问题 (Problem)

2. 方法论：DGPO (Methodology)

2.1 核心洞察：从 log π 到 π

2.2 DGPO 算法设计

2.3 优势

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Uncertainty Quantification in CNN Through the Bootstrap of Convex Neural Networks

Schema-Adaptive Tabular Representation Learning with LLMs for Generalizable Multimodal Clinical Reasoning

A Layer-wise Analysis of Supervised Fine-Tuning

When Reasoning Models Hurt Behavioral Simulation: A Solver-Sampler Mismatch in Multi-Agent LLM Negotiation

Polynomial Expansion Rank Adaptation: Enhancing Low-Rank Fine-Tuning with High-Order Interactions

From $\boldsymbol{\log\pi}$ to $\boldsymbol{\pi}$ : Taming Divergence in Soft Clipping via Bilateral Decoupled Decay of Probability Gradient Weight