Stabilizing Reinforcement Learning for Diffusion Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个大模型训练中的“翻车”问题，并提出了一个名为 StableDRL 的“急救包”。

为了让你轻松理解，我们可以把训练一个扩散语言模型（dLLM）想象成教一个盲人画家（AI）通过不断修改画作来画出一幅完美的风景画。

1. 背景：为什么之前的方法会“翻车”？

传统的做法（GRPO）：
想象一下，老师（算法）给盲人画家看了一组画（比如 8 张），然后说：“这组画里，哪张最好？哪张最差？我们要让画得好的那张‘多画几次’，画得差的‘少画几次’。”
在传统的自回归模型（像 AR 模型，一个字一个字写）中，老师能非常精准地算出每张画的“好分数”（概率），所以这个教学很顺利。

扩散模型的问题（dLLM）：
但是，扩散模型（dLLM）是像“去噪”一样，从一团乱麻中慢慢变出画。老师很难直接算出那张画到底“有多好”（概率计算太难了，数学上叫“不可解”）。
于是，老师只能猜（用蒙特卡洛采样去估算）。

翻车现场（Reward Collapse）：
因为是在“猜”，所以这个“好分数”经常猜错，而且错得离谱（比如把一张乱涂的画猜成满分，或者把满分猜成负分）。
这就导致了两个致命问题：

条件性“刹车”失灵（Conditional Clipping Failure）：
- 比喻： 老师给画家设了一个“安全区”。如果画家画得比预期好太多，老师会踩刹车，防止他太飘；如果画得差，老师会鼓励他“大改”。
- 问题： 因为分数是“猜”的，有时候画家明明画得很烂（负分），但因为猜错了，分数突然变得超级高。这时候，老师以为画家表现太好了，不仅不踩刹车，反而猛踩油门（梯度爆炸），让画家朝着错误的方向狂奔。
- 后果： 画家彻底跑偏，越改越烂，最后奖励（Reward）直接归零，训练崩溃。
群体“平均数”失效（Group Normalization）：
- 比喻： 老师通常看 8 张画的平均分来调整。如果其中一张画因为“猜错”分数变得巨大，它会瞬间拉高整个群体的平均值。
- 问题： 这导致老师给所有人的指令都变得忽大忽小，像坐过山车一样，画家根本学不到东西。

恶性循环：
一旦画家跑偏了，他下次画的画就更不像原来的风格，导致老师下次“猜分数”时错得更离谱。错得更离谱 -> 指令更疯狂 -> 跑得更偏。这是一个死循环。

2. 解决方案：StableDRL（稳定强化学习）

作者提出了 StableDRL，就像给这个混乱的教学过程装上了两个“稳定器”：

第一招：无条件“硬刹车”（Unconditional Clipping）

以前的做法： 只有在分数特别高且是“正分”时才刹车；如果是“负分”但分数很高（因为猜错了），就不刹车。
StableDRL 的做法： 不管分数是正还是负，只要超过安全范围，一律强制刹车！
比喻： 就像给画家的油门装了一个物理限位器。不管老师怎么喊“冲啊”，只要速度超过限速，物理结构就会强制把速度降下来。这样，哪怕老师猜错了分数，画家也不会因为一次错误的指令而飞出去。

第二招：自我“归一化”（Self-Normalization）

以前的做法： 用固定的数字（比如 8 张画）来平均。如果有一张画分数异常高，平均值就被带偏了。
StableDRL 的做法： 不看固定的数字，而是看所有画家的“有效努力”总和。
比喻： 老师不再说“我们要把 8 个人的平均分提高”，而是说“我们要把这 8 个人实际贡献的总力量重新分配”。如果某个人因为猜错分数突然变得“力大无穷”，老师会把他多余的力量“稀释”掉，确保他的指令不会压倒其他人。
效果： 这样，无论个别样本怎么“发疯”，整体的更新方向始终被限制在一个安全的、合理的范围内（凸包内），不会剧烈震荡。

3. 额外大招：楼梯式注意力（Staircase Attention）

对于一种更高级的“分块扩散模型”（Block Diffusion），还有一个难题：怎么在计算时不“作弊”？

比喻： 就像做数学题，如果你能一眼看到答案（未来的信息），你就不是在学习，而是在作弊。
StableDRL 的做法： 设计了一种**“楼梯式”的遮光板**。
- 画家在画第 2 层楼梯时，只能看到第 1 层（过去的信息），绝对看不到第 3 层（未来的答案）。
- 这样既保证了计算速度快（一次算完），又保证了没有作弊（信息不泄露），让训练过程既快又稳。

4. 结果如何？

以前： 训练到 300 步左右，奖励直接崩盘，模型变傻。
现在（StableDRL）： 模型可以稳稳地训练 1000 步以上，奖励持续上升。
成绩： 在数学推理（MATH500）、逻辑谜题（Sudoku）等任务上，StableDRL 训练出来的模型比之前的所有方法都强，甚至超过了某些传统的自回归大模型。

总结

这篇论文的核心思想就是：在 AI 训练中，当“评分系统”本身不可靠（充满噪音）时，不能依赖灵活的“条件判断”，而必须依靠“死板的物理限制”（无条件截断）和“动态的平衡机制”（自我归一化）来防止模型因为一次错误的判断而彻底跑偏。

这就好比在暴风雨中开船，如果指南针（评分）经常乱指，你不能听它指挥猛转舵，而应该把舵锁死在安全角度，并依靠船身的平衡设计（归一化）来平稳前行。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

背景：
离散扩散大语言模型（dLLMs）因其支持并行解码和双向上下文建模，被视为自回归（AR）模型的重要替代方案。然而，将目前自回归模型中表现优异的强化学习算法——组相对策略优化（Group Relative Policy Optimization, GRPO）——直接应用于 dLLMs 时，会出现严重的训练不稳定问题，通常表现为在训练早期（约 300 步）发生奖励崩溃（Reward Collapse）。

核心痛点：
GRPO 在 dLLMs 上的失效主要源于两个不兼容因素：

重要性比率（Importance Ratios）的不可解性： 在 AR 模型中，序列概率是精确可计算的；而在 dLLMs 中，序列概率不可解，必须通过估计（如基于 ELBO 或平均场近似）来近似。这种估计引入了固有的噪声。
标准 GRPO 对估计噪声的敏感性：
- 条件截断失效： 标准 GRPO 使用条件截断（Conditional Clipping）。在 dLLMs 中，模型无关的估计噪声可能导致重要性比率异常巨大，从而绕过截断条件（特别是在优势函数为负时），引发梯度尖峰（Gradient Spikes）。
- 固定组归一化放大波动： GRPO 使用固定的组大小（Group Size）进行归一化。在 dLLMs 中，由于重要性比率估计方差极高，这种静态归一化会放大梯度的幅度波动。

恶性循环机制：
论文揭示了一个自我强化的不稳定性循环：

估计噪声导致重要性比率出现长尾分布（Outliers）。
这些异常值在 GRPO 更新中引发梯度尖峰。
梯度尖峰导致策略发生剧烈漂移（Policy Drift），使目标策略与行为策略偏离。
策略偏离进一步加剧了后续步骤中重要性比率估计的方差，从而产生更多的噪声和尖峰，最终导致训练崩溃。

2. 方法论 (Methodology)

为打破上述不稳定性循环，作者提出了 StableDRL，这是一种专为 dLLMs 设计的 GRPO 重构方案。

2.1 核心组件

StableDRL 通过以下两个机制从源头抑制梯度尖峰：

无条件截断 (Unconditional Clipping)：
- 机制： 摒弃了标准 GRPO 中基于优势函数符号的条件截断，改为对重要性比率 $\hat{\rho}$ 实施严格的无条件约束，将其始终限制在 $[1-\epsilon, 1+\epsilon]$ 范围内。
- 作用： 无论优势函数是正还是负，都防止了由噪声引起的极端比率值转化为巨大的未截断梯度，从而消除了“陷阱门”效应（即负优势样本绕过截断的情况）。
自归一化 (Self-Normalization)：
- 机制： 不再使用固定的组大小 $G$ 作为分母进行归一化，而是使用截断后重要性比率的总和 $\sum \text{clip}(\hat{\rho}_i)$ 作为分母。
- 作用： 这种设计将更新步长约束在**单样本梯度的凸包（Convex Hull）**内。它解耦了更新幅度与组级别权重的随机波动，防止了因组内比率总和剧烈波动而导致的梯度震荡。

2.2 扩展：块扩散模型的阶梯注意力 (Staircase Attention)

为了将 StableDRL 扩展到块扩散（Block Diffusion）模型，作者提出了一种**阶梯注意力（Staircase Attention）**机制：

问题： 块扩散模型在 RL 训练中需要在单次前向传播中计算 ELBO 代理，既要保证计算效率（ $O(1)$ ），又要防止信息泄露（即当前块不能看到其自身的真实标签）。
方案： 采用双流输入（干净上下文流 + 损坏目标流），通过独特的“阶梯”掩码几何结构，允许目标块访问之前块的干净历史，同时机械地遮挡当前块的真实标签。这使得在单次计算图中即可实现无泄露的概率估计。

2.3 数值稳定性实现

由于直接计算指数比率会导致数值溢出/下溢，StableDRL 在对数空间中计算权重。
采用“先截断后 Softmax"的策略（Clip-then-Softmax），利用 Log-Sum-Exp 函数确保数值精度。

3. 理论分析 (Theoretical Analysis)

论文从理论上证明了 GRPO 的不稳定性及 StableDRL 的有效性：

GRPO 的缺陷： 证明了在存在噪声的情况下，随着策略漂移（Drift）增加，梯度尖峰发生的概率是非递减的，形成正反馈循环。即使使用截断，也容易导致频繁的边界饱和（Boundary Saturation），引发高频震荡。
StableDRL 的稳定性： 证明了通过自归一化，更新方向始终位于单样本梯度的凸包内。这意味着更新幅度被严格限制在 $B$ （单样本梯度上界）以内，从结构上消除了组级别随机因子对更新幅度的影响，从而打破了不稳定性循环。

4. 实验结果 (Results)

作者在 Full-Attention dLLM (LLaDA-8B) 和 Block Diffusion dLLM (SDAR-8B) 两种架构上进行了全面评估。

4.1 训练稳定性

现象验证： 实验复现了 GRPO 在 dLLMs 上的奖励崩溃现象，并观察到梯度尖峰与策略漂移的正相关性。
StableDRL 表现： 实现了超过 1000 步 的全参数稳定训练，奖励曲线单调上升，无崩溃现象。相比之下，ESPO（基于 GRPO 的变体）和 SPG 在相同设置下均出现不同程度的崩溃或性能下降。

4.2 推理性能 (Reasoning Performance)

StableDRL 在多个基准测试中取得了 State-of-the-Art (SOTA) 成绩：

Full-Attention (LLaDA-8B):
- MATH500: 平均准确率 41.8% (优于 ESPO 的 39.5% 和 SPG 的 38.4%)。
- Countdown: 平均准确率 83.5% (大幅优于 SPG 的 69.9%)。
- GSM8K: 平均准确率 84.2%。
- Sudoku: 平均准确率 91.5%。
- 长序列泛化： 尽管在 256 token 长度上训练，模型在 128 至 512 token 的生成长度上均表现出卓越的泛化能力。
Block Diffusion (SDAR-8B):
- 在 AIME 2024 基准上，StableDRL 达到 16.7% (静态采样) 和 13.3% (动态采样)，显著超越了基线模型 (11.8%) 和自回归模型 Qwen3-8B (10.0%)。
- 证明了稳定的在线 RL 能够解锁监督基线中休眠的推理能力。

4.3 鲁棒性测试 (Stress Test)

通过人为构造“爆炸权重”（Exploding Weights）的对抗性测试，StableDRL 表现出极强的鲁棒性，即使在噪声方差被人为放大的情况下，训练依然稳定且单调收敛。而 ESPO 和 SPG 则迅速崩溃或性能退化。

5. 主要贡献与意义 (Contributions & Significance)

主要贡献：

机制诊断： 首次理论结合实验地揭示了 GRPO 在 dLLMs 中失效的根本原因——由噪声重要性比率引发的“估计噪声 - 梯度尖峰 - 策略漂移”自我强化循环。
算法创新： 提出了 StableDRL，通过无条件截断和自归一化，成功解决了 dLLMs 全参数 RL 训练的稳定性难题。
架构扩展： 设计了阶梯注意力机制，解决了块扩散模型在 RL 训练中的效率与泄露矛盾。
性能突破： 在多个推理基准上刷新了 dLLMs 的 SOTA 记录，证明了 dLLMs 在强化学习微调后具备与自回归模型竞争甚至超越的推理能力。

意义：

填补空白： 这是首个能够在 Full-Attention 和 Block 两种主流 dLLM 架构上实现稳定、全参数强化学习训练的方法。
解锁潜力： 证明了 dLLMs 的推理能力此前未被充分挖掘，很大程度上受限于训练不稳定性。StableDRL 为 dLLMs 的规模化应用和复杂推理任务（如数学、规划）铺平了道路。
通用启示： 该工作为处理具有不可解概率分布的生成模型的强化学习提供了新的理论视角和工程范式（即如何处理估计噪声与策略更新的耦合）。

总结：
这篇论文通过深入分析 dLLMs 中 GRPO 失效的数学机制，提出了 StableDRL 这一简单而有效的解决方案。它不仅解决了训练崩溃的痛点，还显著提升了 dLLMs 在复杂推理任务上的表现，标志着扩散语言模型在强化学习对齐领域迈出了关键一步。