Entropy-Preserving Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要讲的是：如何让 AI 在“学习”过程中保持“好奇心”，不要过早地变得固执己见，从而学会更聪明、更多样化的解决问题方法。

我们可以把这篇论文的核心思想想象成教一个学生（AI）做数学题或写代码的过程。

1. 核心问题：学生“钻牛角尖”了（熵崩溃）

想象一下，你教一个学生做题。

刚开始：学生很聪明，会尝试各种各样的解法。有的解法很笨，有的很巧妙，有的甚至有点荒谬。这时候他的思维很活跃（论文里叫“高熵”）。
训练过程中：传统的强化学习方法（比如 GRPO）就像是一个严厉但有点死板的老师。一旦学生发现某种解法能得分（比如做对了），老师就会疯狂奖励这种解法，并严厉惩罚其他所有解法。
结果：学生很快发现：“哦，原来只要用这一种方法就能拿高分！”于是，他不再尝试其他方法了，把所有精力都死磕在这一种解法上。
- 短期看：他做对这道题的概率（Pass@1）变高了。
- 长期看：他变得死板了。如果遇到稍微变通一点的题目，或者需要多种解法组合的难题，他就束手无策了。因为他已经“熵崩溃”了——他的思维多样性消失了，变成了只会一种招数的机器。

2. 论文的发现：为什么学生会变傻？

作者发现，这种“死板”不仅仅是因为老师太严厉，还因为教学工具（计算机硬件和软件）的小毛病：

算数精度问题（就像用圆规画圆）：
现在的 AI 训练为了省内存，经常用一种叫 BF16 的“低精度”数字格式。这就像是用一把刻度很粗糙的尺子去量东西。
- 比喻：当老师想奖励学生尝试“冷门但正确”的解法时，因为尺子太粗糙，把“稍微高一点”的奖励误读成了“和原来一样”，甚至误读成了“要惩罚”。
- 后果：学生觉得尝试新东西没好处，反而更倾向于保守。
- 解决方案：作者发现，改用更精确的 FP16 格式（换把精细的尺子），就能解决这个问题，让 AI 重新愿意尝试新东西。

3. 作者的解决方案：给 AI 装上“好奇心调节器”

为了让 AI 保持探索精神，作者提出了两个新招数：

招数一：REPO（给奖励加个“平衡器”）

原理：传统的奖励只看“对不对”。REPO 说：“不对，还要看你有多意外。”
比喻：
- 如果学生用老方法做对了，给 1 分。
- 如果学生用从未想过的新方法做对了，虽然也是 1 分，但 REPO 会额外给他一个“惊喜奖”，因为这种解法太罕见了。
- 反之，如果学生用老方法做错了，就狠狠扣分；如果用新方法做错了，就稍微宽容一点，鼓励他继续试。
效果：这就像给学生的思维加了个弹簧，防止他缩成一团。无论怎么训练，他都会保留一部分“尝试新招”的冲动。

招数二：ADAPO（动态调整“宽容度”）

原理：传统的老师（DAPO）会设定一个规则：“如果学生偏离老方法太远，就限制他；如果偏离太近，就鼓励他。”但这个规则是死的。
比喻：ADAPO 是一个聪明的班主任。他会时刻盯着全班同学的“活跃程度”（熵）。
- 如果发现大家太死板了（熵太低），他就放宽限制，允许大家更天马行空地想。
- 如果发现大家太乱来了（熵太高），他就收紧限制，让大家稍微收敛一点。
效果：这种动态调整让 AI 始终处于一个“既不太死板，也不太混乱”的最佳学习状态。

4. 实验结果：不仅考得好，还能举一反三

作者用这些新方法训练了 AI（Qwen3 模型），结果非常惊人：

成绩更好：在解决复杂的数学题（AIME）和编程任务（AppWorld）时，这些 AI 不仅单次做对的概率高，而且能想出多种解法（Pass@k 更高）。
适应力强：这是最酷的一点。
- 普通 AI：在数学题上练熟了，再让它去写代码，它就“失忆”了，因为它的思维已经固化在数学题上了。
- 熵保持 AI：因为一直保持着“好奇心”和“多样性”，当它从数学题转到写代码时，它能快速适应，继续学习新技能，就像是一个真正灵活的学生，而不是只会背题的机器。

总结

这篇论文告诉我们：在训练 AI 时，不要只盯着“做对题”，还要盯着“保持思维的多样性”。

就像教孩子一样，如果只奖励标准答案，孩子就会变成只会做题的机器；如果鼓励他尝试不同的思路，即使偶尔走弯路，他最终会成为一个更有创造力、更能适应新环境的聪明人。作者通过修补计算机的“小毛病”和发明新的“奖励机制”，成功让 AI 重新找回了这种宝贵的“好奇心”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的论文《Entropy-Preserving Reinforcement Learning》（熵保持强化学习），主要探讨了在大语言模型（LLM）的强化学习（RL）微调过程中，如何防止“熵崩溃”（Entropy Collapse）以保持模型的探索能力和多样性。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：策略梯度算法（如 PPO、GRPO）已成为提升大语言模型推理能力的标准方法。这些算法通过在自身生成的轨迹上进行探索来学习。
核心问题：熵崩溃 (Entropy Collapse)。
- 许多现有的策略梯度算法在训练过程中会自然地降低策略的熵（即减少探索的多样性）。
- 这种现象导致模型过早收敛到局部最优解，虽然可能提高 pass@1（单次尝试正确率），但严重损害了 pass@k（多次尝试中至少有一次正确的概率）和模型的泛化能力。
- 模型在训练后期失去了探索新解决方案的能力，导致在后续任务或新环境中的可训练性（Trainability）下降。
现有挑战：
- 现有的改进算法（如 DAPO、GSPO）试图通过非对称截断（Asymmetric Clipping）来缓解这一问题，但效果往往依赖于隐式机制，且容易受到数值精度等实现细节的影响。
- 缺乏对熵动态的主动监控和显式控制。

2. 方法论 (Methodology)

论文从理论分析、实证发现到算法设计三个层面提出了系统性的解决方案。

2.1 理论分析：策略梯度的熵动力学

核心发现：熵的变化取决于**优势函数（Advantage）与对数概率（Log-probability）**之间的相关性。
- 如果高概率动作获得正优势，分布会变得更尖锐，熵降低。
- 如果低概率动作获得正优势，分布会变平，熵增加。
定理推导：
- PPO：其截断机制（Clipping）理论上可以限制单次更新的熵变化幅度，但多次 off-policy 更新会放大熵崩溃。
- DAPO & GSPO：通过非对称截断（允许更大的熵增加，限制熵减少）或序列级截断，隐式地提供了熵保持机制。
- RLOO：作为严格 on-policy 算法，虽然避免了 off-policy 漂移带来的熵崩溃放大，但如果基础模型已针对任务校准良好，优势与对数概率的正相关性仍会导致熵自然下降。

2.2 实证发现：实现细节的关键影响

论文揭示了两个常被忽视但至关重要的数值因素，它们能定性改变算法行为：

16 位量化对截断的影响：
- 在 BF16 精度下，由于舍入误差，重要性比率（Importance Ratio）的计算存在乘法向上偏差。
- 这导致非对称截断失效：高概率动作更容易触及上界截断（限制概率增加），而低概率动作更难触及下界截断。这实际上产生了一种促进熵减少的不对称性，与 DAPO 的设计初衷相反。
FP16 vs BF16 训练：
- 使用 FP16（Float16）代替 BF16 进行训练，结合上述量化修复，能显著减少推理（vLLM）与训练子系统之间的差异，并有效缓解熵崩溃，使 DAPO 等算法能发挥其熵增加的特性。

2.3 提出的算法：显式熵控制机制

为了解决上述问题，作者提出了两种显式的熵控制方法：

REPO (Regulated Entropy Policy Optimization)：
- 原理：修改优势函数，加入一个缩放的对数似然项： $A_{REPO}(s, a) = A(s, a) - \beta_s \cdot L(s, a)$ 。
- 机制：通过调整 $\beta_s$ $β_{s}$ 来控制熵的变化方向。
  - REPO-D (Decorrelate)：抵消熵崩溃项，使熵变化趋近于零。
  - REPO-R (Rescale)：根据动作概率重新缩放优势，增强稀有正确动作的权重，降低稀有错误动作的惩罚。
- 优势：使用自适应控制器动态调整 $\beta$ ，且无需计算全词汇表熵（利用 Cut Cross-Entropy 技术），内存开销极低。
ADAPO (Adaptive DAPO)：
- 原理：动态调整 DAPO 的非对称截断阈值（ $\epsilon_{high}$ ）。
- 机制：根据当前策略熵与初始熵的对比，自动调整 $\epsilon_{high}$ 的范围（例如，若熵过低则放宽上限以允许更多探索）。

3. 关键贡献 (Key Contributions)

理论统一视角：证明了熵动力学由优势函数与对数概率的相关性驱动，并解释了 PPO、DAPO、GSPO 等算法在熵行为上的差异。
发现数值陷阱：首次明确指出 BF16 量化导致的截断偏差是造成某些算法熵崩溃的重要原因，并证明了 FP16 训练结合量化修复能显著改善训练稳定性。
提出显式控制算法：提出了 REPO 和 ADAPO，通过显式机制（而非隐式启发式）主动维持目标熵水平。
SOTA 性能：在 AppWorld 和 AIME 基准测试上取得了最先进的结果，特别是证明了严格 on-policy 的 RLOO 在数值修复后表现最佳。

4. 实验结果 (Results)

实验在 AppWorld（交互式工具使用代理）和 AIME（数学推理）两个基准上进行，使用了 Qwen-3-8B 和 Qwen-3-32B 模型。

熵动态与性能：
- 熵崩溃早的算法（如原始 GRPO）在测试集上表现较差。
- 保持熵稳定的算法（REPO-R, ADAPO）在整个训练过程中保持了较高的累积熵，最终测试准确率更高。
- 图 1 结论：训练过程中的熵轨迹（Entropy Trajectory）比最终熵值更能预测性能。
数值精度的影响：
- 在 Qwen-3-8B AppWorld 任务中，应用 FP16 和量化修复后，DAPO 从熵崩溃转变为熵增加，性能显著提升。
SOTA 成绩：
- AppWorld：使用 RLOO + FP16 训练，Qwen-3-32B 达到了 79% (Test Normal) 和 71% (Test Challenge) 的通过率，超越了当时的 SOTA。
- AIME：熵保持方法在 AIME 2024/2025 上也表现出竞争力，且训练更稳定。
序列学习 (Sequential Learning)：
- 在从 AIME 迁移到 AppWorld（或反之）的连续训练实验中，熵崩溃的模型（GRPO）失去了在新环境中探索的能力，而熵保持模型（REPO, DAPO）能迅速适应新任务。

5. 意义与结论 (Significance)

重新审视 RL 训练：论文强调熵（即探索能力）不应被视为训练的自然副产品，而应作为 RL 流水线中的**一等公民（First-class concern）**进行主动监控和控制。
工程实践指导：指出了数值精度（BF16 vs FP16）和框架行为（如 FSDP2 的输出转换）对 RL 稳定性的巨大影响，为未来的 LLM 强化学习训练提供了关键的工程建议。
算法设计方向：证明了显式的熵控制机制（如 REPO）比隐式机制更可靠，且能兼容 on-policy 和 off-policy 范式，有助于弱 on-policy 方法接近严格 on-policy 方法的性能，同时保留异步训练的高吞吐量优势。

总结：这篇论文不仅提出了新的熵保持算法（REPO, ADAPO），更重要的是揭示了数值实现细节对强化学习动态的深刻影响，为构建更鲁棒、更具探索性的大语言模型推理系统奠定了理论和实践基础。