Each language version is independently generated for its own context, not a direct translation.
这篇论文主要讲的是:如何让 AI 在“学习”过程中保持“好奇心”,不要过早地变得固执己见,从而学会更聪明、更多样化的解决问题方法。
我们可以把这篇论文的核心思想想象成教一个学生(AI)做数学题或写代码的过程。
1. 核心问题:学生“钻牛角尖”了(熵崩溃)
想象一下,你教一个学生做题。
- 刚开始:学生很聪明,会尝试各种各样的解法。有的解法很笨,有的很巧妙,有的甚至有点荒谬。这时候他的思维很活跃(论文里叫“高熵”)。
- 训练过程中:传统的强化学习方法(比如 GRPO)就像是一个严厉但有点死板的老师。一旦学生发现某种解法能得分(比如做对了),老师就会疯狂奖励这种解法,并严厉惩罚其他所有解法。
- 结果:学生很快发现:“哦,原来只要用这一种方法就能拿高分!”于是,他不再尝试其他方法了,把所有精力都死磕在这一种解法上。
- 短期看:他做对这道题的概率(Pass@1)变高了。
- 长期看:他变得死板了。如果遇到稍微变通一点的题目,或者需要多种解法组合的难题,他就束手无策了。因为他已经“熵崩溃”了——他的思维多样性消失了,变成了只会一种招数的机器。
2. 论文的发现:为什么学生会变傻?
作者发现,这种“死板”不仅仅是因为老师太严厉,还因为教学工具(计算机硬件和软件)的小毛病:
- 算数精度问题(就像用圆规画圆):
现在的 AI 训练为了省内存,经常用一种叫 BF16 的“低精度”数字格式。这就像是用一把刻度很粗糙的尺子去量东西。
- 比喻:当老师想奖励学生尝试“冷门但正确”的解法时,因为尺子太粗糙,把“稍微高一点”的奖励误读成了“和原来一样”,甚至误读成了“要惩罚”。
- 后果:学生觉得尝试新东西没好处,反而更倾向于保守。
- 解决方案:作者发现,改用更精确的 FP16 格式(换把精细的尺子),就能解决这个问题,让 AI 重新愿意尝试新东西。
3. 作者的解决方案:给 AI 装上“好奇心调节器”
为了让 AI 保持探索精神,作者提出了两个新招数:
招数一:REPO(给奖励加个“平衡器”)
- 原理:传统的奖励只看“对不对”。REPO 说:“不对,还要看你有多意外。”
- 比喻:
- 如果学生用老方法做对了,给 1 分。
- 如果学生用从未想过的新方法做对了,虽然也是 1 分,但 REPO 会额外给他一个“惊喜奖”,因为这种解法太罕见了。
- 反之,如果学生用老方法做错了,就狠狠扣分;如果用新方法做错了,就稍微宽容一点,鼓励他继续试。
- 效果:这就像给学生的思维加了个弹簧,防止他缩成一团。无论怎么训练,他都会保留一部分“尝试新招”的冲动。
招数二:ADAPO(动态调整“宽容度”)
- 原理:传统的老师(DAPO)会设定一个规则:“如果学生偏离老方法太远,就限制他;如果偏离太近,就鼓励他。”但这个规则是死的。
- 比喻:ADAPO 是一个聪明的班主任。他会时刻盯着全班同学的“活跃程度”(熵)。
- 如果发现大家太死板了(熵太低),他就放宽限制,允许大家更天马行空地想。
- 如果发现大家太乱来了(熵太高),他就收紧限制,让大家稍微收敛一点。
- 效果:这种动态调整让 AI 始终处于一个“既不太死板,也不太混乱”的最佳学习状态。
4. 实验结果:不仅考得好,还能举一反三
作者用这些新方法训练了 AI(Qwen3 模型),结果非常惊人:
- 成绩更好:在解决复杂的数学题(AIME)和编程任务(AppWorld)时,这些 AI 不仅单次做对的概率高,而且能想出多种解法(Pass@k 更高)。
- 适应力强:这是最酷的一点。
- 普通 AI:在数学题上练熟了,再让它去写代码,它就“失忆”了,因为它的思维已经固化在数学题上了。
- 熵保持 AI:因为一直保持着“好奇心”和“多样性”,当它从数学题转到写代码时,它能快速适应,继续学习新技能,就像是一个真正灵活的学生,而不是只会背题的机器。
总结
这篇论文告诉我们:在训练 AI 时,不要只盯着“做对题”,还要盯着“保持思维的多样性”。
就像教孩子一样,如果只奖励标准答案,孩子就会变成只会做题的机器;如果鼓励他尝试不同的思路,即使偶尔走弯路,他最终会成为一个更有创造力、更能适应新环境的聪明人。作者通过修补计算机的“小毛病”和发明新的“奖励机制”,成功让 AI 重新找回了这种宝贵的“好奇心”。
Each language version is independently generated for its own context, not a direct translation.
这是一篇发表于 ICLR 2026 的论文《Entropy-Preserving Reinforcement Learning》(熵保持强化学习),主要探讨了在大语言模型(LLM)的强化学习(RL)微调过程中,如何防止“熵崩溃”(Entropy Collapse)以保持模型的探索能力和多样性。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- 背景:策略梯度算法(如 PPO、GRPO)已成为提升大语言模型推理能力的标准方法。这些算法通过在自身生成的轨迹上进行探索来学习。
- 核心问题:熵崩溃 (Entropy Collapse)。
- 许多现有的策略梯度算法在训练过程中会自然地降低策略的熵(即减少探索的多样性)。
- 这种现象导致模型过早收敛到局部最优解,虽然可能提高
pass@1(单次尝试正确率),但严重损害了 pass@k(多次尝试中至少有一次正确的概率)和模型的泛化能力。
- 模型在训练后期失去了探索新解决方案的能力,导致在后续任务或新环境中的可训练性(Trainability)下降。
- 现有挑战:
- 现有的改进算法(如 DAPO、GSPO)试图通过非对称截断(Asymmetric Clipping)来缓解这一问题,但效果往往依赖于隐式机制,且容易受到数值精度等实现细节的影响。
- 缺乏对熵动态的主动监控和显式控制。
2. 方法论 (Methodology)
论文从理论分析、实证发现到算法设计三个层面提出了系统性的解决方案。
2.1 理论分析:策略梯度的熵动力学
- 核心发现:熵的变化取决于**优势函数(Advantage)与对数概率(Log-probability)**之间的相关性。
- 如果高概率动作获得正优势,分布会变得更尖锐,熵降低。
- 如果低概率动作获得正优势,分布会变平,熵增加。
- 定理推导:
- PPO:其截断机制(Clipping)理论上可以限制单次更新的熵变化幅度,但多次 off-policy 更新会放大熵崩溃。
- DAPO & GSPO:通过非对称截断(允许更大的熵增加,限制熵减少)或序列级截断,隐式地提供了熵保持机制。
- RLOO:作为严格 on-policy 算法,虽然避免了 off-policy 漂移带来的熵崩溃放大,但如果基础模型已针对任务校准良好,优势与对数概率的正相关性仍会导致熵自然下降。
2.2 实证发现:实现细节的关键影响
论文揭示了两个常被忽视但至关重要的数值因素,它们能定性改变算法行为:
- 16 位量化对截断的影响:
- 在 BF16 精度下,由于舍入误差,重要性比率(Importance Ratio)的计算存在乘法向上偏差。
- 这导致非对称截断失效:高概率动作更容易触及上界截断(限制概率增加),而低概率动作更难触及下界截断。这实际上产生了一种促进熵减少的不对称性,与 DAPO 的设计初衷相反。
- FP16 vs BF16 训练:
- 使用 FP16(Float16)代替 BF16 进行训练,结合上述量化修复,能显著减少推理(vLLM)与训练子系统之间的差异,并有效缓解熵崩溃,使 DAPO 等算法能发挥其熵增加的特性。
2.3 提出的算法:显式熵控制机制
为了解决上述问题,作者提出了两种显式的熵控制方法:
3. 关键贡献 (Key Contributions)
- 理论统一视角:证明了熵动力学由优势函数与对数概率的相关性驱动,并解释了 PPO、DAPO、GSPO 等算法在熵行为上的差异。
- 发现数值陷阱:首次明确指出 BF16 量化导致的截断偏差是造成某些算法熵崩溃的重要原因,并证明了 FP16 训练结合量化修复能显著改善训练稳定性。
- 提出显式控制算法:提出了 REPO 和 ADAPO,通过显式机制(而非隐式启发式)主动维持目标熵水平。
- SOTA 性能:在 AppWorld 和 AIME 基准测试上取得了最先进的结果,特别是证明了严格 on-policy 的 RLOO 在数值修复后表现最佳。
4. 实验结果 (Results)
实验在 AppWorld(交互式工具使用代理)和 AIME(数学推理)两个基准上进行,使用了 Qwen-3-8B 和 Qwen-3-32B 模型。
- 熵动态与性能:
- 熵崩溃早的算法(如原始 GRPO)在测试集上表现较差。
- 保持熵稳定的算法(REPO-R, ADAPO)在整个训练过程中保持了较高的累积熵,最终测试准确率更高。
- 图 1 结论:训练过程中的熵轨迹(Entropy Trajectory)比最终熵值更能预测性能。
- 数值精度的影响:
- 在 Qwen-3-8B AppWorld 任务中,应用 FP16 和量化修复后,DAPO 从熵崩溃转变为熵增加,性能显著提升。
- SOTA 成绩:
- AppWorld:使用 RLOO + FP16 训练,Qwen-3-32B 达到了 79% (Test Normal) 和 71% (Test Challenge) 的通过率,超越了当时的 SOTA。
- AIME:熵保持方法在 AIME 2024/2025 上也表现出竞争力,且训练更稳定。
- 序列学习 (Sequential Learning):
- 在从 AIME 迁移到 AppWorld(或反之)的连续训练实验中,熵崩溃的模型(GRPO)失去了在新环境中探索的能力,而熵保持模型(REPO, DAPO)能迅速适应新任务。
5. 意义与结论 (Significance)
- 重新审视 RL 训练:论文强调熵(即探索能力)不应被视为训练的自然副产品,而应作为 RL 流水线中的**一等公民(First-class concern)**进行主动监控和控制。
- 工程实践指导:指出了数值精度(BF16 vs FP16)和框架行为(如 FSDP2 的输出转换)对 RL 稳定性的巨大影响,为未来的 LLM 强化学习训练提供了关键的工程建议。
- 算法设计方向:证明了显式的熵控制机制(如 REPO)比隐式机制更可靠,且能兼容 on-policy 和 off-policy 范式,有助于弱 on-policy 方法接近严格 on-policy 方法的性能,同时保留异步训练的高吞吐量优势。
总结:这篇论文不仅提出了新的熵保持算法(REPO, ADAPO),更重要的是揭示了数值实现细节对强化学习动态的深刻影响,为构建更鲁棒、更具探索性的大语言模型推理系统奠定了理论和实践基础。