Entropy-Preserving Reinforcement Learning

该论文指出传统策略梯度算法在训练过程中会自然降低熵值从而限制探索多样性,因此提出通过 REPO 和 ADAPO 等显式熵控制机制来维持策略的多样性,从而提升模型性能并增强其在后续环境中的持续学习能力。

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl

发布于 2026-03-13
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要讲的是:如何让 AI 在“学习”过程中保持“好奇心”,不要过早地变得固执己见,从而学会更聪明、更多样化的解决问题方法。

我们可以把这篇论文的核心思想想象成教一个学生(AI)做数学题或写代码的过程。

1. 核心问题:学生“钻牛角尖”了(熵崩溃)

想象一下,你教一个学生做题。

  • 刚开始:学生很聪明,会尝试各种各样的解法。有的解法很笨,有的很巧妙,有的甚至有点荒谬。这时候他的思维很活跃(论文里叫“高熵”)。
  • 训练过程中:传统的强化学习方法(比如 GRPO)就像是一个严厉但有点死板的老师。一旦学生发现某种解法能得分(比如做对了),老师就会疯狂奖励这种解法,并严厉惩罚其他所有解法。
  • 结果:学生很快发现:“哦,原来只要用这一种方法就能拿高分!”于是,他不再尝试其他方法了,把所有精力都死磕在这一种解法上。
    • 短期看:他做对这道题的概率(Pass@1)变高了。
    • 长期看:他变得死板了。如果遇到稍微变通一点的题目,或者需要多种解法组合的难题,他就束手无策了。因为他已经“熵崩溃”了——他的思维多样性消失了,变成了只会一种招数的机器。

2. 论文的发现:为什么学生会变傻?

作者发现,这种“死板”不仅仅是因为老师太严厉,还因为教学工具(计算机硬件和软件)的小毛病

  • 算数精度问题(就像用圆规画圆)
    现在的 AI 训练为了省内存,经常用一种叫 BF16 的“低精度”数字格式。这就像是用一把刻度很粗糙的尺子去量东西。
    • 比喻:当老师想奖励学生尝试“冷门但正确”的解法时,因为尺子太粗糙,把“稍微高一点”的奖励误读成了“和原来一样”,甚至误读成了“要惩罚”。
    • 后果:学生觉得尝试新东西没好处,反而更倾向于保守。
    • 解决方案:作者发现,改用更精确的 FP16 格式(换把精细的尺子),就能解决这个问题,让 AI 重新愿意尝试新东西。

3. 作者的解决方案:给 AI 装上“好奇心调节器”

为了让 AI 保持探索精神,作者提出了两个新招数:

招数一:REPO(给奖励加个“平衡器”)

  • 原理:传统的奖励只看“对不对”。REPO 说:“不对,还要看你有多意外。”
  • 比喻
    • 如果学生用老方法做对了,给 1 分。
    • 如果学生用从未想过的新方法做对了,虽然也是 1 分,但 REPO 会额外给他一个“惊喜奖”,因为这种解法太罕见了。
    • 反之,如果学生用老方法做错了,就狠狠扣分;如果用新方法做错了,就稍微宽容一点,鼓励他继续试。
  • 效果:这就像给学生的思维加了个弹簧,防止他缩成一团。无论怎么训练,他都会保留一部分“尝试新招”的冲动。

招数二:ADAPO(动态调整“宽容度”)

  • 原理:传统的老师(DAPO)会设定一个规则:“如果学生偏离老方法太远,就限制他;如果偏离太近,就鼓励他。”但这个规则是死的。
  • 比喻:ADAPO 是一个聪明的班主任。他会时刻盯着全班同学的“活跃程度”(熵)。
    • 如果发现大家太死板了(熵太低),他就放宽限制,允许大家更天马行空地想。
    • 如果发现大家太乱来了(熵太高),他就收紧限制,让大家稍微收敛一点。
  • 效果:这种动态调整让 AI 始终处于一个“既不太死板,也不太混乱”的最佳学习状态。

4. 实验结果:不仅考得好,还能举一反三

作者用这些新方法训练了 AI(Qwen3 模型),结果非常惊人:

  1. 成绩更好:在解决复杂的数学题(AIME)和编程任务(AppWorld)时,这些 AI 不仅单次做对的概率高,而且能想出多种解法(Pass@k 更高)。
  2. 适应力强:这是最酷的一点。
    • 普通 AI:在数学题上练熟了,再让它去写代码,它就“失忆”了,因为它的思维已经固化在数学题上了。
    • 熵保持 AI:因为一直保持着“好奇心”和“多样性”,当它从数学题转到写代码时,它能快速适应,继续学习新技能,就像是一个真正灵活的学生,而不是只会背题的机器。

总结

这篇论文告诉我们:在训练 AI 时,不要只盯着“做对题”,还要盯着“保持思维的多样性”。

就像教孩子一样,如果只奖励标准答案,孩子就会变成只会做题的机器;如果鼓励他尝试不同的思路,即使偶尔走弯路,他最终会成为一个更有创造力、更能适应新环境的聪明人。作者通过修补计算机的“小毛病”和发明新的“奖励机制”,成功让 AI 重新找回了这种宝贵的“好奇心”。