The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

该论文提出了一种名为 DPH-RL 的新框架,通过利用前向 KL 散度等质量覆盖型 f-散度作为重放机制来替代传统的模式寻求型散度,从而有效解决了强化学习验证奖励(RLVR)微调中常见的多样性崩溃与灾难性遗忘问题,在提升单样本准确率(Pass@1)的同时显著改善了多尝试性能(Pass@k)并提高了训练效率。

Long Li, Zhijian Zhou, Jiaran Hao, Jason Klein Liu, Yanting Miao, Wei Pang, Xiaoyu Tan, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大语言模型(LLM)训练中的有趣现象,并提出了一种聪明的解决办法。为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生(AI 模型)参加数学或编程考试

1. 核心矛盾:只会做一道题,却忘了怎么变通

现状:
研究人员发现,用一种叫“强化学习(RLVR)”的方法训练 AI 后,AI 在第一次尝试就能答对题目的概率(Pass@1)提高了。这就像学生考试时,第一次动笔就能写出正确答案,看起来进步巨大。

问题:
但是,如果允许学生多试几次(比如给 8 次机会,只要有一次做对就算过,即 Pass@8),AI 的表现反而变差了,甚至比没训练前还差。
更糟糕的是,AI 开始“偏科”甚至“失忆”了。它只学会了某一种特定的解题套路,一旦题目稍微换个问法(出了训练范围),它就完全不会了。这就好比学生死记硬背了一套公式,稍微变个数字就不会算了。

原因:
以前的训练方法(论文中称为“反向 KL 散度”)就像是一个严厉的独裁老师

  • 这个老师只允许学生用一种他认为“最正确”的方法解题。
  • 一旦学生尝试其他方法,老师就严厉惩罚。
  • 结果:学生为了不被惩罚,只敢用那一种方法,思维变得僵化,失去了多样性。一旦遇到新题型,因为没有备选方案,就彻底崩盘。

2. 论文的解决方案:换个“开明”的老师

这篇论文提出,问题出在“老师”的管教方式(数学上的“散度”选择)不对。他们建议换一种管教方式,使用**“前向 KL 散度”"JS 散度”**。

新的教学理念(DPH-RL 框架):

  • 把“复习”变成“保命符”: 以前的方法只盯着“怎么拿高分”,忽略了“怎么不忘本”。新方法引入了一个**“记忆锚点”**。
  • 分而治之的策略:
    • 对于简单的题(学生已经会了): 老师不再强迫学生只写一种答案,而是要求:“你以前会的那些解法,现在还能写出来吗?请保持多样性,别把以前的技能忘了。”这就像让学生不断复习旧知识,防止遗忘。
    • 对于难题(学生还不会): 老师则放手让学生大胆尝试各种新方法,去探索未知的领域。

通俗比喻:
想象你在教一个厨师做菜。

  • 旧方法(反向 KL): 厨师做出一道完美的宫保鸡丁后,你告诉他:“以后只能用这一种做法,任何改动都是错的。”结果厨师只会做这一种,一旦让你做鱼香肉丝,他因为思维僵化,完全做不出来。
  • 新方法(DPH-RL): 你告诉厨师:“这道宫保鸡丁你已经很熟了,但你要记住你以前做过的所有菜系(复习旧技能),保持手法的多样性。同时,对于新菜式,你可以大胆创新。”
    • 这样,厨师既保留了做旧菜的手艺(防止遗忘),又能在做新菜时灵活变通(保持多样性)。

3. 为什么这个方法很厉害?

  1. 既快又稳: 实验证明,用这种方法训练的 AI,不仅第一次做对题的概率高了,而且多试几次做对的概率也大幅提升了。
  2. 不忘本: 即使遇到没见过的题目(跨领域测试),AI 也不会像以前那样“失忆”,依然能保持不错的水平。
  3. 省钱省力: 以前的方法可能需要同时运行两个模型(一个参考,一个训练),非常消耗算力。而这篇论文的方法巧妙地利用“预采样”技术,不需要额外的参考模型,就像老师手里拿着学生以前的作业本直接复习,既高效又省钱。

总结

这篇论文的核心思想就是:在训练 AI 时,不要只盯着“怎么把答案做对”,还要时刻提醒 AI“别忘了你原本拥有的多种解题思路”。

通过改变“管教方式”(从只允许一种解法,变为鼓励保留多种解法),他们成功解决了 AI 训练中的“多样性崩溃”和“灾难性遗忘”问题,让 AI 变得更聪明、更灵活,也更像一个真正会思考的人类。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →