Each language version is independently generated for its own context, not a direct translation.
这篇论文探讨了一个在大语言模型(LLM)训练中的有趣现象,并提出了一种聪明的解决办法。为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生(AI 模型)参加数学或编程考试。
1. 核心矛盾:只会做一道题,却忘了怎么变通
现状:
研究人员发现,用一种叫“强化学习(RLVR)”的方法训练 AI 后,AI 在第一次尝试就能答对题目的概率(Pass@1)提高了。这就像学生考试时,第一次动笔就能写出正确答案,看起来进步巨大。
问题:
但是,如果允许学生多试几次(比如给 8 次机会,只要有一次做对就算过,即 Pass@8),AI 的表现反而变差了,甚至比没训练前还差。
更糟糕的是,AI 开始“偏科”甚至“失忆”了。它只学会了某一种特定的解题套路,一旦题目稍微换个问法(出了训练范围),它就完全不会了。这就好比学生死记硬背了一套公式,稍微变个数字就不会算了。
原因:
以前的训练方法(论文中称为“反向 KL 散度”)就像是一个严厉的独裁老师。
- 这个老师只允许学生用一种他认为“最正确”的方法解题。
- 一旦学生尝试其他方法,老师就严厉惩罚。
- 结果:学生为了不被惩罚,只敢用那一种方法,思维变得僵化,失去了多样性。一旦遇到新题型,因为没有备选方案,就彻底崩盘。
2. 论文的解决方案:换个“开明”的老师
这篇论文提出,问题出在“老师”的管教方式(数学上的“散度”选择)不对。他们建议换一种管教方式,使用**“前向 KL 散度”或"JS 散度”**。
新的教学理念(DPH-RL 框架):
- 把“复习”变成“保命符”: 以前的方法只盯着“怎么拿高分”,忽略了“怎么不忘本”。新方法引入了一个**“记忆锚点”**。
- 分而治之的策略:
- 对于简单的题(学生已经会了): 老师不再强迫学生只写一种答案,而是要求:“你以前会的那些解法,现在还能写出来吗?请保持多样性,别把以前的技能忘了。”这就像让学生不断复习旧知识,防止遗忘。
- 对于难题(学生还不会): 老师则放手让学生大胆尝试各种新方法,去探索未知的领域。
通俗比喻:
想象你在教一个厨师做菜。
- 旧方法(反向 KL): 厨师做出一道完美的宫保鸡丁后,你告诉他:“以后只能用这一种做法,任何改动都是错的。”结果厨师只会做这一种,一旦让你做鱼香肉丝,他因为思维僵化,完全做不出来。
- 新方法(DPH-RL): 你告诉厨师:“这道宫保鸡丁你已经很熟了,但你要记住你以前做过的所有菜系(复习旧技能),保持手法的多样性。同时,对于新菜式,你可以大胆创新。”
- 这样,厨师既保留了做旧菜的手艺(防止遗忘),又能在做新菜时灵活变通(保持多样性)。
3. 为什么这个方法很厉害?
- 既快又稳: 实验证明,用这种方法训练的 AI,不仅第一次做对题的概率高了,而且多试几次做对的概率也大幅提升了。
- 不忘本: 即使遇到没见过的题目(跨领域测试),AI 也不会像以前那样“失忆”,依然能保持不错的水平。
- 省钱省力: 以前的方法可能需要同时运行两个模型(一个参考,一个训练),非常消耗算力。而这篇论文的方法巧妙地利用“预采样”技术,不需要额外的参考模型,就像老师手里拿着学生以前的作业本直接复习,既高效又省钱。
总结
这篇论文的核心思想就是:在训练 AI 时,不要只盯着“怎么把答案做对”,还要时刻提醒 AI“别忘了你原本拥有的多种解题思路”。
通过改变“管教方式”(从只允许一种解法,变为鼓励保留多种解法),他们成功解决了 AI 训练中的“多样性崩溃”和“灾难性遗忘”问题,让 AI 变得更聪明、更灵活,也更像一个真正会思考的人类。
Each language version is independently generated for its own context, not a direct translation.
这是一篇发表于 ICLR 2026 的会议论文,题为 《Divergence 的选择:缓解强化学习中多样性崩溃的被忽视关键》 (THE CHOICE OF DIVERGENCE: A NEGLECTED KEY TO MITIGATING DIVERSITY COLLAPSE IN REINFORCEMENT LEARNING WITH VERIFIABLE REWARD)。
以下是对该论文的详细技术总结:
1. 研究背景与核心问题 (Problem)
在利用可验证奖励的强化学习 (RLVR) 微调大语言模型 (LLM) 时,存在一个显著的悖论:
- 现象:模型在单次尝试中的准确率 (Pass@1) 通常得到提升,但在允许多次尝试时的多轮成功率 (Pass@k) 却往往停滞甚至下降。
- 后果:这种下降伴随着灾难性遗忘 (Catastrophic Forgetting),即模型失去了之前掌握的技能,且泛化能力(特别是在域外任务 OOD 上)严重受损。
- 现有局限:社区普遍采用标准的反向 KL 散度 (Reverse-KL) 作为约束项,或者完全放弃散度项。
- Reverse-KL 具有“模式寻求 (Mode-seeking)"特性,倾向于将策略收敛到单一的高概率解,从而抑制了多样性。
- 无散度项 则无法防止模型偏离其原本多样化的知识库。
- 核心假设:现有的 RLVR 目标缺乏一种关键的机制来保留知识。作者认为,散度项本身的选择是解决这一问题的关键,而不仅仅是将其视为约束。
2. 方法论 (Methodology)
作者提出了 多样性保持混合强化学习 (Diversity-Preserving Hybrid RL, DPH-RL) 框架。其核心思想是将散度项从单纯的“约束”转变为主动的“多样性保持机制”,利用覆盖质量 (Mass-covering) 的 f-散度(如前向 KL 和 JS 散度)作为“重演机制 (Rehearsal Mechanism)"。
2.1 核心策略:数据划分与双阶段训练
DPH-RL 将数据集 D 划分为两个子集,针对不同难度的样本采用不同的优化策略:
预采样阶段 (Pre-sampling Stage):
- 对每个查询生成 k 个样本。
- 根据正确率阈值将数据分为:
- Dpef (Near-perfect):模型已掌握或接近完美的样本。
- Dexp (Exploration):模型尚未掌握或具有挑战性的样本。
- 这种划分允许代理在 Dexp 上自由探索,同时在 Dpef 上通过散度约束保持原有能力。
在线训练阶段 (Online Training Stage):
- 针对 Dexp:移除 KL 惩罚,仅使用奖励信号进行纯策略优化(如标准 PPO/GRPO 目标),鼓励最大程度的探索。
- 针对 Dpef:引入 f-散度 作为损失项,强制模型保持对参考策略 πref 的覆盖。
- DPH-F (Forward-KL):使用前向 KL 散度 DKL(πref∣∣πθ)。其“覆盖质量”特性惩罚模型遗漏参考分布中的任何模式,迫使模型保留原始的知识多样性。
- DPH-JS (Jensen-Shannon):使用 JS 散度。它是对称的,既鼓励新策略与参考策略保持高相似度,又防止策略崩溃,是一种更稳定的正则化重演机制。
2.2 实现细节:基于生成器的实现 (Generator-based Implementation)
- 为了计算效率,DPH-RL 采用预采样策略。在训练前从参考策略 πref 采样生成静态数据集。
- 在训练过程中,利用这些预采样的数据计算 f-散度损失,无需在在线训练循环中运行参考模型进行推理。这使得该方法在计算成本上与 GRPO 相当,且无需额外的在线参考模型。
2.3 理论保证
- 作者推导了增强的单调改进定理 (Enhanced Monotonic Improvement Theorem)。
- 证明表明,在 Dpef 区域,由于存在专家行为(δ>0)且正则化有效,策略改进的下界比传统 TRPO 更严格,从而加速收敛。
- 在 Dexp 区域,正则化项自动失效,退化为标准的 TRPO 保证,允许自由探索。
3. 主要贡献 (Key Contributions)
- 系统性分析:首次系统性地分析了 RLVR 中解多样性崩溃的原因,指出标准 Reverse-KL 散度是导致 Pass@k 下降和灾难性遗忘的主要原因。
- 提出 DPH-RL 框架:重新定义了 KL 散度的角色,提出利用前向 KL 和 JS 散度作为“重演机制”。该方法无需外部模型即可有效防止多样性崩溃。
- 广泛的实证验证:在 Llama 和 Qwen 系列模型(7B-32B)上,针对数学推理和 SQL 生成任务进行了广泛实验。结果表明 DPH-RL 在 Pass@1 和 Pass@k 上均优于 GRPO、DAPO 和 Reverse-KL 基线,且在域外任务上表现出极强的鲁棒性。
4. 实验结果 (Results)
实验在 SQL (Bird, Spider) 和 数学推理 (AIME, AMC, Math500 等) 任务上进行:
- Pass@k 性能提升:
- 在 Bird 数据集上,DPH-JS 的 Pass@8 比 GRPO 和 DAPO 分别高出 4.3% 和 3.3%。
- 在 Spider(跨域)任务上,所有基线模型性能均下降,但 DPH-F 和 DPH-JS 能保持接近基线模型的准确率。DPH-F 的 Pass@16 比 DAPO 高出 9.0%。
- 防止灾难性遗忘 (OOD 表现):
- 在 SQL 训练后评估数学任务(OOD),GRPO 和 DAPO 导致模型过拟合 SQL 领域,数学性能大幅下降。
- DPH-F 和 DPH-JS 在 OOD 任务上的平均性能分别比 DAPO 高出 8.35% 和 7.6%。
- 多样性保持:
- 通过风格分布实验(Appendix B),Reverse-KL 导致模型输出退化为单一风格(94% 为一种风格),而 DPH-F 显著缓解了这一问题,保持了多种解题风格。
- 训练效率:
- DPH-RL 的“生成器”形式仅需从初始策略采样,无需在线参考模型,计算效率与 GRPO 相当。
5. 意义与结论 (Significance)
- 范式转变:该工作挑战了 RLVR 中默认使用 Reverse-KL 的惯例,证明了散度测量的选择是构建更通用、更多样化推理模型的关键杠杆。
- 解决核心矛盾:DPH-RL 成功解决了“贪婪性能 (Pass@1)"与“解多样性 (Pass@k)"之间的权衡问题,同时缓解了强化学习中的灾难性遗忘。
- 实用价值:该方法即插即用 (Plug-and-play),不依赖复杂的额外模型或数据,为未来的 LLM 强化学习微调提供了新的标准方向。
总结:这篇论文通过引入前向 KL 和 JS 散度作为“重演机制”,并配合数据划分策略,有效解决了 RLVR 中因过度优化单一解而导致的多样性崩溃和遗忘问题,显著提升了模型在复杂推理任务中的鲁棒性和泛化能力。