The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个在大语言模型（LLM）训练中的有趣现象，并提出了一种聪明的解决办法。为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生（AI 模型）参加数学或编程考试。

1. 核心矛盾：只会做一道题，却忘了怎么变通

现状：
研究人员发现，用一种叫“强化学习（RLVR）”的方法训练 AI 后，AI 在第一次尝试就能答对题目的概率（Pass@1）提高了。这就像学生考试时，第一次动笔就能写出正确答案，看起来进步巨大。

问题：
但是，如果允许学生多试几次（比如给 8 次机会，只要有一次做对就算过，即 Pass@8），AI 的表现反而变差了，甚至比没训练前还差。
更糟糕的是，AI 开始“偏科”甚至“失忆”了。它只学会了某一种特定的解题套路，一旦题目稍微换个问法（出了训练范围），它就完全不会了。这就好比学生死记硬背了一套公式，稍微变个数字就不会算了。

原因：
以前的训练方法（论文中称为“反向 KL 散度”）就像是一个严厉的独裁老师。

这个老师只允许学生用一种他认为“最正确”的方法解题。
一旦学生尝试其他方法，老师就严厉惩罚。
结果：学生为了不被惩罚，只敢用那一种方法，思维变得僵化，失去了多样性。一旦遇到新题型，因为没有备选方案，就彻底崩盘。

2. 论文的解决方案：换个“开明”的老师

这篇论文提出，问题出在“老师”的管教方式（数学上的“散度”选择）不对。他们建议换一种管教方式，使用**“前向 KL 散度”或"JS 散度”**。

新的教学理念（DPH-RL 框架）：

把“复习”变成“保命符”： 以前的方法只盯着“怎么拿高分”，忽略了“怎么不忘本”。新方法引入了一个**“记忆锚点”**。
分而治之的策略：
- 对于简单的题（学生已经会了）： 老师不再强迫学生只写一种答案，而是要求：“你以前会的那些解法，现在还能写出来吗？请保持多样性，别把以前的技能忘了。”这就像让学生不断复习旧知识，防止遗忘。
- 对于难题（学生还不会）： 老师则放手让学生大胆尝试各种新方法，去探索未知的领域。

通俗比喻：
想象你在教一个厨师做菜。

旧方法（反向 KL）： 厨师做出一道完美的宫保鸡丁后，你告诉他：“以后只能用这一种做法，任何改动都是错的。”结果厨师只会做这一种，一旦让你做鱼香肉丝，他因为思维僵化，完全做不出来。
新方法（DPH-RL）： 你告诉厨师：“这道宫保鸡丁你已经很熟了，但你要记住你以前做过的所有菜系（复习旧技能），保持手法的多样性。同时，对于新菜式，你可以大胆创新。”
- 这样，厨师既保留了做旧菜的手艺（防止遗忘），又能在做新菜时灵活变通（保持多样性）。

3. 为什么这个方法很厉害？

既快又稳： 实验证明，用这种方法训练的 AI，不仅第一次做对题的概率高了，而且多试几次做对的概率也大幅提升了。
不忘本： 即使遇到没见过的题目（跨领域测试），AI 也不会像以前那样“失忆”，依然能保持不错的水平。
省钱省力： 以前的方法可能需要同时运行两个模型（一个参考，一个训练），非常消耗算力。而这篇论文的方法巧妙地利用“预采样”技术，不需要额外的参考模型，就像老师手里拿着学生以前的作业本直接复习，既高效又省钱。

总结

这篇论文的核心思想就是：在训练 AI 时，不要只盯着“怎么把答案做对”，还要时刻提醒 AI“别忘了你原本拥有的多种解题思路”。

通过改变“管教方式”（从只允许一种解法，变为鼓励保留多种解法），他们成功解决了 AI 训练中的“多样性崩溃”和“灾难性遗忘”问题，让 AI 变得更聪明、更灵活，也更像一个真正会思考的人类。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为《Divergence 的选择：缓解强化学习中多样性崩溃的被忽视关键》 (THE CHOICE OF DIVERGENCE: A NEGLECTED KEY TO MITIGATING DIVERSITY COLLAPSE IN REINFORCEMENT LEARNING WITH VERIFIABLE REWARD)。

以下是对该论文的详细技术总结：

1. 研究背景与核心问题 (Problem)

在利用可验证奖励的强化学习 (RLVR) 微调大语言模型 (LLM) 时，存在一个显著的悖论：

现象：模型在单次尝试中的准确率 (Pass@1) 通常得到提升，但在允许多次尝试时的多轮成功率 (Pass@k) 却往往停滞甚至下降。
后果：这种下降伴随着灾难性遗忘 (Catastrophic Forgetting)，即模型失去了之前掌握的技能，且泛化能力（特别是在域外任务 OOD 上）严重受损。
现有局限：社区普遍采用标准的反向 KL 散度 (Reverse-KL) 作为约束项，或者完全放弃散度项。
- Reverse-KL 具有“模式寻求 (Mode-seeking)"特性，倾向于将策略收敛到单一的高概率解，从而抑制了多样性。
- 无散度项 则无法防止模型偏离其原本多样化的知识库。
核心假设：现有的 RLVR 目标缺乏一种关键的机制来保留知识。作者认为，散度项本身的选择是解决这一问题的关键，而不仅仅是将其视为约束。

2. 方法论 (Methodology)

作者提出了 多样性保持混合强化学习 (Diversity-Preserving Hybrid RL, DPH-RL) 框架。其核心思想是将散度项从单纯的“约束”转变为主动的“多样性保持机制”，利用覆盖质量 (Mass-covering) 的 f-散度（如前向 KL 和 JS 散度）作为“重演机制 (Rehearsal Mechanism)"。

2.1 核心策略：数据划分与双阶段训练

DPH-RL 将数据集 $D$ 划分为两个子集，针对不同难度的样本采用不同的优化策略：

预采样阶段 (Pre-sampling Stage)：
- 对每个查询生成 $k$ 个样本。
- 根据正确率阈值将数据分为：
  - $D_{pef}$ (Near-perfect)：模型已掌握或接近完美的样本。
  - $D_{exp}$ (Exploration)：模型尚未掌握或具有挑战性的样本。
- 这种划分允许代理在 $D_{exp}$ 上自由探索，同时在 $D_{pef}$ 上通过散度约束保持原有能力。
在线训练阶段 (Online Training Stage)：
- 针对 $D_{exp}$ ：移除 KL 惩罚，仅使用奖励信号进行纯策略优化（如标准 PPO/GRPO 目标），鼓励最大程度的探索。
- 针对 $D_{pef}$ ：引入 f-散度 作为损失项，强制模型保持对参考策略 $\pi_{ref}$ $π_{r e f}$ 的覆盖。
  - DPH-F (Forward-KL)：使用前向 KL 散度 $D_{KL}(\pi_{ref} || \pi_\theta)$ 。其“覆盖质量”特性惩罚模型遗漏参考分布中的任何模式，迫使模型保留原始的知识多样性。
  - DPH-JS (Jensen-Shannon)：使用 JS 散度。它是对称的，既鼓励新策略与参考策略保持高相似度，又防止策略崩溃，是一种更稳定的正则化重演机制。

2.2 实现细节：基于生成器的实现 (Generator-based Implementation)

为了计算效率，DPH-RL 采用预采样策略。在训练前从参考策略 $\pi_{ref}$ 采样生成静态数据集。
在训练过程中，利用这些预采样的数据计算 f-散度损失，无需在在线训练循环中运行参考模型进行推理。这使得该方法在计算成本上与 GRPO 相当，且无需额外的在线参考模型。

2.3 理论保证

作者推导了增强的单调改进定理 (Enhanced Monotonic Improvement Theorem)。
证明表明，在 $D_{pef}$ 区域，由于存在专家行为（ $\delta > 0$ ）且正则化有效，策略改进的下界比传统 TRPO 更严格，从而加速收敛。
在 $D_{exp}$ 区域，正则化项自动失效，退化为标准的 TRPO 保证，允许自由探索。

3. 主要贡献 (Key Contributions)

系统性分析：首次系统性地分析了 RLVR 中解多样性崩溃的原因，指出标准 Reverse-KL 散度是导致 Pass@k 下降和灾难性遗忘的主要原因。
提出 DPH-RL 框架：重新定义了 KL 散度的角色，提出利用前向 KL 和 JS 散度作为“重演机制”。该方法无需外部模型即可有效防止多样性崩溃。
广泛的实证验证：在 Llama 和 Qwen 系列模型（7B-32B）上，针对数学推理和 SQL 生成任务进行了广泛实验。结果表明 DPH-RL 在 Pass@1 和 Pass@k 上均优于 GRPO、DAPO 和 Reverse-KL 基线，且在域外任务上表现出极强的鲁棒性。

4. 实验结果 (Results)

实验在 SQL (Bird, Spider) 和 数学推理 (AIME, AMC, Math500 等) 任务上进行：

Pass@k 性能提升：
- 在 Bird 数据集上，DPH-JS 的 Pass@8 比 GRPO 和 DAPO 分别高出 4.3% 和 3.3%。
- 在 Spider（跨域）任务上，所有基线模型性能均下降，但 DPH-F 和 DPH-JS 能保持接近基线模型的准确率。DPH-F 的 Pass@16 比 DAPO 高出 9.0%。
防止灾难性遗忘 (OOD 表现)：
- 在 SQL 训练后评估数学任务（OOD），GRPO 和 DAPO 导致模型过拟合 SQL 领域，数学性能大幅下降。
- DPH-F 和 DPH-JS 在 OOD 任务上的平均性能分别比 DAPO 高出 8.35% 和 7.6%。
多样性保持：
- 通过风格分布实验（Appendix B），Reverse-KL 导致模型输出退化为单一风格（94% 为一种风格），而 DPH-F 显著缓解了这一问题，保持了多种解题风格。
训练效率：
- DPH-RL 的“生成器”形式仅需从初始策略采样，无需在线参考模型，计算效率与 GRPO 相当。

5. 意义与结论 (Significance)

范式转变：该工作挑战了 RLVR 中默认使用 Reverse-KL 的惯例，证明了散度测量的选择是构建更通用、更多样化推理模型的关键杠杆。
解决核心矛盾：DPH-RL 成功解决了“贪婪性能 (Pass@1)"与“解多样性 (Pass@k)"之间的权衡问题，同时缓解了强化学习中的灾难性遗忘。
实用价值：该方法即插即用 (Plug-and-play)，不依赖复杂的额外模型或数据，为未来的 LLM 强化学习微调提供了新的标准方向。

总结：这篇论文通过引入前向 KL 和 JS 散度作为“重演机制”，并配合数据划分策略，有效解决了 RLVR 中因过度优化单一解而导致的多样性崩溃和遗忘问题，显著提升了模型在复杂推理任务中的鲁棒性和泛化能力。

The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward

1. 核心矛盾：只会做一道题，却忘了怎么变通

2. 论文的解决方案：换个“开明”的老师

3. 为什么这个方法很厉害？

总结

1. 研究背景与核心问题 (Problem)

2. 方法论 (Methodology)

2.1 核心策略：数据划分与双阶段训练

2.2 实现细节：基于生成器的实现 (Generator-based Implementation)

2.3 理论保证

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction