DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DyJR 的新方法，旨在让大型语言模型（LLM）在解决复杂问题（如数学题或写代码）时变得更聪明、更灵活。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生（AI）参加一场高难度的数学竞赛。

1. 现在的困境：学生“钻牛角尖”了

目前的训练方法（比如 GRPO）有点像这样：

做法：老师让学生做一套题，做对了就奖励，做错了就惩罚。做完这一套题后，老师就把这套题扔进垃圾桶，让学生立刻做下一套新的。
问题：
1. 浪费资源：以前做对的题目被扔掉了，太可惜。
2. 钻牛角尖（模式崩塌）：学生发现只要用“第一种解法”就能拿高分，于是他就死记硬背这一种解法。哪怕遇到稍微变通一点的题目，他也只会用那一种死板的方法，导致思维僵化，遇到新题就卡壳。
3. 旧方法太笨：以前的“复习旧题”方法（经验回放），是把所有做对的题都堆在脑子里。但这就像让学生背一本厚厚的错题集，不仅记不住（占用太多内存），而且因为题目太杂，反而让学生 confused，甚至为了迎合旧题而忘了怎么灵活思考。

2. DyJR 的核心思想：不仅要“对”，更要“活”

DyJR 的作者认为：复习旧题的目的，不应该是为了让学生死记硬背那个“标准答案”，而是为了让他记住“当时思考的多样性”。

这就好比：

旧思路：学生只背“这道题答案是 42"。
新思路 (DyJR)：学生要记住“当时我尝试了三种不同的思路，虽然最后只有一种对了，但另外两种思路在别的题目里可能很有用”。

3. DyJR 的两大“独门秘籍”

秘籍一：动态的“记忆保鲜盒” (Dynamic Buffer)

比喻：想象学生有一个智能记忆盒。
- 只留新鲜的：这个盒子有个“保质期”。它只保留最近几天（比如最近 8 次训练）做对的题目。太旧的题目（比如一个月前的）会被自动清理掉。因为 AI 的能力在快速进化，一个月前的“正确解法”对现在的 AI 来说可能已经过时或太简单了，留着反而干扰学习。
- 关键时刻多装：在刚开始训练（学生还很懵懂）的时候，盒子会变大，多装一些题目，防止学生还没学会走就急着跑（防止早期思维僵化）。等学生稳定了，盒子就变小，只留精华。
- 效果：既省空间，又保证了复习的内容是“当下最有用”的。

秘籍二：用“多样性”来约束，而不是“硬改” (JS 散度正则化)

比喻：这是 DyJR 最精彩的地方。
- 旧方法（直接更新）：就像老师拿着红笔，强行把学生脑子里的“解法 A"改成“解法 B"。这容易导致学生只记得 B，忘了 A。
- DyJR 方法（JS 散度约束）：老师不直接改答案，而是给学生一个**“思维指南针”**。
  - 老师告诉学生：“你现在的解法，不能离你过去那些‘成功的尝试’太远。”
  - 具体来说，它计算当前解法和过去所有成功解法混合在一起的“平均风格”之间的距离。如果学生太偏激（只盯着一种解法），这个“指南针”就会把他拉回来，让他保持思维的多样性。
  - 关键点：它不是强迫学生变成某一种特定的解法，而是强迫学生保持多种解法并存的可能性。

4. 结果如何？

实验证明，DyJR 就像给 AI 装上了“防呆装置”和“思维加速器”：

更聪明：在数学竞赛（如 AIME, HMMT）和写 SQL 代码的任务中，DyJR 的成绩比原来的方法（GRPO）和其他竞争对手都要好。
更灵活：AI 不再只会死磕一种解法。当你让它尝试 100 种不同的解法时，它能找出正确答案的概率（Pass@k）大幅提升。
更省钱：因为它只存最近的数据，不需要巨大的内存，训练速度也没有变慢。

总结

DyJR 就像一位高明的教练：
他不再让学生死记硬背所有的旧题，而是建立一个**“精选的近期题库”**，并时刻提醒学生："不要只走一条路，要保留多种思考路径的可能性。"

通过这种方法，AI 模型在解决复杂问题时，既保持了高准确率，又避免了思维僵化，变得更加灵活、强壮和高效。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DyJR (Dynamic Jensen-Shannon Replay) 的新框架，旨在解决大语言模型（LLM）在可验证奖励强化学习（RLVR）中面临的样本效率低下和模式坍塌（Mode Collapse）问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：强化学习（RL）通过长思维链（CoT）探索显著提升了 LLM 的推理能力（如 OpenAI o1）。目前主流的可验证奖励 RL 算法（如 GRPO）采用On-policy策略，即每次更新后丢弃之前的 rollout 数据，导致样本效率极低，浪费了大量计算资源。
现有方案的局限性：
- 经验回放（Experience Replay）的误区：现有的回放方法（如 RLEP, Ex-GRPO）通常将历史数据视为额外的正样本，直接进行策略梯度更新。
- 模式坍塌：这种直接最大化历史轨迹似然的方法会导致模型过拟合特定的解题路径，迅速丧失探索能力（多样性下降）。
- 资源消耗：为了存储大量历史轨迹以进行回放，这些方法通常需要巨大的显存开销。
- 数据价值误判：作者指出，RL 训练早期（前 20 步左右）模型熵值下降最快，此时历史数据最具价值；而后期数据价值较低。盲目存储所有历史数据不仅浪费资源，还可能引入噪声。

2. 核心方法论 (Methodology)

DyJR 重新定义了经验回放的角色：从“通过正确样本优化准确率”转变为“通过分布约束维持多样性”。其核心包含两个创新点：

(1) 时间敏感的动态缓冲区 (Time-Sensitive Dynamic Buffer)

动态容量机制：摒弃了固定大小的缓冲区。在训练初期的快速过渡阶段（模型熵急剧下降时），缓冲区容量自动扩大以捕获高熵的推理模式；随着模型稳定，容量自动收缩。
FIFO 与时间邻近性：采用先进先出（FIFO）策略，仅保留与当前模型在时间上最邻近的样本（即最近生成的样本）。
置信度分层选择：引入基于置信度（ $C_{id}$ ，即一个查询下正确响应的数量）的采样策略。优先保留高置信度的完美轨迹，但在困难任务中适当放宽标准以捕获稀有解，防止“灾难性遗忘”。
早期多样性保护：在训练热身阶段（前 20 步），临时提高目标填充率，主动引入更多探索性样本，防止缓冲区未填满前策略过早坍塌。

(2) 杰森 - 香农散度正则化 (Jensen-Shannon Divergence Regularization)

替代直接梯度更新：不再将历史数据作为直接更新梯度的正样本，而是将其视为一个动态分布锚点。
JS 散度约束：计算当前策略 $\pi_\theta$ $π_{θ}$ 与缓冲区中混合历史策略分布 $Q_B$ $Q_{B}$ 之间的 Jensen-Shannon (JS) 散度，并将其作为正则化项加入损失函数。
- 公式： $L_{total} = L_{GRPO} + \alpha_{JS} \cdot L_{JS}$
- 优势：JS 散度是对称且有界的（ $[0, \ln 2]$ ），相比前向 KL 散度（Mode-covering，倾向于覆盖所有模式导致过度平滑）和反向 KL 散度（Mode-seeking，倾向于忽略低概率模式），JS 散度能更稳健地平衡对齐与探索，防止模型过度偏离多样化的成功路径。
低方差估计器：为了计算高效，利用预存的 log-probabilities 构建低方差生成估计器，无需重新前向传播。

3. 主要贡献 (Key Contributions)

范式转变：证明了回放数据的主要价值在于维持多样性而非单纯强化准确率，提出了基于分布约束（JS 散度）而非直接梯度更新的新范式。
动态数据构建策略：提出了基于时间邻近性的非均匀动态缓冲区，仅在模型快速变化期保留大量数据，显著降低了显存需求。
广泛的实验验证：在数学推理（Qwen3-4B）和 Text-to-SQL（Llama-3-8B）任务上验证了方法的有效性，并提供了细粒度的 Rank-k Token 概率演化分析。

4. 实验结果 (Results)

数学推理基准：
- 在 6 个不同难度的数学基准（如 AIME25, AMC23, HMMT25 等）上，DyJR 的平均准确率达到了 34.1%。
- 相比基线 GRPO (29.8%) 提升了 4.3%，相比其他回放方法（如 RLEP, Ex-GRPO, DPH-RL）均有显著优势。
- 消融实验：
  - 使用 JS 散度优于前向 KL 散度（34.1% vs 32.5%），证明了 JS 在处理非平稳混合分布时的优越性。
  - 正则化系数 $\alpha_{JS}$ 呈倒 U 型影响，0.05 为最佳。
  - 最大年龄 $M=8$ 时效果最好，过大的 $M$ 会导致性能下降，证实了“时间邻近性”的重要性。
Text-to-SQL 任务：
- 在 BIRD 和 Spider 数据集上，DyJR 在 Pass@1 和 Pass@16 指标上均超越了 GRPO 和其他基线，展现了跨领域的泛化能力。
效率与多样性分析：
- 显存开销：DyJR 仅需存储约 2k 个样本对（理论值），而 RLEP 需存储 28k，显存开销极低。
- 训练速度：由于回放批次仅占在线批次的一小部分，训练吞吐量与原始 GRPO 相当。
- 多样性保持：通过 Rank-k Token 概率演化图显示，GRPO 的 Rank-1 概率迅速飙升至 90% 以上（模式坍塌），而 DyJR 成功将概率重新分配给 Rank-2 和 Rank-3 令牌，保持了较高的熵值和探索能力。

5. 意义与影响 (Significance)

解决 RLVR 的扩展性瓶颈：DyJR 提供了一种低成本、高效率的方案，使得在推理任务中利用历史数据成为可能，同时避免了传统回放方法带来的显存爆炸和模式坍塌问题。
理论洞察：揭示了 RL 训练早期的高熵探索数据比后期的高精度数据更具价值，这一发现对设计未来的 RL 算法具有指导意义。
通用性：该方法不依赖于特定的模型架构，适用于不同的 LLM 家族（Qwen, Llama）和任务类型（数学、SQL），为提升大模型推理能力提供了新的正则化思路。

总结：DyJR 通过“动态缓冲区”和"JS 散度正则化”的双重机制，成功在保留历史数据多样性的同时，以极低的计算成本提升了 LLM 在复杂推理任务中的表现，是 RLVR 领域的一项重要进展。