DyJR: Preserving Diversity in Reinforcement Learning with Verifiable Rewards via Dynamic Jensen-Shannon Replay

该论文提出了动态 Jensen-Shannon 回放(DyJR)框架,通过引入时间敏感动态缓冲和分布约束正则化,在保持训练效率的同时有效解决了 GRPO 等在线强化学习算法中历史数据复用导致的模式崩溃问题,显著提升了大语言模型在数学推理和 Text-to-SQL 任务中的表现与多样性。

Long Li, Zhijian Zhou, Tianyi Wang, Weidi Xu, Zuming Huang, Wei Chu, Zhe Wang, Shirui Pan, Chao Qu, Yuan Qi

发布于 2026-03-18
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 DyJR 的新方法,旨在让大型语言模型(LLM)在解决复杂问题(如数学题或写代码)时变得更聪明、更灵活。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生(AI)参加一场高难度的数学竞赛

1. 现在的困境:学生“钻牛角尖”了

目前的训练方法(比如 GRPO)有点像这样:

  • 做法:老师让学生做一套题,做对了就奖励,做错了就惩罚。做完这一套题后,老师就把这套题扔进垃圾桶,让学生立刻做下一套新的。
  • 问题
    1. 浪费资源:以前做对的题目被扔掉了,太可惜。
    2. 钻牛角尖(模式崩塌):学生发现只要用“第一种解法”就能拿高分,于是他就死记硬背这一种解法。哪怕遇到稍微变通一点的题目,他也只会用那一种死板的方法,导致思维僵化,遇到新题就卡壳。
    3. 旧方法太笨:以前的“复习旧题”方法(经验回放),是把所有做对的题都堆在脑子里。但这就像让学生背一本厚厚的错题集,不仅记不住(占用太多内存),而且因为题目太杂,反而让学生 confused,甚至为了迎合旧题而忘了怎么灵活思考。

2. DyJR 的核心思想:不仅要“对”,更要“活”

DyJR 的作者认为:复习旧题的目的,不应该是为了让学生死记硬背那个“标准答案”,而是为了让他记住“当时思考的多样性”。

这就好比:

  • 旧思路:学生只背“这道题答案是 42"。
  • 新思路 (DyJR):学生要记住“当时我尝试了三种不同的思路,虽然最后只有一种对了,但另外两种思路在别的题目里可能很有用”。

3. DyJR 的两大“独门秘籍”

秘籍一:动态的“记忆保鲜盒” (Dynamic Buffer)

  • 比喻:想象学生有一个智能记忆盒
    • 只留新鲜的:这个盒子有个“保质期”。它只保留最近几天(比如最近 8 次训练)做对的题目。太旧的题目(比如一个月前的)会被自动清理掉。因为 AI 的能力在快速进化,一个月前的“正确解法”对现在的 AI 来说可能已经过时或太简单了,留着反而干扰学习。
    • 关键时刻多装:在刚开始训练(学生还很懵懂)的时候,盒子会变大,多装一些题目,防止学生还没学会走就急着跑(防止早期思维僵化)。等学生稳定了,盒子就变小,只留精华。
    • 效果:既省空间,又保证了复习的内容是“当下最有用”的。

秘籍二:用“多样性”来约束,而不是“硬改” (JS 散度正则化)

  • 比喻:这是 DyJR 最精彩的地方。
    • 旧方法(直接更新):就像老师拿着红笔,强行把学生脑子里的“解法 A"改成“解法 B"。这容易导致学生只记得 B,忘了 A。
    • DyJR 方法(JS 散度约束):老师不直接改答案,而是给学生一个**“思维指南针”**。
      • 老师告诉学生:“你现在的解法,不能离你过去那些‘成功的尝试’太远。”
      • 具体来说,它计算当前解法和过去所有成功解法混合在一起的“平均风格”之间的距离。如果学生太偏激(只盯着一种解法),这个“指南针”就会把他拉回来,让他保持思维的多样性
      • 关键点:它不是强迫学生变成某一种特定的解法,而是强迫学生保持多种解法并存的可能性

4. 结果如何?

实验证明,DyJR 就像给 AI 装上了“防呆装置”和“思维加速器”:

  • 更聪明:在数学竞赛(如 AIME, HMMT)和写 SQL 代码的任务中,DyJR 的成绩比原来的方法(GRPO)和其他竞争对手都要好。
  • 更灵活:AI 不再只会死磕一种解法。当你让它尝试 100 种不同的解法时,它能找出正确答案的概率(Pass@k)大幅提升。
  • 更省钱:因为它只存最近的数据,不需要巨大的内存,训练速度也没有变慢。

总结

DyJR 就像一位高明的教练:
他不再让学生死记硬背所有的旧题,而是建立一个**“精选的近期题库”**,并时刻提醒学生:"不要只走一条路,要保留多种思考路径的可能性。"

通过这种方法,AI 模型在解决复杂问题时,既保持了高准确率,又避免了思维僵化,变得更加灵活、强壮和高效。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →