Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

该论文提出了结合自适应探索(DARS)与大规模数据广度(DARS-Breadth)的协同策略,通过针对性重加权困难样本和全批量更新,有效解决了现有 RLVR 算法在深度与广度探索上的不足,显著提升了大语言模型的推理能力。

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Hanhui Li, Yiwei Wang, Xiaodan Liang, Jing Tang

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要讲的是如何让大语言模型(LLM)变得更聪明,特别是在做数学题或逻辑推理时。

想象一下,大语言模型就像一个正在备考的超级学生。为了让他考高分,我们需要给他做练习题(训练)。这篇论文发现,以前的训练方法有两个大问题,而作者提出了一套新的“深度与广度协同”的训练法(DARS),完美解决了这些问题。

我们可以用**“刷题策略”**来打比方,把这篇论文的核心内容拆解如下:

1. 以前的训练方法出了什么问题?

以前的训练方法(比如 GRPO 算法)在给学生布置作业时,存在两个误区:

  • 误区一:只盯着“中等难度”的题(深度不够)

    • 比喻:老师发现学生做“简单题”太容易了,做“极难题”又完全不会(全错)。于是老师觉得:“既然极难题全错,那做再多也没用,不如把时间花在‘中等难度’的题上,这样提分最快。”
    • 后果:学生虽然中等题做得很溜,但遇到真正的“奥数题”或“高难度逻辑题”时,因为缺乏练习,依然束手无策。这就导致模型在Pass@K(即尝试多次能解出一次题的概率)上表现不佳。它不敢挑战“深水区”。
  • 误区二:每次只练很少的题(广度不够)

    • 比喻:老师每次只给学生发 128 道题,做完就换下一批。
    • 后果:学生每次只接触一点点新知识,容易“钻牛角尖”,或者过早地觉得自己“学会了”(过早收敛)。这导致他在Pass@1(即第一次尝试就答对的概率)上不够稳定,因为他的思维不够开阔,容易走偏。

2. 作者的新方法:DARS(自适应滚动采样)

作者提出了一套新的“刷题策略”,叫 DARS。它包含两个核心动作:“深度挖掘”“广度拓展”

动作一:深度挖掘(针对难题“加量”)

  • 比喻:老师不再“一刀切”。他先让学生快速试做一遍所有题目(预滚动)。
    • 如果学生做对了(简单题):老师就说“这题你稳了,不用多练,下一题。”
    • 如果学生做错了(难题):老师会立刻说“这题你还没掌握,多给你发 32 份类似的练习题,直到你找到解题思路为止!”
  • 原理:这就叫**“困难自适应”**。以前是难题被忽略,现在难题被“重点关照”。通过给难题分配更多的“尝试次数”,模型被迫去探索那些深奥的解题路径,从而真正学会了高难度的推理。
  • 效果:大大提升了Pass@K(多试几次总能做对的能力)。

动作二:广度拓展(一次练一大波)

  • 比喻:以前老师一次只发 128 道题,现在老师一次发3072 道题(大 Batch)。
  • 原理
    • 减少噪音:就像你听一个人说话可能听错,但听 3000 个人同时说话,你就能听清真正的“真理”是什么。大样本让模型的学习方向更准确。
    • 保持好奇心(熵):如果题目太少,学生容易“想当然”地用一种死板的方法解题。题目多了,学生必须保持思维的活跃和多样性(高熵),不敢偷懒,从而提高了Pass@1(第一次就答对的概率)。
  • 效果:大大提升了Pass@1(单次准确率)。

3. 终极奥义:深度 + 广度 = 完美协同

作者发现,“深度”(死磕难题)和**“广度”(大量刷题)不是互相打架的,而是互补**的。

  • 以前的做法:要么只加难题(深度),要么只加题量(广度),效果都不完美。
  • 现在的做法(DARS-Breadth)
    • 对难题疯狂加量(深度);
    • 同时一次性刷海量题目(广度)。
  • 比喻:这就像让一个学生,既在“奥数班”里死磕最难的压轴题(深度),又每天在“题海战术”中保持思维的活跃和全面(广度)。
  • 结果:学生不仅第一次就能做对(Pass@1 高),而且多试几次肯定能做对(Pass@K 高)。这就是论文标题说的“深度与广度的协同效应”。

4. 总结:这对我们意味着什么?

这篇论文告诉我们,想要让 AI 变得更聪明(特别是像 OpenAI o1 那样会思考的 AI),不能只是简单地“多跑几次”或者“多给点数据”。

  • 关键策略:要聪明地分配算力
    • 遇到简单题,少花点时间。
    • 遇到难题,不惜代价多给它几次尝试机会(深度)。
    • 同时,一次训练要覆盖足够多的题目,防止模型变“死板”(广度)。

一句话总结
以前的训练像是“平均用力”,导致模型在难题上“吃不饱”,在简单题上“吃撑了”;现在的 DARS 方法像是“因材施教 + 题海战术”,让模型在保持灵活性的同时,死磕难题,最终实现了**“既快又准,还能举一反三”**的超级推理能力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →