原作者： Yiran Guo, Zhongjian Qiao, Yingqi Xie, Jie Liu, Dan Ye, Ruiqing Zhang, Shuang Qiu, Lijie Xu

发布于 2026-06-15

📖 1 分钟阅读☕ 轻松阅读

原作者： Yiran Guo, Zhongjian Qiao, Yingqi Xie, Jie Liu, Dan Ye, Ruiqing Zhang, Shuang Qiu, Lijie Xu

原始论文采用 CC BY 4.0 许可（http://creativecommons.org/licenses/by/4.0/）。 ✨ 这是对下方论文的AI生成解释。它不是由作者撰写或认可的。如需技术准确性，请参阅原始论文。阅读完整免责声明

想象一下，你正在教一个非常聪明但有点固执的学生（即 AI）如何解决复杂的谜题，比如数学题或多步骤问题。你拥有的时间和精力（“采样预算”）是有限的。你的目标是让他在每一次尝试中都能学到最多的东西。

这篇论文介绍了一种新的训练方法，称为 DEEP-GRPO（深度密集探索）。以下是它的工作原理，通过简单的概念和类比进行拆解。

问题：两种糟糕的练习方式

该论文指出，目前的 AI 训练方法存在两个主要缺陷：

“仅从根部开始”的方法 (GRPO)：
- 类比： 想象学生正在一个巨大的迷宫中寻找隐藏的宝藏。目前的方法（GRPO）每次都会要求学生从入口处重新开始。
- 缺陷： 学生很快就会学会那些靠近入口的、最显而易见的简单路径。他们会一直沿着那些安全、高概率的走廊奔跑。他们永远不会深入到迷宫中那些黑暗、混乱的角落，而真正的宝藏可能就在那里。如果他们在某个深处的角落里卡住了，他们只会放弃并从头开始，从而浪费时间。
“树状”方法：
- 类比： 为了解决第一个问题，其他研究人员尝试了一种“树”方法。这就像是告诉学生：“好，每当你遇到分叉路口时，停下来，并尝试从那里走几条不同的路。”
- 缺陷： 问题在于他们的精力有限。如果他们在每一个分叉路口都停下来尝试几条路径，他们的精力就会被过度分散。他们在 50 个不同的分叉路口各尝试一两条路径，但在任何一个单一的分叉路口尝试的路径都不够多，以至于无法判断那是一个死胡同还是宝藏所在地。这就像是尝了 50 个不同蛋糕的微小碎屑，而不是吃下一整块最好的蛋糕，这会导致混乱和学习不稳定。

解决方案：“枢轴”策略 (DEEP-GRPO)

作者提出了一种更聪明的分配有限精力的方式。他们称之为深度密集探索 (Deep Dense Exploration)。

1. 寻找“枢轴”（关键错误）
与其从头开始或到处分支，不如让 AI 观察它的失败尝试。它会问自己：“我在哪里做错了，但如果我再试一次，我是可以修正它的？”

类比： 想象学生在迷宫中迷路了。与其从入口开始，老师指出了学生出错的具体位置（即“枢轴”）。这个点位于迷宫深处，但它不是死胡同；这是一个只要做出不同的选择就能通往宝藏的地方。

2. “密集”重采样（深入其中，扎根于此）
一旦 AI 找到了那个特定的“枢轴”点，它不会只尝试一条新路径。它会在那个精确的点尝试许多条路径。

类比： 老师说：“好了，你在这个特定的分叉路口。忘掉入口吧。就停在这里，尝试从这个点出发的 8 条不同路径，直到你找到出路为止。”这种“密集”的努力增加了发现隐藏在仅几步之遥处的正确解的概率。

3. 两条独立的课程（双流优化）
AI 同时从两种类型的经验中学习，但保持它们相互独立，以免产生混淆：

流 A（全局）： 学生从起点跑到终点（标准的练习方式）。
流 B（局部）： 学生只练习他们出错的那个棘手部分，一遍又一遍地练习，而不重复那些他们已经掌握的简单部分。
益处： 这防止了 AI 因为混合了“简单练习”和“困难练习”而感到困惑，从而实现了更稳定、更快速的学习。

为什么它效果更好

论文在数学问题和多步骤问题上测试了该方法。结果如下：

更多样性： AI 不仅仅是死记硬背简单的答案。它不断探索问题空间的“深层”部分，保持了高水平的好奇心（熵）。
更好的结果： 因为它将精力集中在那些困难且可修复的错误上，而不是浪费在简单的路径或过度分散精力上，所以它比其他方法能更正确地解决问题。
自我纠错： AI 开始学会如何“检查”自己的工作。如果它犯了错，它学会了回溯到“枢轴”并重试，而不是直接放弃。

总结

把 DEEP-GRPO 想象成一位教练，他阻止运动员一遍又一遍地跑完全程。相反，教练会说：“你在第 10 英里处搞砸了。让我们停在那里。我们不去重跑整场比赛，我们要从第 10 英里到终点这一段跑 8 次，直到你掌握为止。”

这种方法节省了精力，解决了具体的薄弱环节，并帮助 AI 成为一个更优秀的解题者。

技术摘要：通过枢轴驱动重采样实现大语言模型强化学习中的深度密集探索

1. 问题陈述

强化学习（RL）已成为增强大语言模型（LLM）推理能力的关键手段。然而，一个关键的瓶颈仍然存在：在严格的计算预算下，如何在广阔且复杂的自然语言序列空间中实现有效的探索。在线强化学习训练通常每个提示词（prompt）仅允许少量的展开次数（例如 8–16 次）。

现有方法在这一受限场景下面临两个主要局限：

基于根节点的采样（如 GRPO）： 像组相对策略优化（GRPO）这类方法从根节点开始采样完整的轨迹。这会导致探索稀疏性，即策略自然地倾向于高概率 Token，使得深层的、低概率的状态在统计学上变得难以触及。随着训练的进行，策略会过拟合到已掌握的成功轨迹上，导致探索熵急剧下降并引发过早收敛。简单地增加根层级的展开次数收益递减，因为计算资源会被浪费在冗余的高置信度路径上。
基于树的方法： 最近的方法尝试从中间状态进行分支以增加深度。然而，在严格的预算约束下，这些方法会遭受样本离散化问题。由于将有限的预算分散到众多的中间状态（通常通过熵或注意力机制等启发式方法选择），它们会在单个分支点引起极端的样本稀疏。这导致不稳定的局部优势估计，并通过将模型的自然输出分布与人工诱导的探索路径相混淆，从而引入优化偏差。

2. 方法论：深度密集探索 (DDE)

为了解决这些局限性，作者提出了深度密集探索（Deep Dense Exploration, DDE），该策略通过在失败轨迹中的特定“枢轴”（pivots）处进行针对性的、密集的探索，来补充广泛的根层级采样。其核心假设是：许多失败的轨迹包含了有效的推理前缀，这些前缀虽然处于深层但仍具可恢复性；从这些状态进行重采样可以产生高质量的对比对。

作者将 DDE 实现为 DEEP-GRPO，它集成了三个关键组件：

A. 效用引导的枢轴采样

DEEP-GRPO 不使用随机或基于启发式的分支，而是使用效用引导的分布 $Q(t)$ 从失败的轨迹中选择枢轴。该分布平衡了两个因素：

分支价值 ( $W(t)$ )： 一种基于深度的偏差，倾向于更深的状态 ( $r_t^\gamma$ )，因为这些状态通过根采样难以到达，并能提供互补的学习信号。
可恢复性 ( $R(s_{<t})$ )： 一个在线估计的概率，用于衡量一个前缀能否被恢复到正确的后缀。这通过一个轻量级的逻辑回归估计器进行建模，并根据历史分支结果进行更新。

采样概率定义为 $Q(t) \propto W(t) \cdot R(s_{<t})$ ，确保展开过程被分配到既深又具有可恢复性的状态。

B. 分层轨迹生成

生成过程分为两个阶段：

主链采样： 从根节点进行标准的 GRPO 采样，生成 $G$ 条轨迹。
辅助链采样： 对于每条失败的轨迹，根据 $Q(t)$ 采样一个特定的枢轴 $t^*$ 。从以 $t^*$ 结尾的前缀开始，模型执行密集的局部重采样以生成 $K$ 个辅助补全。这迫使模型专门从易错的枢轴状态而非从根节点重新开始，来探索替代方案。

C. 双流优化

为了在不破坏训练稳定性的情况下整合这两类数据源，DEEP-GRPO 采用了双流优化目标：

全局流： 使用基于根采样组计算的标准 GRPO 优势来优化主链。
局部流： 使用相对于其兄弟分支计算的局部优势来优化辅助链。
梯度掩码： 至关重要的是，在辅助链的共享前缀上应用梯度掩码。损失仅在生成的后缀上计算，从而防止了“重复前缀”问题，即避免了共享前缀被多次强化。
加权损失： 总目标结合了这两个流，并使用超参数 $\lambda$ 来平衡全局策略学习与局部修正更新。

3. 核心贡献

深度密集探索 (DDE)： 一种新颖的策略，通过根采样保持探索广度，同时在失败轨迹的关键枢轴处增加针对性的密集探索。
DEEP-GRPO 算法： DDE 的一种实例化实现，具有以下特点：
- 平衡深度与可恢复性的效用引导枢轴采样分布。
- 通过密集局部重采样提高发现正确后缀的概率。
- 具有前缀梯度掩码的双流优化，以解耦全局学习与局部细化。
实验验证： 通过综合实验证明了其相对于强基准模型的持续性能提升。

4. 实验结果

作者在数学推理基准测试（GSM8K, AIME24, AMC, MATH500, Minerva, OlympiadBench）以及多跳 QA 智能体任务（HotpotQA, 2WikiMultiHopQA）上评估了 DEEP-GRPO。

数学推理： 在使用 Qwen2.5-0.5B 的 GSM8K 上，DEEP-GRPO 达到了 67.7% 的准确率，优于在大规模组规模下的 GRPO（ $N=64$ 时为 66.2%）以及 TreeRL (65.5%) 和 AttnRL (67.0%) 等基于树的方法。在更大的模型（Qwen2.5-Math-7B）上，DEEP-GRPO 在五个基准测试中的平均准确率达到了最高（54.0%），超过了 Dr.GRPO (51.4%) 和 AttnRL (52.8%)。
智能体任务： 在多跳 QA 场景中，DEEP-GRPO 优于 GRPO、GSPO 和 Tree-GRPO，在 HotpotQA 上达到 45.1%，在 2WikiMultiHopQA 上达到 43.9%。
训练动态： 与 GRPO 相比，DEEP-GRPO 在整个训练过程中保持了更高的策略熵并产生了更长的响应，这表明其具备持续的探索活力并产生了自我修正能力。
Pass@K 分析： 不同于标准 GRPO 显示出收益递减和“RLVR 极限”现象（即在高 $K$ 值下 Pass@K 最终会低于基础模型），DEEP-GRPO 在所有 $K$ 值（高达 $K=128$ ）下均持续优于 GRPO 和基础模型，这表明它缓解了推理能力边界收窄的问题。
消融研究： 实验证实，将预算集中在单个枢轴进行密集分支（P1B8）比分布在多个枢轴（P2B4）更有效，并且专注于失败轨迹比从成功轨迹进行分支更高效。

5. 重要性与主张

本文声称，DEEP-GRPO 通过战略性地解决探索中的资源分配问题，建立了一种极其有效的 LLM 强化学习方法。通过识别并密集采样“枢轴”——即失败轨迹中深层且可恢复的状态——该方法提供了根采样所缺失的互补学习信号。

其重要性在于能够：

克服朴素根层级扩展的收益递减问题。
解决基于树的 RL 方法固有的不稳定性和样本离散化问题。
使模型能够从通过标准采样在统计学上难以触及的“困难”状态中学习，从而提高鲁棒性并防止过早收敛。

作者指出，目前的评估主要集中在具有自动验证结果的任务（数学和 QA）上，而向开放式任务的泛化仍是未来的研究方向。

Deep Dense Exploration for LLM Reinforcement Learning via Pivot-Driven Resampling