Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“分位优势估计”（QAE）**的新方法，旨在解决大语言模型（LLM）在通过“强化学习”进行数学推理训练时遇到的一个核心难题：模型要么变得太死板（熵崩溃），要么变得太疯癫（熵爆炸）。

为了让你轻松理解，我们可以把训练一个会做数学题的 AI 模型，想象成训练一只在迷宫里找出口的狗。

1. 背景：训练中的“走火入魔”

在传统的训练方法（如 GRPO 或 DAPO）中，教练（算法）会给狗（模型）发指令，让它尝试走出迷宫。如果走对了，给奖励；走错了，给惩罚。

问题一：熵崩溃（太死板）
如果教练太严厉，狗发现只要走某一条特定的路就能吃到肉，它就会立刻放弃所有其他尝试，只走那条路。结果就是：它变得非常“确定”，不再探索新路径。一旦那条路被堵死，它就彻底傻眼了。
- 比喻： 就像学生死记硬背了一个解题公式，题目稍微变个数字，他就不会做了。
问题二：熵爆炸（太疯癫）
如果教练太宽松，或者奖励机制有漏洞，狗就会开始乱跑。它可能一会儿往左，一会儿往右，一会儿原地转圈。虽然它一直在动（探索），但大部分时间都在做无用功，根本学不到东西。
- 比喻： 就像学生做题时完全凭感觉瞎蒙，虽然写了满满一页，但全是乱码，效率极低。

目前的困境是： 以前的方法只能防止狗“太死板”，却往往导致它“太疯癫”。一旦狗开始乱跑，训练就卡住了，成绩再也提不上去。

2. 罪魁祸首：那个“平均数”的陷阱

论文发现，问题的根源在于教练用来衡量“表现好坏”的基准线（Baseline）。

以前的教练是这样做的：

“今天大家一共走了 10 次。有 1 次走对了（奖励 10 分），9 次走错了（奖励 0 分）。平均分是 1 分。所以，那 9 次走错的，虽然只得了 0 分，但比平均分低，所以要受罚；而那 1 次走对的，比平均分高，要受奖。”

这里有个大坑：
如果那 1 次走对是极其罕见的（比如运气好撞上了），而其他的 9 次其实都挺正常的，只是没撞上那个大奖。

在“平均分”的体系下，那 9 次正常的尝试会被判定为“表现差”，从而受到惩罚。
这导致模型不敢尝试任何稍微有点风险但可能正确的路径，或者反过来，为了避开惩罚而开始胡乱尝试（熵爆炸）。

3. 解决方案：QAE（分位优势估计）

作者提出了一个聪明的新规则：不再看“平均分”，而是看“排名”（分位数）。

这就好比教练换了一种评价方式，根据题目的难度来动态调整标准：

场景 A：题目很难（大家普遍做不对）

旧方法： 平均分很低，稍微做对一点的都被视为“优秀”，疯狂奖励。
QAE 新方法： 教练设定一个门槛（比如前 40%）。
- 如果这道题大家普遍做不对（成功率低），那么只要做对的那一点点，就是“稀有成功”。
- 策略： 只奖励那些做对的（强化成功），忽略那些做错的（不惩罚，因为大家都做不对，错得正常）。
- 比喻： 在沙漠里找水，只要有人挖到了水，就给他大红花。至于没挖到的，大家都不怪罪，继续挖。

场景 B：题目很简单（大家普遍能做对）

旧方法： 平均分很高，做错的会被严厉惩罚，导致模型不敢犯错，变得死板。
QAE 新方法： 如果这道题大家普遍能做对（成功率高），那么做错的才是“异常”。
- 策略： 只惩罚那些做错的（纠正失败），忽略那些做对的（因为做对是应该的，不需要额外奖励）。
- 比喻： 在平地上走路，走直路是应该的。只有走歪了才需要纠正，走直路不需要发糖。

4. 这个新方法带来的神奇效果

自动“降噪”（稀疏化）：
在训练过程中，大约 80% 的回答会被判定为“不需要更新”（优势为 0）。
- 比喻： 教练不再对每一只狗都指手画脚。只有当狗的表现明显偏离了当前难度的预期时（太难时的成功，或太易时的失败），教练才会介入。这让训练变得非常高效，只关注最有价值的样本。
双向安全锁：
- 当模型太乱（熵爆炸）时，QAE 会自动抑制那些无意义的错误尝试。
- 当模型太死板（熵崩溃）时，QAE 会自动鼓励那些罕见的正确尝试。
- 它就像给狗戴了一个智能项圈：乱跑时收紧，迷路时指引，既不让它乱窜，也不让它僵死。
成绩提升：
在数学竞赛（如 AIME）的测试中，使用 QAE 的模型不仅解题准确率（Pass@1）大幅提升，而且训练过程非常稳定，没有出现以前那种“先涨后跌”的过山车现象。

总结

这篇论文的核心思想是：不要只用一把尺子（平均分）去衡量所有情况。

以前： 无论题目难易，都用“平均分”来打分，导致模型在难时不敢尝试，在易时过度保守。
现在（QAE）： 根据题目难度动态调整标准。难的时候，只要有一点点进步就奖励；容易的时候，只要有一点点退步就纠正。

这种方法简单却极其有效，它让 AI 模型在“大胆探索”和“稳健学习”之间找到了完美的平衡点，就像一位经验丰富的老教练，懂得何时该鼓励，何时该批评，从而让模型真正学会了“思考”。

Each language version is independently generated for its own context, not a direct translation.

这是一篇发表于 ICLR 2026 的会议论文，题为 《Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning》（分位优势估计：稳定 LLM 推理的 RLVR 训练）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：
强化学习验证奖励（RLVR, Reinforcement Learning with Verifiable Rewards）通过奖励可验证的正确性（如数学题答案），显著提升了大语言模型（LLM）的推理能力。目前主流方法（如 GRPO, DAPO）通常采用**无价值网络（Value-free）的组相对策略优化，利用组内样本的均值（Mean）**作为基线（Baseline）来计算优势函数（Advantage）。

核心问题：熵的“双刃剑”困境
在 RLVR 微调过程中，策略熵（Policy Entropy）的控制至关重要，但现有方法面临两个极端风险：

熵崩溃（Entropy Collapse）： 策略过早收敛，分布变得过于确定，导致探索能力丧失，模型陷入局部最优。
熵爆炸（Entropy Explosion）： 策略分布过度随机，导致学习信号被噪声淹没，训练不稳定且效率低下。

现有方法的缺陷：

现有工作（如 Clip-Higher, Token-level clipping）主要关注防止“熵崩溃”，往往通过惩罚低概率 token 或限制更新幅度来实现。
然而，这些方法忽略了“熵爆炸”的对称风险。
根本原因分析： 论文指出，**均值基线（Mean Baseline）**是问题的根源。在奖励存在离群值（Outliers）时，均值基线会不恰当地惩罚那些本应被视为“负优势”的样本（即在某些困难查询中，少数高奖励样本拉高了均值，导致其他正确但非最优的回答被标记为负优势，或者在简单查询中，大量正确样本导致基线过高，使得剩余的错误样本受到过度惩罚）。这种机制导致了早期的熵尖峰和后期的性能平台期。

2. 方法论 (Methodology)

作者提出了 分位优势估计（Quantile Advantage Estimation, QAE），用**组内 K-分位基线（Group-wise K-quantile Baseline）**替代传统的均值基线。

核心机制

对于每个查询 $q$ ，采样 $G$ 个响应，计算其经验成功率 $p(q)$ 。定义 $K$ -分位基线 $b_K(q)$ 为：
$b_K(q) = \begin{cases} 0, & \text{if } p(q) \le 1-K \quad (\text{困难查询}) \\ 1, & \text{if } p(q) > 1-K \quad (\text{简单查询}) \end{cases}$

这引入了一个响应级（Response-level）的双机制门控（Two-regime Gate）：

困难查询（Hard Queries, $p \le 1-K$ ）： 基线设为 0。
- 错误回答（Reward=0）的优势为 0（不更新）。
- 罕见的正确回答（Reward=1）获得正优势（ $\hat{A} > 0$ ）。
- 作用： 强化稀有成功路径，鼓励探索，防止熵崩溃。
简单查询（Easy Queries, $p > 1-K$ ）： 基线设为 1。
- 正确回答的优势为 0（不更新）。
- 剩余的错误回答（Reward=0）获得负优势（ $\hat{A} < 0$ ）。
- 作用： 抑制剩余的错误模式，防止过度探索导致的熵爆炸。

理论贡献

两向熵安全性证明（Two-sided Entropy Safety）： 论文在一级 Softmax 更新假设下证明了 QAE 的熵安全性。
- 在低成功率区域，QAE 最小化熵增（防爆炸）。
- 在高成功率区域，QAE 最大化熵减（防崩溃）。
- 相比之下，Token 级别的控制（如 Clip）只能缩放步长，无法改变响应级的基线，因此无法提供这种双向保证。
稀疏性（Sparsity）： 通过调节 $K$ ，大约 80% 的响应会获得零优势（Zero Advantage）。这意味着更新仅集中在最具信息量的样本上（即困难题中的成功者，或简单题中的失败者），极大地提高了样本效率。

3. 关键贡献 (Key Contributions)

重新定义问题根源： 首次明确指出 RLVR 中的熵不稳定（崩溃与爆炸）主要源于**基线设计（Baseline Design）**而非 Token 级别的启发式规则。
提出 QAE 算法： 引入 K-分位基线，实现了一个简单的“即插即用”（Drop-in）修改，将均值基线替换为分位基线。
理论保证： 提供了关于熵变化的上下界证明，确立了 QAE 在防止熵崩溃和爆炸方面的理论安全性。
稀疏更新机制： 揭示了标准均值基线方法中存在巨大的冗余，QAE 通过稀疏化信用分配（Credit Assignment），将计算资源集中在关键样本上。

4. 实验结果 (Results)

实验在 AIME'24, AIME'25, AMC'23 等数学推理基准上进行，测试模型包括 Qwen3-8B, 14B, 30B 等。

性能提升：
- QAE 在 DAPO、Clip-Higher、Clip-Cov、KL-Cov 以及 GSPO 等多种基线方法上均表现出一致性提升。
- Pass@1 显著提升： 例如在 Qwen3-8B + DAPO 上，AIME'24 的 Pass@1 从 39.69 提升至 48.23（+21.5%）；在 AIME'25 上也有显著提升。
- Pass@16 保持稳定： 在提升 Pass@1 的同时，Pass@16 保持相当或略有提升，表明模型不仅更准确，而且推理过程更稳定。
训练稳定性：
- 熵控制： 相比 DAPO 基线出现的早期熵尖峰和后期平台期，QAE 保持了平稳的熵曲线，避免了熵爆炸。
- 探索与利用的平衡： 观察发现，QAE 下的高熵 Token（如 "wait", "perhaps" 等“顿悟”标记）与准确率呈正相关增长，而 DAPO 则出现 Token 分布同质化（Homogenization）导致的性能停滞。
稀疏性验证： 实验数据显示，约 80% 的响应在训练过程中优势值为 0，验证了“二八定律”在信用分配中的有效性。

5. 意义与影响 (Significance)

范式转变： 论文将 RLVR 中的熵调节问题从"Token 级别调参”（如调整 Clip 阈值）重新定义为“基线设计问题”。这为未来的 RLVR 算法设计提供了新的视角。
可扩展性（Scalability）： QAE 在不同规模的模型（8B 到 30B+）和不同的优化算法（GRPO, DAPO, GSPO）上均有效，证明了其作为通用稳定机制的潜力。
效率提升： 通过稀疏化更新，QAE 减少了无效梯度的计算，使得在相同计算资源下能获得更优的推理性能。
解决长期痛点： 有效解决了 RLVR 训练中常见的“早期熵爆炸”和“后期性能平台”问题，使得模型能够持续学习并巩固高奖励的推理轨迹。

总结：
这篇论文通过引入分位优势估计（QAE），巧妙地利用 K-分位基线替代均值基线，在理论层面证明了其对熵的双向控制能力，并在实验层面显著提升了 LLM 在复杂推理任务中的表现。它证明了在 RLVR 中，基线的设计比 Token 级别的微调更为关键，为构建更稳定、可扩展的推理模型提供了核心组件。