Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning

本文提出量化优势估计(QAE)方法,通过将价值基线从均值替换为分位数,解决了强化学习验证奖励(RLVR)中熵崩溃与熵爆炸的不稳定问题,从而在无需复杂启发式策略的情况下显著提升了大语言模型在数学推理任务上的表现。

Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“分位优势估计”(QAE)**的新方法,旨在解决大语言模型(LLM)在通过“强化学习”进行数学推理训练时遇到的一个核心难题:模型要么变得太死板(熵崩溃),要么变得太疯癫(熵爆炸)

为了让你轻松理解,我们可以把训练一个会做数学题的 AI 模型,想象成训练一只在迷宫里找出口的狗

1. 背景:训练中的“走火入魔”

在传统的训练方法(如 GRPO 或 DAPO)中,教练(算法)会给狗(模型)发指令,让它尝试走出迷宫。如果走对了,给奖励;走错了,给惩罚。

  • 问题一:熵崩溃(太死板)
    如果教练太严厉,狗发现只要走某一条特定的路就能吃到肉,它就会立刻放弃所有其他尝试,只走那条路。结果就是:它变得非常“确定”,不再探索新路径。一旦那条路被堵死,它就彻底傻眼了。

    • 比喻: 就像学生死记硬背了一个解题公式,题目稍微变个数字,他就不会做了。
  • 问题二:熵爆炸(太疯癫)
    如果教练太宽松,或者奖励机制有漏洞,狗就会开始乱跑。它可能一会儿往左,一会儿往右,一会儿原地转圈。虽然它一直在动(探索),但大部分时间都在做无用功,根本学不到东西。

    • 比喻: 就像学生做题时完全凭感觉瞎蒙,虽然写了满满一页,但全是乱码,效率极低。

目前的困境是: 以前的方法只能防止狗“太死板”,却往往导致它“太疯癫”。一旦狗开始乱跑,训练就卡住了,成绩再也提不上去。

2. 罪魁祸首:那个“平均数”的陷阱

论文发现,问题的根源在于教练用来衡量“表现好坏”的基准线(Baseline)

以前的教练是这样做的:

“今天大家一共走了 10 次。有 1 次走对了(奖励 10 分),9 次走错了(奖励 0 分)。平均分是 1 分。所以,那 9 次走错的,虽然只得了 0 分,但比平均分低,所以要受罚;而那 1 次走对的,比平均分高,要受奖。”

这里有个大坑:
如果那 1 次走对是极其罕见的(比如运气好撞上了),而其他的 9 次其实都挺正常的,只是没撞上那个大奖。

  • 在“平均分”的体系下,那 9 次正常的尝试会被判定为“表现差”,从而受到惩罚。
  • 这导致模型不敢尝试任何稍微有点风险但可能正确的路径,或者反过来,为了避开惩罚而开始胡乱尝试(熵爆炸)。

3. 解决方案:QAE(分位优势估计)

作者提出了一个聪明的新规则:不再看“平均分”,而是看“排名”(分位数)。

这就好比教练换了一种评价方式,根据题目的难度来动态调整标准:

场景 A:题目很难(大家普遍做不对)

  • 旧方法: 平均分很低,稍微做对一点的都被视为“优秀”,疯狂奖励。
  • QAE 新方法: 教练设定一个门槛(比如前 40%)。
    • 如果这道题大家普遍做不对(成功率低),那么只要做对的那一点点,就是“稀有成功”
    • 策略: 只奖励那些做对的(强化成功),忽略那些做错的(不惩罚,因为大家都做不对,错得正常)。
    • 比喻: 在沙漠里找水,只要有人挖到了水,就给他大红花。至于没挖到的,大家都不怪罪,继续挖。

场景 B:题目很简单(大家普遍能做对)

  • 旧方法: 平均分很高,做错的会被严厉惩罚,导致模型不敢犯错,变得死板。
  • QAE 新方法: 如果这道题大家普遍能做对(成功率高),那么做错的才是“异常”
    • 策略: 只惩罚那些做错的(纠正失败),忽略那些做对的(因为做对是应该的,不需要额外奖励)。
    • 比喻: 在平地上走路,走直路是应该的。只有走歪了才需要纠正,走直路不需要发糖。

4. 这个新方法带来的神奇效果

  1. 自动“降噪”(稀疏化):
    在训练过程中,大约 80% 的回答会被判定为“不需要更新”(优势为 0)。

    • 比喻: 教练不再对每一只狗都指手画脚。只有当狗的表现明显偏离了当前难度的预期时(太难时的成功,或太易时的失败),教练才会介入。这让训练变得非常高效,只关注最有价值的样本。
  2. 双向安全锁:

    • 当模型太乱(熵爆炸)时,QAE 会自动抑制那些无意义的错误尝试。
    • 当模型太死板(熵崩溃)时,QAE 会自动鼓励那些罕见的正确尝试。
    • 它就像给狗戴了一个智能项圈:乱跑时收紧,迷路时指引,既不让它乱窜,也不让它僵死。
  3. 成绩提升:
    在数学竞赛(如 AIME)的测试中,使用 QAE 的模型不仅解题准确率(Pass@1)大幅提升,而且训练过程非常稳定,没有出现以前那种“先涨后跌”的过山车现象。

总结

这篇论文的核心思想是:不要只用一把尺子(平均分)去衡量所有情况。

  • 以前: 无论题目难易,都用“平均分”来打分,导致模型在难时不敢尝试,在易时过度保守。
  • 现在(QAE): 根据题目难度动态调整标准。难的时候,只要有一点点进步就奖励;容易的时候,只要有一点点退步就纠正。

这种方法简单却极其有效,它让 AI 模型在“大胆探索”和“稳健学习”之间找到了完美的平衡点,就像一位经验丰富的老教练,懂得何时该鼓励,何时该批评,从而让模型真正学会了“思考”。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →