Rewards as Labels: Revisiting RLVR from a Classification Perspective

本文提出了名为 REAL 的新框架,通过将可验证奖励重新定义为分类标签而非标量权重,有效解决了现有 RLVR 方法中的梯度分配失衡问题,从而在数学推理基准测试中显著提升了模型训练的稳定性与性能。

Zepeng Zhai, Meilin Chen, Jiaxuan Zhao, Junlang Qian, Lei Shen, Yuan Lu

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型(LLM)变得更聪明、更稳定的新方法,叫做 REAL(Rewards as Labels,即“奖励即标签”)。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题

1. 以前的方法(GRPO):像是一个“情绪化”的教练

在论文之前,主流的强化学习方法(叫 GRPO)是这样教学生的:

  • 做法:老师让学生做同一道题 8 次(生成 8 个答案)。如果某个答案对了,就给高分;错了,给低分。
  • 问题:这个教练有个坏毛病,他只看分数,不看难度
    • 对于容易的题(正样本):如果学生已经很有把握(概率很高),教练会给他超级大的奖励,让他更自信;但如果学生有点犹豫(概率低,但答案是对的),教练反而觉得“这题你都做对了,还犹豫什么?”,给的奖励很小。结果:那些真正需要改进的“难点”被忽视了,学生学不到东西。
    • 对于难的错题(负样本):如果学生非常自信地做错了(概率很高但答案是错的),教练会疯狂地惩罚他,甚至惩罚力度大到失控。这就像教练因为学生犯了一个低级错误,就气得把整个教室砸了,导致其他正常的学习信号都被淹没了。

论文把这种现象称为:

  • 正样本的梯度错配:该用力改的地方(难做的对题)没用力,不该用力的地方(简单的对题)用力过猛。
  • 负样本的梯度霸权:几个特别自信的错题,霸占了所有的注意力,让其他错题没法被纠正。

2. 新方法(REAL):把“打分”变成“分类”

作者觉得,既然奖励(对/错)是明确的,为什么非要用复杂的“分数”来加权呢?不如直接把它当成分类标签

新的教学理念(REAL):

  • 核心思想:不要纠结给对的答案打 100 分还是 90 分,错的答案打 0 分还是 -10 分。
  • 做法:直接把答案分成两类——“好答案”(正类)“坏答案”(负类)
  • 目标:就像教学生**“把苹果和橘子分开”**一样。
    • 只要答案是对的,就努力把它推向“好答案”的阵营。
    • 只要答案是错的,就努力把它推向“坏答案”的阵营。
    • 关键点:不管这个答案有多难或多容易,只要分错了类,就给予适度且稳定的纠正力度。

3. 为什么新方法更好?(锚点与平衡)

为了让这个“分类”更稳,作者还加了一个**“锚点”(Anchor)**。

  • 比喻:想象你在玩拔河。
    • 以前的方法(GRPO):绳子的一端是“对的答案”,另一端是“错的答案”。如果“错的答案”力气太大(梯度霸权),绳子会直接断掉或者把“对的答案”拉飞。
    • 新方法(REAL):我们在中间加了一个固定的桩子(锚点,即 0 分)
      • 对的答案,必须努力往“正方向”拉,超过 0 分。
      • 错的答案,必须努力往“负方向”拉,低于 0 分。
    • 效果:无论学生表现得多么极端(太自信或太犹豫),拉力都被限制在一个安全的范围内。既不会让简单的题“飘”得太高,也不会让难的错题“崩”得太低。

4. 实验结果:小模型变强,大模型更稳

作者在数学推理任务(比如奥数题)上测试了这种方法:

  • 小模型(15 亿参数):相比之前的最强方法(DAPO),准确率提升了 6.7%。这就像是一个普通学生,用新方法训练后,直接考上了重点大学。
  • 大模型(70 亿参数):同样超越了之前的所有方法。
  • 稳定性:以前的方法训练时,模型容易“发疯”(熵崩溃或爆炸),导致训练失败。而 REAL 方法就像给训练过程装了减震器,无论怎么跑,模型都能稳稳地进步,甚至不需要额外的“安全锁”(KL 惩罚)也能跑得很稳。

总结

这篇论文的核心贡献就是**“换个角度看问题”
以前大家把奖励当成
“分数的权重”(给多少分很重要),结果导致训练不稳定。
现在作者把奖励当成
“分类的标签”(是对还是错很重要),用一种更简单、更平衡的“分类学”**逻辑来训练 AI。

一句话总结
别再给 AI 复杂的“分数”让它晕头转向了,直接告诉它“这是对的,那是错的”,并且用一种温和、稳定的方式让它学会区分,这样它就能学得更快、更稳、更聪明。