Rewards as Labels: Revisiting RLVR from a Classification Perspective

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型（LLM）变得更聪明、更稳定的新方法，叫做 REAL（Rewards as Labels，即“奖励即标签”）。

为了让你轻松理解，我们可以把训练 AI 的过程想象成教一个学生做数学题。

1. 以前的方法（GRPO）：像是一个“情绪化”的教练

在论文之前，主流的强化学习方法（叫 GRPO）是这样教学生的：

做法：老师让学生做同一道题 8 次（生成 8 个答案）。如果某个答案对了，就给高分；错了，给低分。
问题：这个教练有个坏毛病，他只看分数，不看难度。
- 对于容易的题（正样本）：如果学生已经很有把握（概率很高），教练会给他超级大的奖励，让他更自信；但如果学生有点犹豫（概率低，但答案是对的），教练反而觉得“这题你都做对了，还犹豫什么？”，给的奖励很小。结果：那些真正需要改进的“难点”被忽视了，学生学不到东西。
- 对于难的错题（负样本）：如果学生非常自信地做错了（概率很高但答案是错的），教练会疯狂地惩罚他，甚至惩罚力度大到失控。这就像教练因为学生犯了一个低级错误，就气得把整个教室砸了，导致其他正常的学习信号都被淹没了。

论文把这种现象称为：

正样本的梯度错配：该用力改的地方（难做的对题）没用力，不该用力的地方（简单的对题）用力过猛。
负样本的梯度霸权：几个特别自信的错题，霸占了所有的注意力，让其他错题没法被纠正。

2. 新方法（REAL）：把“打分”变成“分类”

作者觉得，既然奖励（对/错）是明确的，为什么非要用复杂的“分数”来加权呢？不如直接把它当成分类标签。

新的教学理念（REAL）：

核心思想：不要纠结给对的答案打 100 分还是 90 分，错的答案打 0 分还是 -10 分。
做法：直接把答案分成两类——“好答案”（正类） 和 “坏答案”（负类）。
目标：就像教学生**“把苹果和橘子分开”**一样。
- 只要答案是对的，就努力把它推向“好答案”的阵营。
- 只要答案是错的，就努力把它推向“坏答案”的阵营。
- 关键点：不管这个答案有多难或多容易，只要分错了类，就给予适度且稳定的纠正力度。

3. 为什么新方法更好？（锚点与平衡）

为了让这个“分类”更稳，作者还加了一个**“锚点”（Anchor）**。

比喻：想象你在玩拔河。
- 以前的方法（GRPO）：绳子的一端是“对的答案”，另一端是“错的答案”。如果“错的答案”力气太大（梯度霸权），绳子会直接断掉或者把“对的答案”拉飞。
- 新方法（REAL）：我们在中间加了一个固定的桩子（锚点，即 0 分）。
  - 对的答案，必须努力往“正方向”拉，超过 0 分。
  - 错的答案，必须努力往“负方向”拉，低于 0 分。
- 效果：无论学生表现得多么极端（太自信或太犹豫），拉力都被限制在一个安全的范围内。既不会让简单的题“飘”得太高，也不会让难的错题“崩”得太低。

4. 实验结果：小模型变强，大模型更稳

作者在数学推理任务（比如奥数题）上测试了这种方法：

小模型（15 亿参数）：相比之前的最强方法（DAPO），准确率提升了 6.7%。这就像是一个普通学生，用新方法训练后，直接考上了重点大学。
大模型（70 亿参数）：同样超越了之前的所有方法。
稳定性：以前的方法训练时，模型容易“发疯”（熵崩溃或爆炸），导致训练失败。而 REAL 方法就像给训练过程装了减震器，无论怎么跑，模型都能稳稳地进步，甚至不需要额外的“安全锁”（KL 惩罚）也能跑得很稳。

总结

这篇论文的核心贡献就是**“换个角度看问题”：
以前大家把奖励当成“分数的权重”（给多少分很重要），结果导致训练不稳定。
现在作者把奖励当成“分类的标签”（是对还是错很重要），用一种更简单、更平衡的“分类学”**逻辑来训练 AI。

一句话总结：
别再给 AI 复杂的“分数”让它晕头转向了，直接告诉它“这是对的，那是错的”，并且用一种温和、稳定的方式让它学会区分，这样它就能学得更快、更稳、更聪明。

Each language version is independently generated for its own context, not a direct translation.

这是一篇关于大语言模型（LLM）强化学习（RL）的学术论文总结，标题为《Rewards as Labels: Revisiting RLVR from a Classification Perspective》（将奖励视为标签：从分类视角重新审视可验证奖励强化学习）。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：
可验证奖励强化学习（RLVR）已成为提升大模型在数学推理、代码生成等具有明确规则任务上表现的有效范式。其中，GRPO（Group Relative Policy Optimization）及其变体（如 DAPO, GSPO）是目前的主流方法。它们通过对同一提示词生成的多个 rollout（轨迹）进行归一化奖励来估计优势函数，从而稳定更新策略。

核心问题：
尽管 GRPO 类方法取得了实证成功，但作者指出其策略梯度存在两个根本性的梯度分配失配（Gradient Mismatches），导致训练效率低下和次优的策略更新：

正样本中的梯度错配 (Gradient Misassignment in Positives)：
- 对于正样本（奖励为 1），GRPO 的梯度幅度与相对对数概率（ $e^{s_t}$ ）成正比。
- 后果： 那些当前策略概率已经很高（容易）的 token 获得了过大的更新，而那些概率较低（困难但正确）的 token 获得的梯度却非常微弱。这导致模型过度优化已掌握的部分，而忽略了需要修正的困难部分。
负样本中的梯度主导 (Gradient Domination in Negatives)：
- 对于负样本（奖励为 0），GRPO 的梯度幅度是无上界的，且随相对对数概率指数级增长。
- 后果： 少数高置信度的错误 token（即模型非常确信但错误的 token）会主导整个梯度更新，压制了其他具有信息量的负样本的贡献。这导致训练对异常值敏感，且信用分配（Credit Assignment）不平衡。

2. 方法论 (Methodology)

作者提出了 REAL (Rewards as Labels) 框架，核心思想是将可验证奖励重新概念化为分类标签，而非标量权重，从而将策略优化重构为一个分类问题。

核心机制：

奖励即标签 (Rewards as Labels)：
- 不再将奖励 $r \in \{0, 1\}$ 视为加权系数，而是将其视为将 rollout 划分为正类（ $O^+$ ）和负类（ $O^-$ ）的类别标签。
- 目标变为：在给定提示词的一组 rollout 中，正确区分“期望的轨迹”和“不期望的轨迹”。
相对对数概率作为 Logits：
- 定义每个 rollout 的得分 $s_k$ 为其所有 token 的长度归一化相对对数概率：
  $\bar{s}_k = \frac{1}{|o_k|} \sum_{t} \log \frac{\pi_\theta(o_{k,t}|q)}{\pi_{old}(o_{k,t}|q)}$
- 该分数衡量新策略相对于旧策略对轨迹概率的提升（ $\bar{s} > 0$ ）或抑制（ $\bar{s} < 0$ ）。
REAL 目标函数 (基于 Softmax Cross-Entropy)：
- 引入锚点 Logits (Anchor Logits)：设定一个固定的锚点 $0 $（即$ \bar{s}=0$）。
- 对于正样本，将锚点 $0 $视为负类，目标是让正样本得分$ >0$。
- 对于负样本，将锚点 $0 $视为正类，目标是让负样本得分$ <0$。
- 最终损失函数由两部分组成（公式 8）：
  $L_{REAL} = \log(1 + \sum_{O^+} e^{-\bar{s}_i/\tau}) + \log(1 + \sum_{O^-} e^{\bar{s}_j/\tau})$
  其中 $\tau$ 是温度参数，控制决策边界的锐度。

理论优势 (梯度分析)：

有界且单调的梯度： 理论证明（Proposition 5.1），REAL 诱导的梯度幅度是有界的（上界为 $1/\tau$）且随相对对数概率单调变化。
解决失配：
- 正样本：随着概率增加，梯度自然减小，避免了过度更新，同时保证了低概率（困难）正样本获得足够的梯度。
- 负样本：梯度被限制在范围内，防止了高置信度错误 token 主导更新。
隐式 KL 正则化： 由于梯度本身是有界的，REAL 在不需要显式 KL 散度惩罚项的情况下也能保持训练稳定。

3. 主要贡献 (Key Contributions)

问题识别： 首次系统性地揭示了 GRPO 类方法中存在的“正样本梯度错配”和“负样本梯度主导”两个根本性缺陷。
框架提出 (REAL)： 提出了一种新颖的 RLVR 框架，通过将奖励视为分类标签，利用分类损失（Softmax Cross-Entropy）替代传统的策略梯度加权，从根本上解决了上述梯度分配问题。
创新设计： 引入了锚点 Logits机制，明确了优化方向，并实现了自适应的梯度裁剪。
实证验证： 在多个数学推理基准和不同模型规模上进行了广泛实验，证明了 REAL 在训练稳定性和最终性能上均优于现有 SOTA 方法。

4. 实验结果 (Results)

实验在 DeepSeek-R1-Distill-Qwen 模型（1.5B 和 7B 版本）上进行，基准包括 AIME 2024/2025, MATH 500, AMC 2023, Minerva, Olympiad Bench 等。

性能提升：
- 1.5B 模型： REAL 的平均 Pass@1 比 DAPO 提高了 6.7%，比 GRPO 提高了 9.5%。
- 7B 模型： REAL 的平均 Pass@1 比 DAPO 提高 6.2%，比 GSPO 提高 1.7%。
- 在最具挑战性的 AIME 2024/2025 基准上，REAL 表现尤为突出。
训练稳定性：
- GRPO 容易出现熵崩溃（Entropy Collapse），DAPO 容易出现熵爆炸（Entropy Explosion）。
- REAL 在整个训练过程中保持了稳定的熵值，且无需显式 KL 惩罚项即可收敛，验证了其内在的稳定性。
消融实验：
- Anchor Logits： 移除锚点会导致性能轻微下降，证明其提供了更清晰的优化方向。
- BCE Loss： 即使使用简单的二元交叉熵（BCE）代替 Softmax Loss，REAL 仍优于 DAPO（+4.5%），但 Softmax Loss 配合锚点效果最佳。
- 温度参数 $\tau$ ： $\tau=0.5$ 表现最佳，过小的 $\tau$ （如 0.1）会导致梯度上界过大从而引发训练不稳定。

5. 意义与影响 (Significance)

范式转变： 该工作挑战了将奖励仅视为标量权重的传统 RLVR 范式，提出将其视为分类标签的视角，为策略优化提供了新的理论依据。
解决核心痛点： 通过数学上的有界梯度特性，自然地解决了 RL 训练中常见的梯度爆炸和分配不均问题，减少了对复杂启发式技巧（如复杂的裁剪策略、KL 惩罚）的依赖。
通用性与可扩展性： 实验表明 REAL 在不同模型规模（1.5B 到 7B）和不同数据集分布下均具有鲁棒性，为构建更稳定、更高效的推理大模型提供了一条可解释且 principled（原则性）的路径。
对未来的启示： 强调了在强化学习中重新审视基础优化目标的重要性，表明简单的分类目标结合合理的梯度约束可能比复杂的奖励加权机制更有效。

总结：
REAL 框架通过“奖励即标签”的视角，利用分类损失函数重构了 RLVR 的优化过程。它不仅在理论上证明了其梯度分配的合理性和有界性，更在实证中显著提升了大模型在复杂数学推理任务上的表现和训练稳定性，是目前 RLVR 领域的一项重要进展。

Rewards as Labels: Revisiting RLVR from a Classification Perspective

1. 以前的方法（GRPO）：像是一个“情绪化”的教练

2. 新方法（REAL）：把“打分”变成“分类”

3. 为什么新方法更好？（锚点与平衡）

4. 实验结果：小模型变强，大模型更稳

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与影响 (Significance)

类似论文

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers