Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型（LLM）变得更聪明、更会“举一反三”的新方法，叫做 SGPO（逐步引导策略优化）。

为了让你轻松理解，我们可以把训练 AI 的过程想象成 教一个学生做数学题。

1. 以前的方法（GRPO）：只奖励满分，忽略错题

想象一下，你是一位严厉的老师，正在教学生做数学题。

以前的做法（GRPO）：你给学生看 5 道题，让他做 5 次。
- 如果 5 次里有 1 次做对了，你就给那个做对的打高分，告诉模型：“看，这样做是对的！”
- 如果5 次全做错了（这就是论文说的“全负样本组”），以前的老师会直接说：“这组题没一个对的，没参考价值，直接扔掉，下一组！"
问题所在：这就像人类学习一样，如果学生全做错了，老师就放弃不管了。但实际上，学生虽然答案错了，但可能前几步思路是对的，只是最后算错了。以前的方法把这些“有价值的错误”都浪费了，导致 AI 学得很慢，尤其是在刚开始学的时候。

2. 新方法的灵感：像人类一样从错误中学习

论文的作者发现，人类很擅长从错误中学习。

人类的思维：如果一个孩子做错了题，但前两步是对的，第三步算错了，家长会告诉他：“前两步很棒，第三步这里粗心算错了，下次注意。”
SGPO 的做法：我们不再把“全错”的组直接扔掉。相反，我们引入了一位**“步骤裁判”（Step-wise Judge）**。
- 这位裁判会像批改作业一样，一步步检查学生的解题过程。
- 它会找出学生是在哪一步开始变错的。
- 比如：学生写了 5 步，前 3 步逻辑完美，第 4 步算错了。裁判不会给 0 分，而是给 3/5 分（或者类似的奖励）。

3. 核心比喻：给“接近成功”的努力发“进步奖”

想象你在玩一个闯关游戏：

旧规则：只有通关（答对）才能得金币。如果你在第 10 关挂了，哪怕你前面 9 关都打得很好，你也一分钱拿不到。
SGPO 新规则：即使你第 10 关挂了，裁判也会看你走到哪了。如果你在第 9 关才挂，裁判会给你90% 的金币；如果你在第 2 关就挂了，只给你 20%。
结果：AI 发现，即使最后没做对，只要过程走得远，也能得到奖励。这激励 AI 去尝试更复杂的步骤，而不是因为怕全错就放弃。

4. 为什么这很重要？（三大好处）

不再浪费“错题本”：
以前，AI 遇到难题全做错了，就白练了。现在，这些“全错”的组变成了宝贵的训练材料。AI 能学到：“哦，原来这种思路走到第三步是对的，只是后面卡住了。”
学得更稳、更快：
论文通过数学证明和实验发现，这种方法让 AI 在学习初期和中期进步特别快。就像学生有了详细的错题分析，比只盯着正确答案看，进步要快得多。
不需要“超级老师”：
以前的方法可能需要一个超级聪明的老师（比如更强大的 AI）来直接给出正确答案。但 SGPO 只需要裁判能看出哪一步错了就行，不需要裁判自己会做这道题。这让方法更便宜、更实用，甚至可以用开源的模型来做裁判。

5. 总结

简单来说，SGPO 就是给 AI 训练过程加了一个**“过程评分系统”**。

它告诉 AI：“别怕犯错，只要你的思考过程有一部分是对的，我就给你奖励，并告诉你哪里错了。” 这让 AI 能从每一次失败中提取价值，像人类一样，通过不断修正错误，最终成为真正的推理高手。

这就好比教孩子骑自行车：以前如果孩子摔倒了（全错），你就把他抱起来换个人教；现在你会说：“刚才你蹬得挺稳，就是转弯时手松了，下次转弯抓紧点，你离成功很近了！”这样孩子学得更快，也更自信。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**逐步引导策略优化（Stepwise Guided Policy Optimization, SGPO）的新框架，旨在解决大语言模型（LLM）在强化学习（RL）训练中，特别是使用组相对策略优化（GRPO）**时，面对“全负样本组”（即一组采样回答全部错误）无法更新策略的痛点。

以下是对该论文的详细技术总结：

1. 研究背景与问题 (Problem)

背景：强化学习（RL）已被证明能有效提升 LLM 的推理能力。目前，**组相对策略优化（GRPO）**是训练推理模型（如 DeepSeek-R1）的主流方法。GRPO 通过在一个提示词（Prompt）下采样多个回答，计算组内相对优势（Advantage）来更新策略，无需额外的价值模型（Critic）。
核心痛点：GRPO 存在一个显著缺陷。当一组采样回答（Group）中所有回答都是错误的（All-negative-sample groups）时，所有回答的奖励（Reward）均为 0。经过组内归一化后，优势值（Advantage）变为 0，导致梯度消失，策略无法更新。
现实差距：这与人类学习机制不同。人类可以从错误中学习（例如，即使最终答案错了，中间的推理步骤可能仍有价值），而标准 GRPO 直接丢弃了这些包含错误信息的样本。在训练早期或中期，全负样本组非常普遍，这严重阻碍了模型的推理能力进化。

2. 方法论 (Methodology)

SGPO 的核心思想是引入响应多样性，将二元的“对/错”奖励转化为分步的、梯度的奖励信号。

逐步判决模型（Step-wise Judge Model）：
- 利用一个判决模型（可以是微调后的 LLM 或现有的强模型）对推理轨迹进行逐行检查。
- 该模型不要求生成正确答案，而是识别第一个导致推理偏离正确路径的错误步骤（First Incorrect Step）。
- 基于此，计算推理轨迹得分（Reasoning Trajectory Score, RTS）： $RTS(y) = \frac{\text{正确步骤数}}{\text{总步骤数}}$ 。
新的奖励函数设计：
- 对于最终答案正确的回答，奖励 $r=1$ 。
- 对于错误的回答，奖励基于 RTS 计算，采用 Sigmoid 函数平滑处理：
  $r_{SGPO}(y) = \frac{1}{1 + \exp(-\beta(RTS(y) - \gamma))}$
  其中 $\beta$ 和 $\gamma$ 是控制尺度和阈值的参数。这使得部分正确的推理（如前几步正确，最后一步算错）能获得非零的梯度信号。
集成策略：
- SGPO 保持与 GRPO 相同的采样和更新流程，仅在计算组内优势时，将原有的二元奖励 $r(x, y)$ 替换为 $r_{SGPO}(y)$ 。
- 为了减少噪声，采用了多数投票机制（Multiple independent judgments with majority voting）来确定错误位置。
- 引入了稳定性参数 $\beta$ 和 $\gamma$ 来降低早期训练阶段噪声信号的影响。

3. 理论分析 (Theoretical Analysis)

简化模型证明：作者在简化的二步推理设定下（ $H=2$ ），证明了 SGPO 在理论上优于 GRPO。
收敛性：证明了 SGPO 和 GRPO 都能收敛到最优策略。
加速性：证明了在相同迭代次数下，SGPO 学习“好动作”（即正确的推理步骤）的概率 $p^{(k)}$ 始终高于 GRPO。
关键结论：SGPO 能够利用部分正确的推理轨迹作为学习信号，从而加速策略向最优策略的收敛，特别是在全负样本组存在的场景下。

4. 实验结果 (Results)

作者在离线（Offline）和在线（Online）两种设置下，在 7B、14B、32B 不同规模的模型上进行了广泛测试，涵盖了 9 个数学推理基准（包括 AIME, MATH, Olympiads 等）。

全负样本组的有效性：
- 在离线训练中，仅使用负样本（错误回答）进行 SGPO 训练，模型性能在多个基准上仍有显著提升，甚至有时优于仅使用正样本训练的模型。这证明了错误样本中包含高价值的学习信号。
整体性能提升：
- 在在线 RL 训练中，SGPO 在大多数基准上超越了标准 GRPO。
- 早期与中期训练优势：SGPO 在训练初期（全负样本组最多时）表现尤为突出，解决了 GRPO 在此阶段停滞的问题。
- 难例覆盖：SGPO 在解决高难度问题（如 AIME25, Gaokao）上的通过率（Pass@16）更高，表明其能更好地利用“接近正确”的负样本。
鲁棒性与成本：
- SGPO 不仅适用于强力的闭源判决模型（如 o4-mini, Claude 3.7），在使用开源模型（如 QwQ-32B, DeepSeek-V3）作为判决器时依然有效。
- 计算开销可控：引入判决模型仅增加了约 2.5% 的端到端训练时间（因为仅在前 3 个 epoch 对负样本组进行分步判断）。
熵的降低：实验显示 SGPO 能比 GRPO 更快地降低策略熵（Policy Entropy），意味着模型能更自信、更确定地收敛到正确策略。

5. 主要贡献 (Key Contributions)

提出 SGPO 框架：一种简单高效的框架，利用逐步判决模型区分负样本，将二元奖励转化为梯度奖励，解决了 GRPO 在全负样本组下的梯度消失问题。
理论证明：在简化设定下，严格证明了 SGPO 比 GRPO 具有更快的学习动力学（Learning Dynamics），能更有效地利用部分正确的推理步骤。
实证验证：在多种模型规模和不同训练设置下，验证了 SGPO 能显著提升 LLM 的推理能力，特别是在训练早期和面对高难度问题时。
区分知识蒸馏：明确指出 SGPO 不同于知识蒸馏。SGPO 利用判决模型识别错误以提供学习信号，而非让模型模仿判决模型的输出，因此能学到超越判决模型能力的推理能力。

6. 意义与影响 (Significance)

填补人机智能差距：SGPO 让 AI 像人类一样“从错误中学习”，特别是从部分正确的推理过程中学习，而不仅仅是依赖最终答案的对错。
提升训练效率：在计算资源有限的情况下，SGPO 能够更充分地利用训练数据（包括那些最终错误的样本），减少了因全负样本组导致的训练停滞，加速了模型收敛。
降低对强判决模型的依赖：证明了即使使用较弱的开源模型作为逐步判决器，SGPO 依然有效，降低了高质量推理模型训练的门槛和成本。
未来方向：为处理负样本提供了新的思路，即通过细粒度的错误定位和奖励分配，将“失败”转化为“有价值的学习信号”。

总结：SGPO 通过引入逐步判决机制，巧妙地将 GRPO 中的“死胡同”（全负样本组）转化为“路标”（部分正确步骤），在理论和实践上均证明了其能显著提升大语言模型的推理训练效率和质量。

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

1. 以前的方法（GRPO）：只奖励满分，忽略错题

2. 新方法的灵感：像人类一样从错误中学习

3. 核心比喻：给“接近成功”的努力发“进步奖”

4. 为什么这很重要？（三大好处）

5. 总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 理论分析 (Theoretical Analysis)

4. 实验结果 (Results)

5. 主要贡献 (Key Contributions)

6. 意义与影响 (Significance)

类似论文

MASEval: Extending Multi-Agent Evaluation from Models to Systems

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

AgentOS: From Application Silos to a Natural Language-Driven Data Ecosystem