Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

该论文提出了步式引导策略优化(SGPO)框架,通过引入步式评判模型增强组内响应多样性,有效解决了 GRPO 在全部样本错误时无法更新策略的局限性,从而提升了大语言模型在推理任务中的训练效率与性能。

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi Lin

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大语言模型(LLM)变得更聪明、更会“举一反三”的新方法,叫做 SGPO(逐步引导策略优化)

为了让你轻松理解,我们可以把训练 AI 的过程想象成 教一个学生做数学题

1. 以前的方法(GRPO):只奖励满分,忽略错题

想象一下,你是一位严厉的老师,正在教学生做数学题。

  • 以前的做法(GRPO):你给学生看 5 道题,让他做 5 次。
    • 如果 5 次里有 1 次做对了,你就给那个做对的打高分,告诉模型:“看,这样做是对的!”
    • 如果5 次全做错了(这就是论文说的“全负样本组”),以前的老师会直接说:“这组题没一个对的,没参考价值,直接扔掉,下一组!"
  • 问题所在:这就像人类学习一样,如果学生全做错了,老师就放弃不管了。但实际上,学生虽然答案错了,但可能前几步思路是对的,只是最后算错了。以前的方法把这些“有价值的错误”都浪费了,导致 AI 学得很慢,尤其是在刚开始学的时候。

2. 新方法的灵感:像人类一样从错误中学习

论文的作者发现,人类很擅长从错误中学习。

  • 人类的思维:如果一个孩子做错了题,但前两步是对的,第三步算错了,家长会告诉他:“前两步很棒,第三步这里粗心算错了,下次注意。”
  • SGPO 的做法:我们不再把“全错”的组直接扔掉。相反,我们引入了一位**“步骤裁判”(Step-wise Judge)**。
    • 这位裁判会像批改作业一样,一步步检查学生的解题过程。
    • 它会找出学生是在哪一步开始变错的
    • 比如:学生写了 5 步,前 3 步逻辑完美,第 4 步算错了。裁判不会给 0 分,而是给 3/5 分(或者类似的奖励)。

3. 核心比喻:给“接近成功”的努力发“进步奖”

想象你在玩一个闯关游戏:

  • 旧规则:只有通关(答对)才能得金币。如果你在第 10 关挂了,哪怕你前面 9 关都打得很好,你也一分钱拿不到
  • SGPO 新规则:即使你第 10 关挂了,裁判也会看你走到哪了。如果你在第 9 关才挂,裁判会给你90% 的金币;如果你在第 2 关就挂了,只给你 20%。
  • 结果:AI 发现,即使最后没做对,只要过程走得远,也能得到奖励。这激励 AI 去尝试更复杂的步骤,而不是因为怕全错就放弃。

4. 为什么这很重要?(三大好处)

  1. 不再浪费“错题本”
    以前,AI 遇到难题全做错了,就白练了。现在,这些“全错”的组变成了宝贵的训练材料。AI 能学到:“哦,原来这种思路走到第三步是对的,只是后面卡住了。”

  2. 学得更稳、更快
    论文通过数学证明和实验发现,这种方法让 AI 在学习初期和中期进步特别快。就像学生有了详细的错题分析,比只盯着正确答案看,进步要快得多。

  3. 不需要“超级老师”
    以前的方法可能需要一个超级聪明的老师(比如更强大的 AI)来直接给出正确答案。但 SGPO 只需要裁判能看出哪一步错了就行,不需要裁判自己会做这道题。这让方法更便宜、更实用,甚至可以用开源的模型来做裁判。

5. 总结

简单来说,SGPO 就是给 AI 训练过程加了一个**“过程评分系统”**。

它告诉 AI:“别怕犯错,只要你的思考过程有一部分是对的,我就给你奖励,并告诉你哪里错了。” 这让 AI 能从每一次失败中提取价值,像人类一样,通过不断修正错误,最终成为真正的推理高手。

这就好比教孩子骑自行车:以前如果孩子摔倒了(全错),你就把他抱起来换个人教;现在你会说:“刚才你蹬得挺稳,就是转弯时手松了,下次转弯抓紧点,你离成功很近了!”这样孩子学得更快,也更自信。