Scaf-GRPO: Scaffolded Group Relative Policy Optimization for Enhancing LLM Reasoning

本文提出了 Scaf-GRPO 框架,通过仅在模型独立学习停滞时注入分级提示来缓解强化学习中的“学习悬崖”问题,从而显著提升了大语言模型在复杂数学推理任务上的表现。

Xichen Zhang, Sitong Wu, Yinghao Zhu, Haoru Tan, Shaozuo Yu, Ziyi He, Jiaya Jia

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Scaf-GRPO 的新方法,旨在解决大语言模型(LLM)在解决复杂推理问题(比如高难度数学题)时遇到的一个核心难题。

为了让你轻松理解,我们可以把训练 AI 的过程想象成教一个学生做数学题

1. 核心问题:AI 的“学习悬崖” (The Learning Cliff)

想象一下,你正在教一个学生做数学题。

  • 简单的题:学生能自己做对,你给他打个勾(奖励),他很高兴,下次做得更好。
  • 中等难度的题:学生做错了,你告诉他“错了”,他虽然没得分,但知道哪里不对,下次会尝试修正。
  • 超级难的题(悬崖):学生完全不会做,怎么想都算不出答案。
    • 在传统的训练方法(叫 GRPO)中,如果学生做错了,系统只给一个“零分”的反馈。
    • 问题在于:如果学生面对一堆超级难题,连续做了几十次全是“零分”,系统就会觉得:“哎呀,这题没得学,全是零,梯度(学习的动力)消失了。”
    • 结果就是,AI 遇到这种难题就彻底放弃,因为它学不到任何东西,就像掉进了一个“学习悬崖”,怎么爬都爬不上去。

2. 现有的笨办法:直接给答案(Prefix-Continuation)

为了解决这个问题,以前的方法是请一个“超级学霸”(老师模型)来帮忙。

  • 做法:老师直接把正确答案的前半部分写出来,让学生接着写后半部分。
  • 缺点:这就像老师直接牵着学生的手走。学生虽然能写出答案,但他没有真正学会怎么思考。而且,因为前半部分是老师写的,后半部分是学生写的,两者风格不统一,就像“拼凑”出来的,容易让 AI 学偏,甚至产生依赖,一旦没有老师牵着,它又不会了。

3. 本文的妙招:Scaf-GRPO(脚手架式引导)

这篇论文提出了 Scaf-GRPO,它的灵感来自教育学中的**“脚手架”理论**(Scaffolding)。就像盖房子时,工人需要脚手架支撑,等房子盖好了,脚手架就撤掉。

Scaf-GRPO 是怎么做的呢?

第一步:先让学生自己试(诊断期)

在训练刚开始时,老师不插手。让学生自己独立做题。

  • 如果学生能自己做对,那就最好,不需要帮助。
  • 如果学生反复尝试还是做不对,系统会判断:“这题对他来说太难了,是真正的‘拦路虎’。”

第二步:提供“最小化”的脚手架(分层提示)

一旦确认学生真的卡住了,系统不会直接给答案,而是像一位耐心的老师,分层次、由浅入深地给提示:

  1. 第一层(知识提示):只给一个概念。比如:“这道题可以用‘均值不等式’来解。”(学生得自己想怎么用)。
  2. 第二层(规划提示):如果还不会,就给个思路框架。比如:“先把式子拆开,分成几部分,然后分别应用不等式。”
  3. 第三层(具体步骤提示):如果还是不行,再给具体的计算步骤。

关键点:系统会不断尝试,直到学生用最少的那层提示就能做对题为止。

  • 如果学生只需要“知识提示”就能做对,那就只给这一层,让他自己把剩下的算出来。
  • 如果必须给到“具体步骤”才能做对,那就给到那一步。

第三步:把“成功”变成“学习机会”

一旦学生在提示下做对了,系统就把这个“带着提示的成功案例”当作新的学习材料。

  • 神奇之处:AI 学会的不是“死记硬背答案”,而是学会了**“在什么情况下需要什么样的提示”以及“如何利用提示自己推导”**。
  • 随着训练进行,AI 越来越强,以前需要“具体步骤”才能做的题,现在可能只需要“知识提示”甚至不需要提示就能做对了。脚手架慢慢撤掉,学生独立了。

4. 为什么这个方法牛?

  • 不依赖老师的手:它不是直接替学生写前半段,而是通过提示引导学生自己思考。这保证了 AI 的“独立性”和“探索能力”。
  • 填平了悬崖:那些以前让 AI 彻底“摆烂”的难题,现在变成了可以一步步攻克的阶梯。
  • 效果显著:论文在多个高难度数学竞赛(如 AIME)上测试,使用 Scaf-GRPO 训练的模型,成绩比传统方法提升了 44.3% 以上。

总结比喻

  • 传统方法:像是一个只会给分数的严厉考官。你错了就 0 分,你连续错 100 次,他就把你关在门外,不让你学了。
  • 旧式引导:像是一个保姆,直接帮你把饭喂到嘴边,你虽然吃饱了,但没学会怎么吃饭。
  • Scaf-GRPO:像是一位高明的教练
    • 你先自己练,练不出来?
    • 教练不直接帮你跑,而是给你喊一句:“注意摆臂!”(知识提示)。
    • 还是跑不快?教练喊:“先迈左腿,再迈右腿!”(规划提示)。
    • 最后你终于跑通了。教练会记住:“原来这个学生在这个阶段,只需要‘注意摆臂’就能突破。”
    • 下次遇到类似的题,教练可能只喊一声,或者干脆不喊,你就自己跑通了。

一句话总结:Scaf-GRPO 通过**“适时、适量、分层”的提示,把 AI 从“做不出题就放弃”的绝望中拉出来,教会它如何独立思考**,从而攻克那些曾经无法逾越的难题。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →