Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

该论文提出了一种名为“监督强化学习”(SRL)的新框架,通过将问题求解重构为基于专家轨迹的逐步动作生成,有效解决了小模型在复杂多步推理任务中难以通过传统监督微调或强化学习掌握的问题,并显著提升了其在推理及智能体软件工程任务中的表现。

Yihe Deng, I-Hung Hsu, Jun Yan, Zifeng Wang, Rujun Han, Gufeng Zhang, Yanfei Chen, Wei Wang, Tomas Pfister, Chen-Yu Lee

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“监督强化学习”(Supervised Reinforcement Learning, 简称 SRL)的新方法,旨在解决大语言模型(LLM)在处理复杂多步推理**(比如解高难度数学题或写复杂代码)时的痛点。

为了让你轻松理解,我们可以把训练 AI 模型想象成教一个学生(模型)学会解一道超级难的奥数题

1. 现有的两种“笨办法”及其失败原因

在 SRL 出现之前,主要用两种方法教学生,但都有缺陷:

  • 方法一:死记硬背(监督微调 SFT)
    • 做法:老师把完整的解题过程(从第一步到最终答案)直接写在黑板上,让学生逐字逐句地模仿背诵。
    • 问题:学生虽然背下来了,但只是机械模仿。一旦题目稍微变一点,或者中间某一步卡住了,学生就不知道该怎么灵活变通。就像背熟了菜谱,但换个食材就不会做饭了。而且,如果题目太难,学生根本背不下来,反而会把原本会做的简单题也搞砸(过拟合)。
  • 方法二:试错法(强化学习 RLVR)
    • 做法:老师不给答案,让学生自己瞎猜(生成多个解题过程)。只有当学生最终算出了正确答案,才给一颗糖(奖励);如果算错了,就挨骂(惩罚)。
    • 问题:对于超级难的题目,学生试了 100 次可能一次都算不对。这时候,老师一直不给糖,学生就学不到任何东西,甚至会因为一直挨骂而“崩溃”(训练不稳定)。这就好比让一个刚学走路的孩子去跑马拉松,他根本跑不到终点,所以永远得不到鼓励。

2. SRL 的“聪明办法”:拆解动作 + 过程奖励

SRL 的核心思想是:不要只盯着最终答案,也不要死记硬背整篇作文,而是把解题过程拆解成一个个具体的“动作”,并针对每个动作给予反馈。

我们可以用**“学骑自行车”**来打比方:

  • 传统 SFT:教练把骑车的全过程录下来,让你看视频,然后让你照着做。如果你摔倒了,教练说“你刚才那个动作不对,重来”,但你不知道具体是哪个动作(是脚蹬慢了?还是车把歪了?)出了问题。
  • 传统 RL:教练让你自己骑。只有当你骑到了终点,才给你鼓掌。如果你骑了 10 米就摔了,教练一言不发。对于新手,这太难了。
  • SRL(新方法)
    1. 拆解动作:教练把骑车拆解成:“先跨上车” -> “脚踩第一下” -> “保持平衡” -> “转弯”。
    2. 内部独白(思考过程):在做一个动作前,学生必须先在心里(或写在纸上)说一段“独白”,解释自己为什么要这么做(比如:“我觉得车有点歪,所以我需要往左扶一下”)。
    3. 动作匹配奖励
      • 学生做完一个动作(比如“脚踩第一下”),教练立刻检查:你的动作和专家的标准动作像不像?
      • 关键点:只要你的动作逻辑是对的(比如你确实踩了踏板,而不是去推把手),哪怕你最后没骑到终点,教练也会给你即时的小奖励(比如“动作很标准,+1 分”)。
      • 如果动作完全离谱(比如去推把手),就扣一分。

3. 为什么 SRL 这么厉害?

  • 给“过程”发工资:即使学生最后没解出题,只要他中间每一步的逻辑(动作)都跟专家很像,他就能得到很多奖励。这就像学生虽然没跑完马拉松,但教练夸他“起跑姿势完美”、“摆臂很标准”,学生就会很有信心继续学。
  • 允许“胡思乱想”:SRL 允许学生在做动作之前,有一段**“内心独白”(用 <thought> 标签包裹)。这意味着学生可以有自己的思考风格,只要最后的“实际行动”**(Action)是对的就行。这培养了学生灵活思考的能力,而不是死板模仿。
  • 从小步开始:它把大难题拆成了小台阶。学生不需要一下子解决整个问题,只需要关注“下一步该做什么”,大大降低了学习难度。

4. 实验结果:小模型也能变大神

论文在数学竞赛(如 AMC, AIME)和软件编程任务上做了测试:

  • 结果:使用 SRL 训练的小模型(70 亿参数),在解决难题的能力上,远超传统的死记硬背(SFT)和纯试错(RL)方法。
  • 组合拳:最厉害的做法是先用 SRL 教学生“怎么一步步思考”,等学生有了基础,再用传统的“试错法”(RLVR)进行最后的冲刺优化。这种**“先学走路,再学跑步”**的策略效果最好。

总结

这篇论文提出的 SRL,就像是给 AI 请了一位懂得“拆解教学法”的金牌教练

这位教练不再只盯着“最终答案”对不对,而是手把手教学生:“看,遇到这个问题,专家会先想什么(内心独白),然后做什么动作(关键步骤)。你虽然还没解出最终答案,但你刚才这个动作做得非常像专家,所以给你奖励!”

这种方法让那些原本因为太难而“学不会”的小模型,也能通过一步步积累,掌握解决复杂问题的核心能力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →