Each language version is independently generated for its own context, not a direct translation.
这篇论文介绍了一种名为**“监督强化学习”(Supervised Reinforcement Learning, 简称 SRL)的新方法,旨在解决大语言模型(LLM)在处理复杂多步推理**(比如解高难度数学题或写复杂代码)时的痛点。
为了让你轻松理解,我们可以把训练 AI 模型想象成教一个学生(模型)学会解一道超级难的奥数题。
1. 现有的两种“笨办法”及其失败原因
在 SRL 出现之前,主要用两种方法教学生,但都有缺陷:
- 方法一:死记硬背(监督微调 SFT)
- 做法:老师把完整的解题过程(从第一步到最终答案)直接写在黑板上,让学生逐字逐句地模仿背诵。
- 问题:学生虽然背下来了,但只是机械模仿。一旦题目稍微变一点,或者中间某一步卡住了,学生就不知道该怎么灵活变通。就像背熟了菜谱,但换个食材就不会做饭了。而且,如果题目太难,学生根本背不下来,反而会把原本会做的简单题也搞砸(过拟合)。
- 方法二:试错法(强化学习 RLVR)
- 做法:老师不给答案,让学生自己瞎猜(生成多个解题过程)。只有当学生最终算出了正确答案,才给一颗糖(奖励);如果算错了,就挨骂(惩罚)。
- 问题:对于超级难的题目,学生试了 100 次可能一次都算不对。这时候,老师一直不给糖,学生就学不到任何东西,甚至会因为一直挨骂而“崩溃”(训练不稳定)。这就好比让一个刚学走路的孩子去跑马拉松,他根本跑不到终点,所以永远得不到鼓励。
2. SRL 的“聪明办法”:拆解动作 + 过程奖励
SRL 的核心思想是:不要只盯着最终答案,也不要死记硬背整篇作文,而是把解题过程拆解成一个个具体的“动作”,并针对每个动作给予反馈。
我们可以用**“学骑自行车”**来打比方:
- 传统 SFT:教练把骑车的全过程录下来,让你看视频,然后让你照着做。如果你摔倒了,教练说“你刚才那个动作不对,重来”,但你不知道具体是哪个动作(是脚蹬慢了?还是车把歪了?)出了问题。
- 传统 RL:教练让你自己骑。只有当你骑到了终点,才给你鼓掌。如果你骑了 10 米就摔了,教练一言不发。对于新手,这太难了。
- SRL(新方法):
- 拆解动作:教练把骑车拆解成:“先跨上车” -> “脚踩第一下” -> “保持平衡” -> “转弯”。
- 内部独白(思考过程):在做一个动作前,学生必须先在心里(或写在纸上)说一段“独白”,解释自己为什么要这么做(比如:“我觉得车有点歪,所以我需要往左扶一下”)。
- 动作匹配奖励:
- 学生做完一个动作(比如“脚踩第一下”),教练立刻检查:你的动作和专家的标准动作像不像?
- 关键点:只要你的动作逻辑是对的(比如你确实踩了踏板,而不是去推把手),哪怕你最后没骑到终点,教练也会给你即时的小奖励(比如“动作很标准,+1 分”)。
- 如果动作完全离谱(比如去推把手),就扣一分。
3. 为什么 SRL 这么厉害?
- 给“过程”发工资:即使学生最后没解出题,只要他中间每一步的逻辑(动作)都跟专家很像,他就能得到很多奖励。这就像学生虽然没跑完马拉松,但教练夸他“起跑姿势完美”、“摆臂很标准”,学生就会很有信心继续学。
- 允许“胡思乱想”:SRL 允许学生在做动作之前,有一段**“内心独白”(用
<thought> 标签包裹)。这意味着学生可以有自己的思考风格,只要最后的“实际行动”**(Action)是对的就行。这培养了学生灵活思考的能力,而不是死板模仿。
- 从小步开始:它把大难题拆成了小台阶。学生不需要一下子解决整个问题,只需要关注“下一步该做什么”,大大降低了学习难度。
4. 实验结果:小模型也能变大神
论文在数学竞赛(如 AMC, AIME)和软件编程任务上做了测试:
- 结果:使用 SRL 训练的小模型(70 亿参数),在解决难题的能力上,远超传统的死记硬背(SFT)和纯试错(RL)方法。
- 组合拳:最厉害的做法是先用 SRL 教学生“怎么一步步思考”,等学生有了基础,再用传统的“试错法”(RLVR)进行最后的冲刺优化。这种**“先学走路,再学跑步”**的策略效果最好。
总结
这篇论文提出的 SRL,就像是给 AI 请了一位懂得“拆解教学法”的金牌教练。
这位教练不再只盯着“最终答案”对不对,而是手把手教学生:“看,遇到这个问题,专家会先想什么(内心独白),然后做什么动作(关键步骤)。你虽然还没解出最终答案,但你刚才这个动作做得非常像专家,所以给你奖励!”
这种方法让那些原本因为太难而“学不会”的小模型,也能通过一步步积累,掌握解决复杂问题的核心能力。
Each language version is independently generated for its own context, not a direct translation.
1. 研究背景与问题 (Problem)
大型语言模型(LLMs)在处理需要多步推理的复杂问题时仍面临巨大挑战。现有的两种主流训练范式在应对高难度、小样本的开放源码模型训练时存在明显局限:
- 监督微调 (SFT) 的局限:
- SFT 通常基于专家演示进行逐 Token 的模仿学习。
- 过拟合风险:在数据量较小或模型能力有限时,SFT 容易过拟合长演示,导致模型僵化地模仿表面形式,缺乏真正的推理泛化能力。
- 性能下降:实验表明,直接在困难数据集(如 s1k)上对 SFT 进行微调,甚至会导致模型性能低于基线模型。
- 基于验证奖励的强化学习 (RLVR) 的局限:
- RLVR(如 GRPO 算法)依赖最终答案的正确性作为奖励信号。
- 稀疏奖励问题:在极难的问题上,模型在多次尝试(Rollouts)中几乎无法生成正确答案(Pass@k 接近 0)。此时,所有样本的奖励均为负或零,导致梯度消失,模型无法从错误中学习(即“负学习信号”)。
- 训练不稳定:单纯惩罚所有错误输出可能导致训练不稳定,阻碍模型在困难任务上的进步。
核心痛点:如何在缺乏正确答案(稀疏奖励)且数据量有限的情况下,让小型开源模型学会解决复杂的推理问题?
2. 方法论:监督强化学习 (SRL)
为了解决上述问题,作者提出了 监督强化学习 (Supervised Reinforcement Learning, SRL) 框架。该框架将问题解决重新定义为序列决策过程,而非单纯的最终答案生成或整段轨迹模仿。
核心思想
SRL 不直接优化最终答案,也不强制模型逐 Token 模仿专家,而是训练模型生成一系列逻辑“动作(Actions)”,并在每个动作前生成内部的推理独白(Inner Monologue)。
具体流程
- 动作分解 (Action Decomposition):
- 将专家的完整解决方案轨迹 y 分解为一系列离散的逻辑步骤(Actions),即 y={ystep1,ystep2,...,ystepN}。
- 每个步骤代表一个有意义的决策点(例如数学中的代数变换,或软件工程中的代码执行命令)。
- 数据构建 (Data Construction):
- 利用强大的教师模型生成包含详细步骤的解决方案。
- 将一条完整轨迹转化为 N−1 个训练样本。对于第 k 步,输入为“问题 + 前 k−1 步的上下文”,目标是预测第 k 步的动作。
- 训练目标与奖励机制 (Reward Mechanism):
- 生成模式:模型接收上下文,首先生成内部推理(
<thought>...</thought>),然后输出该步骤的动作(Action)。
- 序列相似度奖励 (Sequence Similarity Reward):
- 奖励不基于最终答案,而是基于模型生成的动作与专家对应步骤动作之间的相似度。
- 使用
difflib.SequenceMatcher 计算匹配块(Matching Blocks)的相似度比率 R∈[0,1]。
- 如果格式错误,给予负奖励(-1)。
- 优势:这种奖励是稠密(Dense)且平滑的。即使最终答案错误,只要中间步骤与专家逻辑相似,模型就能获得正向反馈。这允许模型在即使所有 Rollouts 都未得出正确答案的情况下,依然获得有效的学习信号。
- 动态采样 (Dynamic Sampling):
- 借鉴 DAPO 等算法,过滤掉那些所有 Rollouts 奖励方差极小(即所有尝试都表现一致,无区分度)的样本,确保训练批次中包含具有学习价值的样本。
优化目标
使用 GRPO(Group Relative Policy Optimization)算法,但将优势函数(Advantage Function)的计算基础从“最终答案正确性”替换为“步骤动作的序列相似度”。
3. 主要贡献 (Key Contributions)
- 提出 SRL 框架:
- 一种新颖的训练范式,通过基于专家动作相似度的稠密奖励,解决了 SFT 过拟合和 RLVR 在困难问题上奖励稀疏的问题。
- 实证有效性:
- 在数学推理(AMC23, AIME24/25, Minerva)和智能体软件工程(SWE-Bench)两个领域进行了广泛实验。
- 结果显示,SRL 显著优于强基线模型(包括 SFT、RLVR 及 R3 等)。
- 揭示细粒度指导的重要性:
- 分析表明,将专家轨迹分解为多步(Multi-step)并提供细粒度的动作指导,比仅提供整体序列相似度或最终答案奖励更有效。
- SRL 诱导模型产生更灵活的推理模式,如“规划 - 执行 - 验证”的交错(Interleaved)行为,而非单一的静态生成。
- 最佳实践策略:
- 发现 "SRL 初始化 + RLVR 微调" 的流水线(Pipeline)能取得最强的整体性能。SRL 教会模型如何“思考”和“行动”,RLVR 进一步利用验证信号优化最终结果。
4. 实验结果 (Results)
数学推理基准 (Math Reasoning)
- 数据集:在 s1k-1.1 数据集(1000 个高难度问题)上微调 Qwen2.5-7B-Instruct。
- 对比结果:
- SFT:直接 SFT 导致性能下降(相比基线模型)。
- RLVR:相比 SFT 有轻微提升,但增益有限。
- SRL:相比 RLVR 平均提升 3.0%。
- SRL → RLVR:结合两者,平均提升 3.7%,在 AIME24 等最难基准上表现尤为突出(例如 AIME24 Greedy 达到 20.0%,远超 SFT 的 3.3% 和 RLVR 的 10.0%)。
- 小模型表现:在 Qwen2.5-3B 上,SRL 同样带来了显著的性能提升(平均提升 3.1%),证明了方法的扩展性。
软件工程智能体 (Agentic Software Engineering)
- 任务:在 SWE-Bench-Verified 上解决真实的代码修复任务。
- 基线:对比 SWE-Gym-7B(基于 SFT 的强基线)和原始基线模型。
- 结果:
- Oracle 设置(已知文件位置):SRL 达到 14.8% 的解决率,比 SWE-Gym-7B (8.4%) 相对提升 74%。
- 端到端设置:SRL 达到 8.6%,是 SWE-Gym-7B (4.2%) 的 两倍。
行为分析
SRL 训练后的模型展现出更高级的推理行为:
- 结构化规划:先列出路线图再执行。
- 动态调整:在解题过程中插入迭代推理块以修正轨迹。
- 反思验证:在输出最终答案前暂停并自我验证逻辑。
5. 意义与结论 (Significance)
- 填补了训练空白:SRL 成功解决了小模型在缺乏正确答案样本的困难任务上“学不会”的难题,打通了从模仿学习(SFT)到强化学习(RL)之间的鸿沟。
- 通用性与鲁棒性:该方法不仅适用于数学推理,还成功迁移到了复杂的软件工程智能体任务,证明了其作为通用推理训练框架的潜力。
- 新的训练范式:提出了“动作导向”和“序列相似度奖励”的新思路,为未来训练更强大的 AI 智能体提供了可落地的技术方案。
- 最佳实践:确立了"SRL 预训练 + RLVR 精调”作为处理高难度推理任务的最优训练策略。
局限性:该方法高度依赖高质量且可分解的专家轨迹。如果领域缺乏结构化数据或任务需要整体直觉而非序列步骤,SRL 的效果可能会受限。此外,模型需要具备基础的指令遵循能力才能产生有效的初始 Rollout。
总结:这篇论文通过引入监督强化学习 (SRL),巧妙地将专家轨迹转化为逐步的动作指导,利用序列相似度提供稠密奖励,成功让小型开源模型攻克了以往难以学习的复杂推理任务,并在数学和代码生成领域取得了 State-of-the-art 的性能。