Supervised Reinforcement Learning: From Expert Trajectories to Step-wise Reasoning

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“监督强化学习”（Supervised Reinforcement Learning, 简称 SRL）的新方法，旨在解决大语言模型（LLM）在处理复杂多步推理**（比如解高难度数学题或写复杂代码）时的痛点。

为了让你轻松理解，我们可以把训练 AI 模型想象成教一个学生（模型）学会解一道超级难的奥数题。

1. 现有的两种“笨办法”及其失败原因

在 SRL 出现之前，主要用两种方法教学生，但都有缺陷：

方法一：死记硬背（监督微调 SFT）
- 做法：老师把完整的解题过程（从第一步到最终答案）直接写在黑板上，让学生逐字逐句地模仿背诵。
- 问题：学生虽然背下来了，但只是机械模仿。一旦题目稍微变一点，或者中间某一步卡住了，学生就不知道该怎么灵活变通。就像背熟了菜谱，但换个食材就不会做饭了。而且，如果题目太难，学生根本背不下来，反而会把原本会做的简单题也搞砸（过拟合）。
方法二：试错法（强化学习 RLVR）
- 做法：老师不给答案，让学生自己瞎猜（生成多个解题过程）。只有当学生最终算出了正确答案，才给一颗糖（奖励）；如果算错了，就挨骂（惩罚）。
- 问题：对于超级难的题目，学生试了 100 次可能一次都算不对。这时候，老师一直不给糖，学生就学不到任何东西，甚至会因为一直挨骂而“崩溃”（训练不稳定）。这就好比让一个刚学走路的孩子去跑马拉松，他根本跑不到终点，所以永远得不到鼓励。

2. SRL 的“聪明办法”：拆解动作 + 过程奖励

SRL 的核心思想是：不要只盯着最终答案，也不要死记硬背整篇作文，而是把解题过程拆解成一个个具体的“动作”，并针对每个动作给予反馈。

我们可以用**“学骑自行车”**来打比方：

传统 SFT：教练把骑车的全过程录下来，让你看视频，然后让你照着做。如果你摔倒了，教练说“你刚才那个动作不对，重来”，但你不知道具体是哪个动作（是脚蹬慢了？还是车把歪了？）出了问题。
传统 RL：教练让你自己骑。只有当你骑到了终点，才给你鼓掌。如果你骑了 10 米就摔了，教练一言不发。对于新手，这太难了。
SRL（新方法）：
1. 拆解动作：教练把骑车拆解成：“先跨上车” -> “脚踩第一下” -> “保持平衡” -> “转弯”。
2. 内部独白（思考过程）：在做一个动作前，学生必须先在心里（或写在纸上）说一段“独白”，解释自己为什么要这么做（比如：“我觉得车有点歪，所以我需要往左扶一下”）。
3. 动作匹配奖励：
  - 学生做完一个动作（比如“脚踩第一下”），教练立刻检查：你的动作和专家的标准动作像不像？
  - 关键点：只要你的动作逻辑是对的（比如你确实踩了踏板，而不是去推把手），哪怕你最后没骑到终点，教练也会给你即时的小奖励（比如“动作很标准，+1 分”）。
  - 如果动作完全离谱（比如去推把手），就扣一分。

3. 为什么 SRL 这么厉害？

给“过程”发工资：即使学生最后没解出题，只要他中间每一步的逻辑（动作）都跟专家很像，他就能得到很多奖励。这就像学生虽然没跑完马拉松，但教练夸他“起跑姿势完美”、“摆臂很标准”，学生就会很有信心继续学。
允许“胡思乱想”：SRL 允许学生在做动作之前，有一段**“内心独白”（用 <thought> 标签包裹）。这意味着学生可以有自己的思考风格，只要最后的“实际行动”**（Action）是对的就行。这培养了学生灵活思考的能力，而不是死板模仿。
从小步开始：它把大难题拆成了小台阶。学生不需要一下子解决整个问题，只需要关注“下一步该做什么”，大大降低了学习难度。

4. 实验结果：小模型也能变大神

论文在数学竞赛（如 AMC, AIME）和软件编程任务上做了测试：

结果：使用 SRL 训练的小模型（70 亿参数），在解决难题的能力上，远超传统的死记硬背（SFT）和纯试错（RL）方法。
组合拳：最厉害的做法是先用 SRL 教学生“怎么一步步思考”，等学生有了基础，再用传统的“试错法”（RLVR）进行最后的冲刺优化。这种**“先学走路，再学跑步”**的策略效果最好。

总结

这篇论文提出的 SRL，就像是给 AI 请了一位懂得“拆解教学法”的金牌教练。

这位教练不再只盯着“最终答案”对不对，而是手把手教学生：“看，遇到这个问题，专家会先想什么（内心独白），然后做什么动作（关键步骤）。你虽然还没解出最终答案，但你刚才这个动作做得非常像专家，所以给你奖励！”

这种方法让那些原本因为太难而“学不会”的小模型，也能通过一步步积累，掌握解决复杂问题的核心能力。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

大型语言模型（LLMs）在处理需要多步推理的复杂问题时仍面临巨大挑战。现有的两种主流训练范式在应对高难度、小样本的开放源码模型训练时存在明显局限：

监督微调 (SFT) 的局限：
- SFT 通常基于专家演示进行逐 Token 的模仿学习。
- 过拟合风险：在数据量较小或模型能力有限时，SFT 容易过拟合长演示，导致模型僵化地模仿表面形式，缺乏真正的推理泛化能力。
- 性能下降：实验表明，直接在困难数据集（如 s1k）上对 SFT 进行微调，甚至会导致模型性能低于基线模型。
基于验证奖励的强化学习 (RLVR) 的局限：
- RLVR（如 GRPO 算法）依赖最终答案的正确性作为奖励信号。
- 稀疏奖励问题：在极难的问题上，模型在多次尝试（Rollouts）中几乎无法生成正确答案（Pass@k 接近 0）。此时，所有样本的奖励均为负或零，导致梯度消失，模型无法从错误中学习（即“负学习信号”）。
- 训练不稳定：单纯惩罚所有错误输出可能导致训练不稳定，阻碍模型在困难任务上的进步。

核心痛点：如何在缺乏正确答案（稀疏奖励）且数据量有限的情况下，让小型开源模型学会解决复杂的推理问题？

2. 方法论：监督强化学习 (SRL)

为了解决上述问题，作者提出了 监督强化学习 (Supervised Reinforcement Learning, SRL) 框架。该框架将问题解决重新定义为序列决策过程，而非单纯的最终答案生成或整段轨迹模仿。

核心思想

SRL 不直接优化最终答案，也不强制模型逐 Token 模仿专家，而是训练模型生成一系列逻辑“动作（Actions）”，并在每个动作前生成内部的推理独白（Inner Monologue）。

具体流程

动作分解 (Action Decomposition)：
- 将专家的完整解决方案轨迹 $y$ 分解为一系列离散的逻辑步骤（Actions），即 $y = \{y_{step_1}, y_{step_2}, ..., y_{step_N}\}$ 。
- 每个步骤代表一个有意义的决策点（例如数学中的代数变换，或软件工程中的代码执行命令）。
数据构建 (Data Construction)：
- 利用强大的教师模型生成包含详细步骤的解决方案。
- 将一条完整轨迹转化为 $N-1$ 个训练样本。对于第 $k$ 步，输入为“问题 + 前 $k-1$ 步的上下文”，目标是预测第 $k$ 步的动作。
训练目标与奖励机制 (Reward Mechanism)：
- 生成模式：模型接收上下文，首先生成内部推理（<thought>...</thought>），然后输出该步骤的动作（Action）。
- 序列相似度奖励 (Sequence Similarity Reward)：
  - 奖励不基于最终答案，而是基于模型生成的动作与专家对应步骤动作之间的相似度。
  - 使用 difflib.SequenceMatcher 计算匹配块（Matching Blocks）的相似度比率 $R \in [0, 1]$ 。
  - 如果格式错误，给予负奖励（-1）。
- 优势：这种奖励是稠密（Dense）且平滑的。即使最终答案错误，只要中间步骤与专家逻辑相似，模型就能获得正向反馈。这允许模型在即使所有 Rollouts 都未得出正确答案的情况下，依然获得有效的学习信号。
动态采样 (Dynamic Sampling)：
- 借鉴 DAPO 等算法，过滤掉那些所有 Rollouts 奖励方差极小（即所有尝试都表现一致，无区分度）的样本，确保训练批次中包含具有学习价值的样本。

优化目标

使用 GRPO（Group Relative Policy Optimization）算法，但将优势函数（Advantage Function）的计算基础从“最终答案正确性”替换为“步骤动作的序列相似度”。

3. 主要贡献 (Key Contributions)

提出 SRL 框架：
- 一种新颖的训练范式，通过基于专家动作相似度的稠密奖励，解决了 SFT 过拟合和 RLVR 在困难问题上奖励稀疏的问题。
实证有效性：
- 在数学推理（AMC23, AIME24/25, Minerva）和智能体软件工程（SWE-Bench）两个领域进行了广泛实验。
- 结果显示，SRL 显著优于强基线模型（包括 SFT、RLVR 及 R3 等）。
揭示细粒度指导的重要性：
- 分析表明，将专家轨迹分解为多步（Multi-step）并提供细粒度的动作指导，比仅提供整体序列相似度或最终答案奖励更有效。
- SRL 诱导模型产生更灵活的推理模式，如“规划 - 执行 - 验证”的交错（Interleaved）行为，而非单一的静态生成。
最佳实践策略：
- 发现 "SRL 初始化 + RLVR 微调" 的流水线（Pipeline）能取得最强的整体性能。SRL 教会模型如何“思考”和“行动”，RLVR 进一步利用验证信号优化最终结果。

4. 实验结果 (Results)

数学推理基准 (Math Reasoning)

数据集：在 s1k-1.1 数据集（1000 个高难度问题）上微调 Qwen2.5-7B-Instruct。
对比结果：
- SFT：直接 SFT 导致性能下降（相比基线模型）。
- RLVR：相比 SFT 有轻微提升，但增益有限。
- SRL：相比 RLVR 平均提升 3.0%。
- SRL $\to$ RLVR：结合两者，平均提升 3.7%，在 AIME24 等最难基准上表现尤为突出（例如 AIME24 Greedy 达到 20.0%，远超 SFT 的 3.3% 和 RLVR 的 10.0%）。
小模型表现：在 Qwen2.5-3B 上，SRL 同样带来了显著的性能提升（平均提升 3.1%），证明了方法的扩展性。

软件工程智能体 (Agentic Software Engineering)

任务：在 SWE-Bench-Verified 上解决真实的代码修复任务。
基线：对比 SWE-Gym-7B（基于 SFT 的强基线）和原始基线模型。
结果：
- Oracle 设置（已知文件位置）：SRL 达到 14.8% 的解决率，比 SWE-Gym-7B (8.4%) 相对提升 74%。
- 端到端设置：SRL 达到 8.6%，是 SWE-Gym-7B (4.2%) 的两倍。

行为分析

SRL 训练后的模型展现出更高级的推理行为：

结构化规划：先列出路线图再执行。
动态调整：在解题过程中插入迭代推理块以修正轨迹。
反思验证：在输出最终答案前暂停并自我验证逻辑。

5. 意义与结论 (Significance)

填补了训练空白：SRL 成功解决了小模型在缺乏正确答案样本的困难任务上“学不会”的难题，打通了从模仿学习（SFT）到强化学习（RL）之间的鸿沟。
通用性与鲁棒性：该方法不仅适用于数学推理，还成功迁移到了复杂的软件工程智能体任务，证明了其作为通用推理训练框架的潜力。
新的训练范式：提出了“动作导向”和“序列相似度奖励”的新思路，为未来训练更强大的 AI 智能体提供了可落地的技术方案。
最佳实践：确立了"SRL 预训练 + RLVR 精调”作为处理高难度推理任务的最优训练策略。

局限性：该方法高度依赖高质量且可分解的专家轨迹。如果领域缺乏结构化数据或任务需要整体直觉而非序列步骤，SRL 的效果可能会受限。此外，模型需要具备基础的指令遵循能力才能产生有效的初始 Rollout。

总结：这篇论文通过引入监督强化学习 (SRL)，巧妙地将专家轨迹转化为逐步的动作指导，利用序列相似度提供稠密奖励，成功让小型开源模型攻克了以往难以学习的复杂推理任务，并在数学和代码生成领域取得了 State-of-the-art 的性能。