Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大语言模型（LLM）“自我进化”的新方法，叫做**“在线自我蒸馏”（On-Policy Self-Distillation, 简称 OPSD）**。

为了让你更容易理解，我们可以把大语言模型想象成一个正在备考数学竞赛的学生，而这篇论文就是教这个学生如何**“自己给自己当老师”**的高效复习法。

1. 以前的难题：学生要么太笨，要么太累

在 OPSD 出现之前，让 AI 变聪明主要有三种笨办法：

死记硬背（监督微调 SFT）： 老师把标准答案直接给学生看，让学生背下来。
- 缺点： 学生只会背题，换个问法就不会了（泛化能力差），而且容易“走火入魔”，只记住了答案没学会逻辑。
疯狂刷题（强化学习 RL/GRPO）： 让学生自己做题，做对了给糖吃，做错了挨打。
- 缺点： 效率太低！为了做对一道题，学生可能得瞎蒙 8 次（采样 8 次），浪费大量时间。而且，如果 8 次全错，老师就不知道具体哪一步错了，只能给个“全错”的差评，学生很迷茫。
请名师辅导（传统知识蒸馏）： 请一个更厉害的大佬（老师模型）在旁边看着，学生做题时，大佬实时纠正。
- 缺点： 请大佬太贵了！而且大佬和学生的思路不一样，大佬教的东西学生有时候“消化”不了（分布不匹配）。

2. OPSD 的核心创意：自己给自己“开小灶”

这篇论文提出了一个天才的想法：既然现在的 AI 已经很强了，为什么不能让它自己当自己的老师呢？

想象一下这个场景：

一个学生（学生模型）在做一道很难的数学题。

第一步（学生视角）： 学生只看题目，开始自己解题。他写下的每一个步骤，都是他真实的思考过程。

第二步（老师视角）： 这时候，同一个 AI 模型变身成“老师”。但是！ 这个“老师”手里拿着标准答案（或者解题思路）。

第三步（自我对话）： “老师”看着学生刚才写的那一步，心里想：“哦，他写到了这里。如果我知道答案是 14，那么他下一步应该写 6x+2，而不是 3x+5。虽然我不知道他为什么写错，但我可以告诉他，在已知答案的情况下，正确的下一步概率分布应该是怎样的。”

第四步（自我修正）： 学生根据“老师”的反馈（不是简单的对错，而是每一步的概率指导），调整自己的思路，下次再遇到类似情况，就能走对路了。

关键点： 老师和学生其实是同一个模型，只是“老师”多看了一个“作弊条”（标准答案），而“学生”没看。

3. 这个方法为什么这么牛？

🚀 效率极高（省时间）

以前的强化学习（GRPO）为了做对一道题，可能要生成 8 个不同的答案来试错，像是一个人蒙了 8 次才蒙对。
OPSD 只需要学生生成 1 次答案。因为“老师”手里有答案，它能实时告诉学生：“你刚才这一步虽然没完全错，但离正确答案还差一点，往这个方向改改。”

比喻： 以前是“盲人摸象”，摸 8 次才知道象在哪；现在是“蒙眼人”走一步，旁边有个“带眼罩的老师”实时喊：“往左一点！再往左一点！”
结果： 论文说，这种方法比传统强化学习节省了 8 到 12 倍的计算资源（Token 效率）。

🎯 指导更细致（不瞎蒙）

以前的方法，只有最后答案对了才给奖励，错了就全扣。
OPSD 是**“步步为营”**。哪怕最后答案错了，只要中间某一步的逻辑是对的，“老师”也会给好评；如果某一步逻辑偏了，“老师”会立刻指出。

比喻： 就像学开车。以前是车撞墙了才告诉你“你开错了”；现在是教练坐在副驾，你刚打方向盘偏了 5 度，教练就说：“方向盘回正一点”，让你随时修正。

🧠 不需要请外援

不需要再训练一个更大的、更贵的“老师模型”。同一个模型，换个“视角”（有没有答案）就能既当学生又当老师。

4. 有什么限制吗？

这个方法有个前提：这个学生得“有点底子”。
论文发现，如果模型太小（比如只有 17 亿参数），它自己当老师时，可能连“标准答案”都理解不了，反而把自己带偏了。只有当模型足够聪明（比如 40 亿或 80 亿参数以上），它才能通过看答案，真正理解解题逻辑，从而教会自己。

总结

OPSD 就是让 AI 学会“复盘”。

它不再盲目地试错，也不再死记硬背，而是利用已有的正确答案作为“特权信息”，让自己在解题过程中不断自我反思、自我纠正。

以前： 学生做题 -> 全错 -> 老师骂一句“全错” -> 学生懵逼 -> 重做。
现在 (OPSD)： 学生做题 -> 老师（拿着答案的自己）实时指导每一步 -> 学生边做边改 -> 效率翻倍，越做越聪明。

这项技术让 AI 变得更聪明、更省钱，是未来大模型训练的一个重要方向。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**在线策略自蒸馏（On-Policy Self-Distillation, OPSD）**的新框架，旨在通过让大语言模型（LLM）“自我教学”来提升其在推理任务（特别是数学推理）中的表现。该方法解决了传统知识蒸馏和强化学习在训练效率、分布不匹配以及依赖外部教师模型方面的局限性。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

在提升 LLM 推理能力方面，现有的主流方法存在以下痛点：

强化学习 (RLVR/GRPO)： 虽然有效，但计算成本高昂。它通常依赖稀疏的序列级奖励（即只有最终答案正确与否的反馈），缺乏细粒度的 Token 级指导。此外，当所有采样的回复都错误时，梯度信号会消失，导致训练效率低下。
监督微调 (SFT)： 容易受到“暴露偏差”（Exposure Bias）的影响，即训练时看到的序列与推理时生成的序列分布不一致，导致误差累积。
传统知识蒸馏 (Off-policy)： 依赖外部教师模型生成数据，存在训练与推理的分布不匹配问题。
在线策略蒸馏 (On-Policy Distillation)： 虽然解决了分布不匹配问题，但通常需要一个独立的、往往更大的教师模型，且未能充分利用推理数据集中已有的“真实答案（Ground Truth）”。

核心问题： 能否利用模型自身的能力，在拥有真实答案（特权信息）的情况下，通过“自我反思”来指导自身（无特权信息版本）的学习，从而无需外部教师模型即可实现高效的在线策略蒸馏？

2. 方法论 (Methodology)

OPSD 的核心思想是**“自我教学”**：一个足够强大的 LLM 可以利用真实答案（ $y^*$ ）作为特权信息来“理性化”推理过程，并以此指导其自身在没有特权信息时的生成。

2.1 框架设计

框架从同一个模型 $p_\theta$ 实例化出两个策略，仅通过不同的上下文条件进行区分：

学生策略 (Student Policy, $p_S$ )： 仅观察问题 $x$ ，即 $p_S(\cdot | x) \triangleq p_\theta(\cdot | x)$ 。它负责生成在线策略的轨迹（Rollout） $\hat{y}$ 。
教师策略 (Teacher Policy, $p_T$ )： 观察问题 $x$ 和真实答案/推理链 $y^*$ （特权信息），即 $p_T(\cdot | x, y^*) \triangleq p_\theta(\cdot | x, y^*)$ 。它不生成新 Token，而是利用 $y^*$ 对 $p_S$ 生成的轨迹进行“评估”和“指导”。

2.2 训练过程

采样： 学生策略 $p_S$ 根据问题 $x$ 生成一个回复 $\hat{y}$ 。
评估与对齐： 在生成的每一步 $n$ $n$ ，教师策略 $p_T$ $p_{T}$ 和学生策略 $p_S$ $p_{S}$ 都基于学生生成的前缀 $\hat{y}_{<n}$ $\overset{y}{^}_{< n}$ 计算下一个 Token 的分布。
- $p_S(\cdot | x, \hat{y}_{<n})$ ：学生当前的预测分布。
- $p_T(\cdot | x, y^*, \hat{y}_{<n})$ ：教师基于真实答案 $y^*$ 的“理想”分布。
优化目标： 最小化学生分布与教师分布之间的散度（Divergence）。
- 全词汇表散度 (Full-vocabulary Divergence)： 计算整个词汇表上的分布差异（如 Jensen-Shannon Divergence, JSD）。这提供了密集的 Token 级反馈。
- 损失函数：
  $L_{OPSD}(\theta) = \mathbb{E}_{(x,y^*) \sim S} \mathbb{E}_{\hat{y} \sim p_S(\cdot|x)} \left[ \sum_{n=1}^{|\hat{y}|} D\left( p_T(\cdot | x, y^*, \hat{y}_{<n}) \parallel p_S(\cdot | x, \hat{y}_{<n}) \right) \right]$
- 梯度流： 梯度仅通过学生策略 $p_S$ 反向传播，教师策略 $p_T$ 作为固定目标（其参数在训练步中不更新，或固定为初始策略以稳定训练）。

2.3 关键创新点

单模型双重角色： 无需外部教师模型，利用同一模型的不同条件输入实现师生分离。
密集奖励信号： 利用真实答案 $y^*$ 提供每一步的 Token 级指导，解决了 RL 中奖励稀疏的问题。
在线策略 (On-Policy)： 学生基于自身生成的轨迹进行训练，消除了分布不匹配。

3. 主要贡献 (Key Contributions)

提出 OPSD 框架： 首个将在线策略蒸馏与自蒸馏结合，利用真实答案作为特权信息，使单一模型能同时扮演师生角色。
性能与效率的双重提升： 在多个数学推理基准测试中，OPSD 的表现优于传统的 SFT，并与 GRPO（Group Relative Policy Optimization）相当甚至更优。
极高的 Token 效率： 相比 GRPO，OPSD 实现了 8-12 倍 的 Token 效率提升。GRPO 需要采样 8 个长回复（16k tokens）来估计优势，而 OPSD 仅需 1 个较短回复（1024 tokens）即可获得密集反馈。
规模效应分析： 发现模型容量对自蒸馏至关重要。中等规模（4B/8B）模型效果显著，而较小模型（1.7B）由于缺乏足够的“理性化”能力，效果不佳甚至下降。

4. 实验结果 (Results)

基准测试： 在 AIME 2024/2025, HMMT 2025, Amo-Bench 等竞赛级数学数据集上进行了评估。
性能对比 (Qwen3 系列模型)：
- Qwen3-8B/4B： OPSD 显著优于 SFT，并达到或略优于 GRPO 的性能。
- Qwen3-1.7B： OPSD 表现不如 GRPO，验证了自蒸馏需要足够的模型能力来理解并内化特权信息。
效率对比： 图 3 显示，在相同的梯度更新步数下，OPSD 生成的 Token 数量远少于 GRPO，但达到了相似的准确率。这意味着训练时间和计算成本大幅降低。
消融实验：
- 生成长度： 增加学生生成的 Token 长度（从 1024 到 4096）能显著提升性能，因为更多的生成为了教师提供了更多的指导机会。
- 损失函数： 全词汇表散度（Full-vocabulary logit distillation）优于仅基于采样 Token 的策略梯度方法，表明匹配完整分布能提供更丰富的监督信号。

5. 意义与影响 (Significance)

降低推理训练成本： OPSD 提供了一种无需昂贵外部教师模型或复杂奖励模型（PRM）的训练范式，极大地降低了提升 LLM 推理能力的门槛和计算成本。
解决奖励稀疏问题： 通过将“正确答案”转化为每一步的 Token 级概率分布指导，成功将稀疏的序列级奖励转化为密集的 Token 级监督信号。
自我进化的新视角： 证明了 LLM 具备“自我反思”和“自我教学”的潜力，只要给予其正确的参考信息，模型就能通过优化自身分布来改进推理能力。
未来方向： 论文指出，随着模型规模扩大（如 70B+），OPSD 的潜力可能更大。未来可结合课程学习（Curriculum Learning）来动态调整问题难度，以适应模型能力的增长。

总结： OPSD 是一种简单但强大的后训练技术，它巧妙地利用了推理数据中的真实答案，通过“自我蒸馏”机制，以极低的计算成本实现了与复杂强化学习方法相当甚至更优的推理性能，为高效训练推理模型提供了新的范式。