Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

本文提出了广义在线策略蒸馏(G-OPD)框架,通过引入灵活的参考模型和奖励缩放因子,发现奖励外推(ExOPD)能显著提升学生模型性能甚至超越教师,而基于教师基模型的奖励校正则能进一步优化强到弱蒸馏的效果。

Wenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin

发布于 2026-02-27
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让 AI 模型“青出于蓝而胜于蓝”的新方法。为了让你轻松理解,我们可以把整个研究过程想象成**“师徒传功”**的故事。

1. 背景:传统的“师徒”教学(OPD)

在人工智能领域,通常有一个**“老师模型”(很聪明,但可能很笨重)和一个“学生模型”**(比较弱,但反应快)。

  • 传统做法(离策略蒸馏): 老师先自己做题,把答案抄下来,学生照着抄。这就像学生死记硬背老师的笔记,但没学会怎么思考。
  • 新做法(在线策略蒸馏,OPD): 学生自己先做题,遇到不会的或者做错的,老师再在旁边指点:“你看,这一步你该这么想,那个词该这么写”。学生根据老师的实时反馈来修正自己的思路。
  • 现状: 这种方法已经证明比死记硬背(抄笔记)效果好,学生能学得更快、更准。

2. 核心发现:OPD 其实是一种“特殊的强化学习”

作者首先发现了一个秘密:OPD 本质上就是一种“强化学习”(RL),只是它把“奖励”和“约束”的权重死死地锁死在 1:1 的比例上。

  • 比喻: 想象老师在教学生。
    • 奖励(Reward): 老师对学生说:“你刚才那个想法很棒!”(鼓励)。
    • 约束(KL 正则化): 老师又说:“但别跑题,要保持在你的能力范围内,别太离谱。”(约束)。
    • OPD 的局限: 传统的 OPD 规定,老师给多少鼓励,就必须给多少约束,比例永远是 1:1,不能改。

3. 创新点:G-OPD 框架(给老师一把“调节尺”)

作者提出了一个通用在线策略蒸馏(G-OPD)框架,相当于给老师发了一把“调节尺”,允许老师自由调整“鼓励”和“约束”的比例。

这里有两个神奇的发现:

发现一:奖励外推(ExOPD)——“青出于蓝”

  • 做法: 老师把“鼓励”的音量调大,超过“约束”的音量(比例 > 1)。
  • 比喻: 老师不再只是说“做得好,保持住”,而是说:“你刚才那个想法太棒了!甚至比我想象的还要好!你要大胆地往这个方向再走一步,别怕越界!”
  • 效果:
    • 当比例适中(>1)时,学生不仅能学会老师的所有技能,甚至能突破老师的极限,在数学和编程任务上表现得比老师还强。
    • 这就叫**“奖励外推”(ExOPD)**。就像学生听了老师的鼓励后,不仅学会了招式,还自己悟出了更高深的境界。
    • 多师合一: 如果有好几个不同领域的老师(比如一个教数学,一个教编程),用这个方法,学生能融合所有老师的精华,变成一个**“全能天才”**,比任何一个单科老师都强。

发现二:奖励修正(Reward Correction)——“找对参照物”

  • 场景: 当老师非常强大(比如 300 亿参数),而学生很弱(比如 17 亿参数)时,直接让老师指点学生,有时候老师会“降维打击”,导致学生听不懂,或者老师给的反馈有偏差。
  • 做法: 作者建议,在指点学生时,老师不要拿“现在的自己”做对比,而是拿**“还没经过特训的原始老师”**做对比。
  • 比喻:
    • 默认做法: 现在的超级老师(经过特训)指点学生:“你看,我现在的解题思路多完美,你照着学。”(但这中间差距太大,学生容易懵)。
    • 奖励修正: 超级老师先回想一下:“我刚出师时(原始老师)是怎么想的?”然后说:“你现在的思路,比我刚出师时好多了,但离我现在的水平还差一点,往这个方向改。”
    • 效果: 这样给出的反馈更精准、更接地气,学生学得更稳,进步更快。
    • 代价: 这需要老师记得自己“刚出师时”的样子(需要额外的计算资源),稍微有点费脑子,但效果显著。

4. 实验结果:真的有用吗?

作者在数学推理代码生成这两个很难的领域做了大量实验:

  • 数学题: 学生模型(4B 参数)通过 ExOPD,在各类数学竞赛题(如 AIME)上的得分,不仅超过了标准 OPD,甚至超过了专门训练过的数学老师模型
  • 代码生成: 同样,学生在写代码时,准确率也超越了老师。
  • 强强联合: 当把“数学老师”和“编程老师”的知识融合进同一个学生时,ExOPD 是唯一能让这个学生同时超越两个老师的方法。

总结

这篇论文的核心思想就是:

  1. 打破僵局: 以前教学生,鼓励和约束的比例是固定的(1:1)。
  2. 大胆鼓励: 现在我们可以加大鼓励的力度(奖励外推),让学生敢于突破老师的极限,甚至超越老师
  3. 精准反馈: 在教弱小的学生时,老师要回溯自己的初心(奖励修正),给出更精准、更易懂的反馈。

简单来说,这就是一套**“让 AI 学生不仅能学会老师,还能青出于蓝而胜于蓝”**的高效训练秘籍。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →