Entropy-Aware On-Policy Distillation of Language Models

该论文提出了一种熵感知在线策略蒸馏方法,通过在高熵场景下结合前向 KL 散度来克服传统反向 KL 散度导致的多样性丧失问题,从而在保持生成多样性的同时显著提升了语言模型在数学推理任务上的表现。

Woogyeol Jin, Taywon Min, Yongjin Yang, Swanand Ravindra Kadhe, Yi Zhou, Dennis Wei, Nathalie Baracaldo, Kimin Lee

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让“小模型”更聪明地学习“大模型”知识的故事。

想象一下,你有一个天才导师(大语言模型,Teacher),他知识渊博,但有时候面对复杂问题,他自己也会犹豫不决,脑子里会冒出好几个不同的解题思路。现在,你想让一个勤奋的学生(小语言模型,Student)学会导师的解题技巧。

1. 以前的方法:只盯着“标准答案”

过去,教学生时,我们通常用一种叫**“反向 KL 散度”**的方法。

  • 比喻:这就像导师只告诉学生:“别想那些乱七八糟的,只记我最确定的那个答案!”
  • 问题:如果导师自己都很犹豫(比如面对一道很难的数学题,他脑子里有 3 种解法,概率各占 1/3),这种教法就会出问题。学生会变得死板,只敢选导师“最可能”选的那一个,完全忽略了其他合理的解法。
  • 后果:学生变得缺乏多样性(只会一种解法),而且在导师犹豫的时候,学生学得很不稳定,今天学这个,明天学那个,最后什么都学不好。

2. 这篇论文的新方法:看情况“因材施教”

作者提出了一种叫**“熵感知在线策略蒸馏”(EOPD)**的新方法。

  • 核心思想:我们要看导师当时的“心情”(不确定性/熵)。
    • 当导师很自信时(比如简单的加法题):继续用老方法,让学生死记硬背导师的标准答案。这样学得快、效率高。
    • 当导师很犹豫时(比如复杂的奥数题):这时候不能只给一个答案了!我们要告诉学生:“导师觉得这几种解法都有可能,你都要学着点,把可能性都保留下来。”
  • 比喻
    • 以前是**“独裁式教学”**:老师指哪打哪,学生不敢越雷池一步。
    • 现在是**“灵活式教学”**:老师确定的时候,学生照做;老师犹豫的时候,老师会说:“你看,A 方案、B 方案、C 方案都有道理,你都要记在笔记本上,别只盯着 A。”

3. 为什么这很重要?

在数学推理或逻辑思考中,“犹豫”往往意味着“关键决策点”

  • 如果学生只学“标准答案”,遇到稍微变通一点的问题就卡住了。
  • 如果学生学会了导师的“犹豫”(即保留了多种可能性的分布),他就能在遇到难题时,灵活地探索不同的解题路径,从而更有可能找到正确答案。

4. 实验结果:小模型变强了

作者用这个新方法训练了几个不同大小的“学生模型”(Qwen3 系列),让他们做数学题。

  • 结果:相比旧方法,新方法的通过率(Pass@8)显著提高
    • 特别是对于 4B 参数量的模型,通过率提升了 5.05%(这在 AI 领域是非常巨大的进步)。
    • 更重要的是,学生生成的答案更多样化了,不再千篇一律,而且更贴近导师那种“既自信又包容多种可能”的思维模式。

总结

这篇论文就像是在说:教学生时,不要只教他“唯一的标准答案”,在他遇到难题、导师也拿不准的时候,要教他“保留多种可能性”的智慧。

这种方法既保留了学习的高效率(简单题快学),又增加了学习的鲁棒性(难题多思考),让小模型能真正继承大模型的“智慧”和“灵活性”,而不仅仅是模仿它的“嘴皮子”。