HEAL: Hindsight Entropy-Assisted Learning for Reasoning Distillation

本文提出了名为 HEAL 的无强化学习框架,通过结合引导熵辅助修复、困惑度 - 不确定性比率估计及渐进式答案引导课程演化三大核心模块,有效突破了传统知识蒸馏中教师模型能力上限的制约,显著提升了小型模型从大型推理模型中学习复杂推理能力的水准。

Wenjing Zhang, Jiangze Yan, Jieyun Huang, Yi Shen, Shuming Shi, Ping Chen, Ning Wang, Zhaoxiang Liu, Kai Wang, Shiguo Lian

发布于 2026-03-12
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 HEAL 的新方法,它的核心目的是:如何把“超级学霸”(大模型)的解题思路,完美地教给“普通学生”(小模型),而且还要教那些连学霸自己都觉得很难的题。

为了让你更容易理解,我们可以把整个过程想象成**“一位天才导师带徒弟”**的故事。

1. 以前的难题:学霸也有“卡壳”的时候(Teacher Ceiling)

在以前,教小模型(学生)学推理,通常用一种叫“拒绝采样”的方法。

  • 做法:让大模型(老师)做一道题,如果它做对了,就把解题过程记下来教给学生;如果做错了,就直接扔掉,换下一道题。
  • 问题:这就像老师只教学生那些“他一眼就能看出答案”的简单题。遇到特别难的“变态题”,老师自己也会卡住,想不出解法。这时候,老师就会说:“这题太难了,我也不会,扔掉吧。”
  • 后果:学生只学到了简单题,遇到难题就傻眼了。这就形成了一个**“老师天花板”**——学生的水平永远不可能超过老师做对题的能力上限。

2. HEAL 的解决方案:给老师一个“提示”,把废题变宝

HEAL 的核心思想是:老师卡住不代表真的不会,可能只是需要一点点“提示”(Hint)。 只要给老师一个提示,他就能把解题思路补全,这些“补全后的思路”就是学生最宝贵的学习资料。

HEAL 由三个聪明的模块组成,我们可以把它们比作**“三个教学法宝”**:

法宝一:GEAR(智能“急救”提示)

  • 比喻:想象老师在做一道极难的数学题,思路突然断了,卡在了某个步骤。
  • 做法:HEAL 会像一位敏锐的助教,通过观察老师“思考时的犹豫程度”(熵值变化),精准定位到老师卡在哪一步
  • 动作:助教不会直接给答案,而是在老师卡住的那一瞬间,悄悄递上一张“提示条”(比如:“其实这一步应该往这个方向想”)。
  • 结果:老师拿到提示后,瞬间灵光一闪,把原本卡住的思路补全了。这就把一道“废题”变成了一道“有解的难题”。

法宝二:PURE(防作弊过滤器)

  • 比喻:有时候,老师拿到提示后,为了赶时间,可能会写一段“假推理”。比如直接说:“因为答案是 36,所以答案是 36"。这种逻辑是跳跃的、作弊的。
  • 做法:PURE 就像一个严格的阅卷老师。它会检查老师的解题过程:
    • 每一步推理是否自然流畅?
    • 还是说突然就跳到了结论(这是“捷径”或“作弊”)?
  • 动作:如果发现老师是在“瞎编”或者“走捷径”,PURE 就会把这份解题过程扔掉,只保留那些逻辑严密、一步步推导出来的“真材实料”。

法宝三:PACE(循序渐进的课程表)

  • 比喻:你不能让刚入门的学生直接去啃那些“经过急救才做出来的变态难题”,他会崩溃的。
  • 做法:HEAL 设计了一个三阶段课程
    1. 第一阶段(打基础):先让学生学老师自己就能轻松做对的题,建立信心,掌握基本套路。
    2. 第二阶段(拔高):加入那些老师需要提示才能做对的题,让学生学习如何运用提示解决中等难度的问题。
    3. 第三阶段(冲刺):最后才让学生挑战那些最难、最复杂的题(也就是经过 GEAR 急救和 PURE 过滤后的“变态题”)。
  • 结果:学生像爬楼梯一样,稳稳地掌握了从简单到极难的推理能力,不会“消化不良”。

3. 最终效果:学生超越了“老师天花板”

通过这套组合拳,HEAL 做到了以前做不到的事:

  • 以前:学生只能学到老师“独立做对”的题,水平被锁死。
  • 现在:学生不仅学到了老师独立做的题,还学到了老师“在提示下做对”的难题。

实验结果:在数学竞赛(如 AIME)等极难的测试中,使用 HEAL 训练的小模型,成绩比传统方法提高了非常多(比如在 14B 模型上提升了 10% 以上),真正打破了“老师天花板”,让小模型拥有了接近甚至超越老师处理难题的能力。

总结

简单来说,HEAL 就是给大模型(老师)装了一个“智能提示器”和“防作弊网”,并制定了一套“循序渐进”的教学计划。 它不再因为老师偶尔卡壳就放弃难题,而是把卡壳变成教学机会,最终让小学生(小模型)也能学会解那些曾经被认为“无解”的超级难题。