Entropy After for reasoning model early exiting

该论文提出了一种名为“熵后”(EAT)的新型低成本信号,通过监测推理过程中后续 token 的熵值变化来检测并防止大模型“过度思考”,从而在 MATH500 和 AIME2025 等基准测试中实现了减少 12% 至 22% 的 token 消耗且不影响准确率,并支持在无法获取原始 logits 的黑盒场景下利用代理模型进行有效应用。

Xi Wang, James McInerney, Lequn Wang, Nathan Kallus

发布于 2026-04-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

)”**。

  • EAT 的做法:就在厨师默念完“我想完了”之后,立刻问他:"接下来你要说什么?"
  • 观察他的反应
    • 如果厨师还在犹豫:他会说“嗯……可能是 A,也可能是 B,或者是 C……"。这时候他的**“犹豫度”(熵,Entropy)**很高,说明他还没想清楚,继续让他想
    • 如果厨师心里有底了:他会非常笃定地说:“肯定是 A!”这时候他的**“犹豫度”很低**,而且非常稳定。
    • 结论:一旦探测到他的“犹豫度”降到了最低并稳定下来,就立刻喊停:“够了!端菜吧!”

为什么这个方法好?

  1. 不用做 100 份菜:以前的方法需要生成很多个答案来统计(像试吃 100 份),EAT 只需要问一个问题(看厨师下一句想说什么),成本极低。
  2. 不用看厨师的内心独白:即使厨师是黑盒(比如通过 API 调用,你看不到他的内部数据),你只需要听他说话。EAT 甚至可以用一个小助手(小模型)来监听大厨师的说话,小助手只要听到大厨师语气变稳了,就喊停。
  3. 省煤气:实验证明,用这个方法,模型可以节省 12% 到 22% 的计算资源(Token),而且准确率完全不下降

4. 总结:EAT 带来的改变

  • 以前:不管题目多简单,模型都按“最大预算”思考,简单题浪费,难题可能还不够用。
  • 现在(EAT):模型学会**“见好就收”**。
    • 简单题:刚想明白就停,省时间。
    • 难题:继续想,直到犹豫度降下来。
    • 效果:就像给每个问题分配了动态的预算,把省下来的资源用在更难的题目上,或者单纯为了省钱、省电、省时间。

一句话概括

这篇论文发明了一个**“听语气”的开关,当 AI 思考到“心里特别有底、不再犹豫”**的那一刻,就立刻叫停,避免它为了显得聪明而反复纠结,从而在保持聪明的同时,大幅节省了计算成本。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →