Entropy After for reasoning model early exiting

Each language version is independently generated for its own context, not a direct translation.

）”**。

EAT 的做法：就在厨师默念完“我想完了”之后，立刻问他："接下来你要说什么？"
观察他的反应：
- 如果厨师还在犹豫：他会说“嗯……可能是 A，也可能是 B，或者是 C……"。这时候他的**“犹豫度”（熵，Entropy）**很高，说明他还没想清楚，继续让他想。
- 如果厨师心里有底了：他会非常笃定地说：“肯定是 A！”这时候他的**“犹豫度”很低**，而且非常稳定。
- 结论：一旦探测到他的“犹豫度”降到了最低并稳定下来，就立刻喊停：“够了！端菜吧！”

不用做 100 份菜：以前的方法需要生成很多个答案来统计（像试吃 100 份），EAT 只需要问一个问题（看厨师下一句想说什么），成本极低。
不用看厨师的内心独白：即使厨师是黑盒（比如通过 API 调用，你看不到他的内部数据），你只需要听他说话。EAT 甚至可以用一个小助手（小模型）来监听大厨师的说话，小助手只要听到大厨师语气变稳了，就喊停。
省煤气：实验证明，用这个方法，模型可以节省 12% 到 22% 的计算资源（Token），而且准确率完全不下降。

以前：不管题目多简单，模型都按“最大预算”思考，简单题浪费，难题可能还不够用。
现在（EAT）：模型学会**“见好就收”**。
- 简单题：刚想明白就停，省时间。
- 难题：继续想，直到犹豫度降下来。
- 效果：就像给每个问题分配了动态的预算，把省下来的资源用在更难的题目上，或者单纯为了省钱、省电、省时间。

这篇论文发明了一个**“听语气”的开关，当 AI 思考到“心里特别有底、不再犹豫”**的那一刻，就立刻叫停，避免它为了显得聪明而反复纠结，从而在保持聪明的同时，大幅节省了计算成本。

Each language version is independently generated for its own context, not a direct translation.

}; \theta))$。
4. 其中 $f$ 是下一个 Token 预测分布， $H$ 是熵。

信息增益视角：EAT 实际上衡量了推理过程带来的信息增益。随着推理深入，模型对答案的确定性增加，</think> 后的第一个 Token 的熵会下降并稳定。

平滑处理：由于 EAT 轨迹可能存在噪声，论文使用指数移动平均 (EMA) 来跟踪 EAT 的方差。
停止规则：
- 维护 EAT 的均值 $\hat{M}$ 和方差 $\hat{V}$ 。
- 当 $\hat{V}$ 低于预设阈值 $\delta$ 时，认为模型已经“想清楚”（不确定性稳定），触发早期退出。
- 算法允许根据问题难度动态分配计算资源：简单问题 EAT 方差迅速下降，提前退出；困难问题则继续推理。
黑盒适配：EAT 的一个显著优势是它可以在黑盒设置下工作。即使无法访问推理模型的 Logits，也可以用一个较小的代理模型 (Proxy Model) 来读取推理文本并计算 EAT，从而控制大模型的推理过程。

定量验证过度思考：从分布动力学的角度，通过追踪 Pass@1 的收敛情况，首次定量证明了推理模型在达到正确解后仍会持续生成冗余 Token。
提出 EAT 信号：引入了一种轻量级、无需训练、无需采样 Rollout 的 EAT 信号。它仅关注 </think> 后的单个 Token 熵，计算成本极低。
自适应计算策略：提出基于 EAT 方差阈值的停止规则，实现了根据问题难度动态分配 Token 预算，相比固定预算策略显著提升了效率。
黑盒兼容性：验证了利用小模型（如 1.5B 或 4B）作为代理来监控大模型（如 70B 或 Claude 3.7）推理过程的有效性，使得该方法适用于 API 模型。
开源资源：发布了大规模的答案 Rollout 数据和中间推理轨迹（消耗超过 20K GPU 小时），供后续研究使用。

论文在 MATH-500、AIME-2025 和 GPQA-Diamond 等基准测试上进行了评估：

效率提升：在保持准确率（Pass@1）不下降的前提下，EAT 方法将 Token 使用量减少了 12% 到 22%。
- 例如在 AIME-2025 上，使用 DeepSeek-R1-0528-Qwen3-8B 模型，Token 使用量减少了 21%。
对比基线：
- 相比固定 Token 预算：EAT 显著节省了计算资源。
- 相比基于 Rollout 的方法（如 #UA@K）：EAT 无需生成多个假设性回答，计算开销极小（仅需一次前向传播），且避免了 Rollout 带来的随机延迟和高昂成本。
- 相比基于置信度的方法：EAT 在早期停止性能上表现相当，但计算成本低 5 倍（无需生成 5 个 Token 的 Rollout）。
黑盒场景验证：
- 使用 1.5B 模型成功控制了 70B 的 Llama 模型。
- 使用本地部署的 Qwen 4B 模型成功控制了 API 版的 Claude 3.7，且计算 EAT 的时间远小于接收 API 流式输出的延迟，实现了零额外延迟的早期退出。

降低推理成本：EAT 提供了一种简单、通用且低成本的方法，能够显著降低推理模型在推理阶段的计算成本（Token 消耗），对于大规模部署 LLM 具有极高的经济价值。
推动自适应推理：该方法证明了推理模型具备“自我感知”其思考充分性的潜力，为构建更智能、更高效的自适应推理系统奠定了基础。
黑盒模型优化：打破了早期退出技术通常依赖白盒模型内部信息的限制，使得通过 API 调用推理模型的用户也能享受到自适应计算带来的效率提升。

总结来说，EAT 通过监测推理结束标记后的单 Token 熵，巧妙地捕捉了模型“思考成熟度”的拐点，以极低的代价实现了推理过程的动态优化，是解决大模型“过度思考”问题的有效方案。

类似论文