TERMINATOR: Learning Optimal Exit Points for Early Stopping in Chain-of-Thought Reasoning

本文提出了 TERMINATOR 策略,通过利用大推理模型首次生成最终答案的可预测性来构建最优推理长度数据集,从而在推理阶段实现早期停止,在多个基准测试中将思维链长度平均减少 14% 至 55% 且保持性能不变。

Alliot Nagle, Jakhongir Saydaliev, Dhia Garbaya, Michael Gastpar, Ashok Vardhan Makkuva, Hyeji Kim

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 TERMINATOR(终结者)的新方法,旨在解决大型推理模型(LRMs)在回答问题时“想太多”的问题。

为了让你轻松理解,我们可以把整个过程想象成一个过于谨慎的数学家在考试中的表现

1. 核心问题:聪明的“过度思考”

想象一下,你让一个超级聪明的数学家(大型推理模型)做一道数学题。

  • 正常情况:他迅速算出答案,比如 x=5x=5,然后写下“答案是 5"。
  • 现在的模型:他算出 x=5x=5 后,并没有停笔。他开始怀疑:“等等,我确定是 5 吗?让我再验算一遍……也许我可以用另一种方法试试……万一我刚才看错了呢?……再检查一次……"
  • 后果:虽然最终答案还是对的,但他为了“想清楚”,写了几千字的思考过程。这就像是你已经知道钥匙在口袋里了,却还要把整个房子翻个底朝天才肯出门。这不仅浪费时间(计算资源),还增加了出错的风险。

这种现象被称为**“过度思考”(Overthinking)**。

2. 解决方案:TERMINATOR(终结者)

TERMINATOR 就像是一个坐在数学家旁边的**“智能监工”。它的任务不是教数学家怎么解题,而是在他算出正确答案的那一瞬间,立刻喊“停!”**,并强制他写下最终答案,不再继续纠结。

它是如何工作的?

这就好比监工手里有一个**“第六感探测器”**。

  1. 观察信号(Token-Confidence)
    当数学家即将算出答案时,他的思维状态会发生微妙变化。就像一个人突然灵光一闪,自信心会瞬间爆棚。

    • 在论文中,这种变化被称为**“令牌置信度”(Token-Confidence)的尖峰**。
    • 就像图 2 显示的那样,在答案出现的那一刻,模型的“自信心”会突然飙升,然后因为开始自我怀疑(过度思考)而迅速下降。TERMINATOR 就是捕捉这个**“自信巅峰”**的信号。
  2. 观察用词(Thinking Tokens)
    数学家在思考时,喜欢用一些特定的“废话”词,比如“嗯……"、“让我想想”、“或者……"(对应论文中的 "hmm", "okay", "another")。

    • 在算出答案之前,他喜欢说“嗯……"、“让我想想”。
    • 在算出答案之后,他反而开始说“或者……"、“但是……",试图寻找其他可能性。
    • TERMINATOR 通过监听这些“废话词”的使用频率变化,也能判断出答案是否已经出炉。
  3. 训练监工(学习最佳退出点)
    为了让这个监工变得聪明,研究人员先让模型做了几万道题,然后**“事后诸葛亮”**地分析:

    • “这道题,模型在第 500 个词的时候其实已经算出正确答案了,但他一直写到第 2000 个词。”
    • 于是,他们告诉监工:“记住,第 500 个词就是最佳停止点。”
    • 通过这种“事后复盘”的数据训练,TERMINATOR 学会了在模型真正算出答案的那一毫秒,立刻触发停止指令。

3. 效果如何?

实验结果显示,TERMINATOR 非常成功:

  • 大幅节省时间:在数学、编程和科学问答等四个高难度测试中,它平均减少了 14% 到 55% 的思考过程长度。
  • 保持准确率:虽然思考过程变短了,但答案的准确率几乎没有下降。就像那个数学家,虽然少写了 1000 字的废话,但答案依然是对的。
  • 比现有方法更好:它比之前那些试图让模型“少想点”的方法(比如 DEER 或 Dynasor)更精准,既省了资源,又没牺牲太多准确性。

4. 总结比喻

如果把大型推理模型比作一辆自动驾驶汽车

  • 现状:汽车已经到达了目的地(算出了答案),但为了确认没走错,它还在原地转圈、倒车、重新规划路线,浪费了大量燃油。
  • TERMINATOR:就像是一个智能导航系统。它监测到汽车已经稳稳停在目的地门口(检测到答案生成的信号),立刻切断引擎,直接锁门下车。

一句话总结
TERMINATOR 是一个给 AI 安装的“刹车系统”,它能在 AI 刚刚算出正确答案、还没开始瞎琢磨的时候,就果断叫停,从而让 AI 变得更聪明、更快速、更省油。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →