Thinking in Latents: Adaptive Anchor Refinement for Implicit Reasoning in LLMs

本文提出了 AdaAnchor 框架,通过引入可学习的隐式锚点向量进行静默迭代计算,并结合自适应停止机制根据问题难度动态调整推理步数,从而在显著降低输出 Token 消耗的同时提升了数学推理的准确率与效率。

Disha Sheshanarayana, Rajat Subhra Pal, Manjira Sinha, Tirthankar Dasgupta

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种让大型语言模型(LLM)变得更聪明、更省钱的新方法,叫做 AdaAnchor

为了让你轻松理解,我们可以把语言模型想象成一个正在解数学题的学生

1. 现在的困境:要么“啰嗦”,要么“死板”

目前,让 AI 做数学题主要有两种做法,但都有缺点:

  • 做法一:大声思考(Chain-of-Thought, CoT)

    • 比喻:就像学生做题时,必须把每一步的草稿、心路历程都大声写出来,比如“因为 A 等于 5,所以 B 等于 10……"。
    • 优点:通常很准,因为思考过程详细。
    • 缺点太费钱了! 写这么多字(生成很多 Token)需要消耗大量的计算资源和时间。就像学生为了做一道简单的"1+1",非要写满一整页纸的推导过程,效率极低。
  • 做法二:默不作声的“静默思考”(Latent Reasoning)

    • 比喻:学生只在脑子里想,不写草稿,直接报答案。
    • 优点:省纸(省 Token),速度快。
    • 缺点:以前的方法太死板。不管题目是简单的"1+1"还是复杂的微积分,系统都强制规定学生必须在脑子里想固定次数(比如必须想 8 次)。
    • 问题:简单题想 8 次是浪费,难题想 8 次可能还不够。这就好比让所有人无论跑多远,都必须跑满 10 圈才能停,既不公平又浪费体力。

2. AdaAnchor 的解决方案:聪明的“智能橡皮擦”

这篇论文提出的 AdaAnchor 就像给这个学生配备了一个会自我进化的“智能橡皮擦”(锚点向量)

  • 核心机制:在脑子里“打磨”答案

    • 学生不再写草稿,而是在脑子里拿着几个“思维锚点”(Anchor Vectors)。
    • 他会在脑子里反复“打磨”这些锚点。每打磨一次,思维就更清晰一点。
    • 关键点:这个过程是静默的,不生成任何文字,只在模型内部进行计算。
  • 最大的创新:自适应停止(Adaptive Halting)

    • 以前的死板方法会问:“你想了 8 次了吗?没到 8 次不许停。”
    • AdaAnchor 会问自己:"我的想法还变吗?"
    • 比喻
      • 如果是简单题(比如"2+2"),学生打磨了几下,发现脑子里的想法已经非常稳定,不再变化了。系统检测到“稳了”,立刻喊停:“好,直接报答案!”(省下了后面 6 次的思考时间)。
      • 如果是难题,学生发现打磨了几下,想法还在剧烈变化,说明还没想透。系统就会让他继续打磨,直到想通或者达到最大次数限制。

3. 这个新方法带来了什么好处?

论文通过实验发现,这种方法非常有效:

  1. 更省钱(省 Token)

    • 相比那种“大声思考”的啰嗦方法,AdaAnchor 生成的文字量减少了 92% - 93%
    • 比喻:以前做一道题要写满 10 页纸,现在只需要在脑子里想,最后只写一个答案。
  2. 更聪明(自适应)

    • 相比那种“死板想固定次数”的方法,AdaAnchor 平均少用了 48% - 60% 的思考步骤,但准确率反而提高了 5%
    • 比喻:它不再强迫学生做无用功。简单题秒停,难题多给时间,把精力都花在刀刃上。

4. 总结

AdaAnchor 就像是一个懂得“见好就收”且“量力而行”的超级学霸

它不再通过“写长篇大论”来展示思考,也不通过“死板地数数”来强制思考。它通过监测自己“脑子里的想法是否已经稳定”来决定何时停止思考。

  • 对普通用户:意味着以后用 AI 回答问题,速度更快,费用更低。
  • 对开发者:提供了一种在保持高准确率的同时,大幅降低计算成本的新思路。

简单来说,就是让 AI 学会“该停时就停”,不再做无用功,从而变得更高效、更经济。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →