LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

该研究通过受控算术任务分析表明,大语言模型在思维链推理过程中是边生成边逐步计算答案的,而非在输入时已预先确定,因此其生成的推理链条真实反映了模型内部的计算过程。

Keito Kudo, Yoichi Aoki, Tatsuki Kuribayashi, Shusaku Sone, Masaya Taniguchi, Ana Brassard, Keisuke Sakaguchi, Kentaro Inui

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型(LLM)做了一次“思想 X 光检查”,目的是搞清楚一个核心问题:当 AI 在写“解题步骤”(思维链)时,它到底是在真的思考,还是早就把答案背下来了,只是在假装思考

为了让你更容易理解,我们可以把 AI 想象成一个正在参加数学考试的“天才学生”

1. 核心疑问:是“边想边写”还是“先写答案再编过程”?

想象一下,你让这位“天才学生”做一道复杂的数学题:

题目:A = 1 + B,B = 2 + 3,求 A 是多少?

通常,我们会希望学生是这样做的:

  1. 看到题目,先算出 B = 5。
  2. 再算出 A = 1 + 5 = 6。
  3. 最后写下答案。

但人们一直担心另一种情况:学生其实早就知道答案是 6 了(可能是猜的,也可能是死记硬背)

  • 如果是这样,那他的“解题过程”就是不诚实的(Faithless),就像是在演戏。
  • 如果是真的,那他的“解题过程”就是诚实的(Faithful),真正反映了他的思考。

这篇论文就是想搞清楚:这位学生到底是在哪一刻真正算出答案的

2. 实验方法:给大脑装“监控摄像头”

研究人员给这位“学生”装上了线性探针(Linear Probes),这就像是在他大脑的每一个神经元里装了微型监控摄像头

  • 监控什么?监控他在读题时、写第一步时、写第二步时,脑子里是否已经“浮现”出了答案(比如数字 6)。
  • 实验设置:他们设计了像搭积木一样层层递进的数学题(有的需要算一步,有的需要算三步,中间还故意加一些无关的干扰项)。

3. 主要发现:AI 是“边想边写”的实干家

通过监控摄像头,研究人员发现了一个惊人的事实:

  • 读题时(还没开始写步骤):当 AI 刚读完题目,还没开始写“解题过程”时,它的大脑里并没有答案。就像学生刚拿到卷子,脑子里还是空白的,不知道答案是多少。
  • 写步骤时(思维链过程中):随着 AI 开始写“因为 B=2+3,所以 B=5...",它的大脑里才逐渐算出了中间结果,最后算出了最终答案。
  • 结论:AI 并不是在“编故事”,它真的是在生成文字的过程中,同步进行计算。它的“解题过程”是它真实思考的忠实记录

打个比方
这就好比你在做一道菜。

  • 不诚实的情况:你先把做好的菜端上桌(答案),然后假装在厨房切菜、炒菜(编造过程)。
  • 诚实的情况(本文发现):你一边切菜、炒菜(生成过程),香味(答案)才慢慢飘出来。你只有在切完菜、炒完菜后,才知道这道菜最终是什么味道。

4. 因果验证:如果“篡改”过程,答案会变吗?

为了进一步确认,研究人员玩了一个“大脑移植”的游戏(因果干预实验):

  • 操作:他们把 AI 在“解题过程”中产生的某个中间想法(比如"B=5"),偷偷替换成另一个问题的中间想法(比如"B=10")。
  • 结果:一旦替换了中间步骤,AI 最终给出的答案立刻跟着变了(从 6 变成了 11)。
  • 意义:这证明了最终答案是由“解题过程”决定的。如果过程是假的,答案就会错;如果过程是真的,答案就是对的。这就像你如果把菜谱里的“放盐”改成“放糖”,做出来的菜味道肯定就变了。

5. 一个有趣的细节:AI 也有“近因效应”

研究还发现,AI 在解题时,特别依赖刚刚写过的步骤

  • 它做下一步计算时,主要参考的是上一句刚写出来的结论,而不是很久以前题目里的原始数据。
  • 这就像我们人类解题一样:我们通常盯着刚算出来的那个数字接着往下算,而不是回头去翻题目第一行。

总结

这篇论文给 AI 的“思维链”(CoT)正了名:

  1. AI 不是骗子:在解决这种需要多步推理的数学题时,AI 并不是先猜答案再编过程。
  2. 过程即思考:AI 写的每一个字,都是它实时计算的结果。
  3. 值得信赖:只要 AI 能把解题过程写得通顺,那它得出的答案大概率也是经过真实“思考”的,而不是瞎蒙的。

一句话总结
这篇论文告诉我们,当 AI 在写“解题步骤”时,它真的在边写边算,它的“废话”其实是它真实的思考过程,而不是为了凑字数的表演。