LLMs Faithfully and Iteratively Compute Answers During CoT: A Systematic Analysis With Multi-step Arithmetics

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型（LLM）做了一次“思想 X 光检查”，目的是搞清楚一个核心问题：当 AI 在写“解题步骤”（思维链）时，它到底是在真的思考，还是早就把答案背下来了，只是在假装思考？

为了让你更容易理解，我们可以把 AI 想象成一个正在参加数学考试的“天才学生”。

1. 核心疑问：是“边想边写”还是“先写答案再编过程”？

想象一下，你让这位“天才学生”做一道复杂的数学题：

题目：A = 1 + B，B = 2 + 3，求 A 是多少？

通常，我们会希望学生是这样做的：

看到题目，先算出 B = 5。
再算出 A = 1 + 5 = 6。
最后写下答案。

但人们一直担心另一种情况：学生其实早就知道答案是 6 了（可能是猜的，也可能是死记硬背）

如果是这样，那他的“解题过程”就是不诚实的（Faithless），就像是在演戏。
如果是真的，那他的“解题过程”就是诚实的（Faithful），真正反映了他的思考。

这篇论文就是想搞清楚：这位学生到底是在哪一刻真正算出答案的？

2. 实验方法：给大脑装“监控摄像头”

研究人员给这位“学生”装上了线性探针（Linear Probes），这就像是在他大脑的每一个神经元里装了微型监控摄像头。

监控什么？监控他在读题时、写第一步时、写第二步时，脑子里是否已经“浮现”出了答案（比如数字 6）。
实验设置：他们设计了像搭积木一样层层递进的数学题（有的需要算一步，有的需要算三步，中间还故意加一些无关的干扰项）。

3. 主要发现：AI 是“边想边写”的实干家

通过监控摄像头，研究人员发现了一个惊人的事实：

读题时（还没开始写步骤）：当 AI 刚读完题目，还没开始写“解题过程”时，它的大脑里并没有答案。就像学生刚拿到卷子，脑子里还是空白的，不知道答案是多少。
写步骤时（思维链过程中）：随着 AI 开始写“因为 B=2+3，所以 B=5..."，它的大脑里才逐渐算出了中间结果，最后算出了最终答案。
结论：AI 并不是在“编故事”，它真的是在生成文字的过程中，同步进行计算。它的“解题过程”是它真实思考的忠实记录。

打个比方：
这就好比你在做一道菜。

不诚实的情况：你先把做好的菜端上桌（答案），然后假装在厨房切菜、炒菜（编造过程）。
诚实的情况（本文发现）：你一边切菜、炒菜（生成过程），香味（答案）才慢慢飘出来。你只有在切完菜、炒完菜后，才知道这道菜最终是什么味道。

4. 因果验证：如果“篡改”过程，答案会变吗？

为了进一步确认，研究人员玩了一个“大脑移植”的游戏（因果干预实验）：

操作：他们把 AI 在“解题过程”中产生的某个中间想法（比如"B=5"），偷偷替换成另一个问题的中间想法（比如"B=10"）。
结果：一旦替换了中间步骤，AI 最终给出的答案立刻跟着变了（从 6 变成了 11）。
意义：这证明了最终答案是由“解题过程”决定的。如果过程是假的，答案就会错；如果过程是真的，答案就是对的。这就像你如果把菜谱里的“放盐”改成“放糖”，做出来的菜味道肯定就变了。

5. 一个有趣的细节：AI 也有“近因效应”

研究还发现，AI 在解题时，特别依赖刚刚写过的步骤。

它做下一步计算时，主要参考的是上一句刚写出来的结论，而不是很久以前题目里的原始数据。
这就像我们人类解题一样：我们通常盯着刚算出来的那个数字接着往下算，而不是回头去翻题目第一行。

总结

这篇论文给 AI 的“思维链”（CoT）正了名：

AI 不是骗子：在解决这种需要多步推理的数学题时，AI 并不是先猜答案再编过程。
过程即思考：AI 写的每一个字，都是它实时计算的结果。
值得信赖：只要 AI 能把解题过程写得通顺，那它得出的答案大概率也是经过真实“思考”的，而不是瞎蒙的。

一句话总结：
这篇论文告诉我们，当 AI 在写“解题步骤”时，它真的在边写边算，它的“废话”其实是它真实的思考过程，而不是为了凑字数的表演。

Each language version is independently generated for its own context, not a direct translation.

1. 研究背景与问题 (Problem)

随着大型语言模型（LLMs）在复杂推理任务中表现优异，思维链（Chain-of-Thought, CoT） 提示技术被广泛使用。然而，CoT 生成的推理过程是否忠实（Faithful） 于模型最终的答案，是一个核心争议点。

核心问题：模型是在生成 CoT 之前就已经在内部“想好”了答案，然后仅仅为了符合格式而生成了看似合理的推理步骤（即“事后合理化”或 Post-hoc rationalization）？还是模型真的在生成 CoT 的过程中，通过逐步推理“实时”计算出了答案？
现有局限：之前的研究多关注 CoT 文本与答案的一致性，或者通过干预 CoT 文本来观察答案变化，但缺乏对模型内部隐藏状态（Hidden States） 在推理过程中何时、何地编码了答案信息的直接证据。

2. 方法论 (Methodology)

为了探究 LLM 内部的信息流和计算时机，作者设计了一套结合线性探针（Linear Probing） 和 因果干预（Causal Intervention） 的系统性分析框架，并在受控的合成算术任务上进行实验。

2.1 实验设置：合成算术任务

数据集：构建了一个多跳算术推理的合成数据集。任务形式为一系列变量赋值和运算（如 A=1+B, B=2+3; A=?），最终求解变量值。
复杂度分级：定义了 5 个难度等级，通过改变所需步骤数（#Step）、待解决变量数（#Stack，即需要暂存的中间变量）以及干扰项数量（#Dist.）来控制难度。
CoT 设置：模型被要求先生成中间推理步骤（CoT），再输出最终答案。

2.2 核心方法一：线性探针 (Linear Probing)

目的：检测模型在生成序列的哪个时间点（Token 位置 $t$ ）和哪一层（Layer $l$ ），其内部隐藏状态中已经包含了正确答案（或中间子答案）的线性可分表示。
过程：
1. 在模型的每个 Token 位置和每一层提取隐藏状态 $h_{t,l}$ 。
2. 训练一个简单的线性分类器（探针），试图从 $h_{t,l}$ 中预测变量 $v_i$ 的值。
3. 记录探针准确率达到阈值（ $\tau=0.9$ ）的最早位置 $t^*$ 。
关键指标：
- $t^*_{eq}$ ：答案首次可被探针识别的方程位置。
- $Acc_{\prec CoT}$ ：CoT 开始前的最高探针准确率。
- $Acc_{\succ CoT}$ ：CoT 开始后的最高探针准确率。

2.3 核心方法二：因果干预 (Causal Intervention / Activation Patching)

目的：验证 CoT 部分的内部表示是否因果地决定了最终答案。
过程：
1. Clean Run：让模型解决一个问题 $x$ ，得到答案 $y$ 和推理链 $z$ ，并缓存其隐藏状态。
2. Intervention：让模型解决另一个问题 $\tilde{x}$ （答案 $\tilde{y}$ 不同），但在生成过程中，将 $\tilde{x}$ 的某些中间隐藏状态替换为 $x$ 的对应隐藏状态（即“补丁”）。
3. 观测：如果替换了 $x$ 的 CoT 部分状态后，模型输出从 $\tilde{y}$ 变回了 $y$ ，则证明该部分的内部表示对答案具有因果决定性。
对比：分别测试干预“输入部分（Input）”和"CoT 部分（Output）”对最终答案的影响。

3. 主要发现与结果 (Key Results)

3.1 探针实验结果：答案是在 CoT 中计算的

时间定位：在绝大多数情况下（跨越不同模型和难度等级），探针在 CoT 开始之前（Input 部分） 无法准确提取出最终答案或必要的中间子答案（ $Acc_{\prec CoT}$ 通常较低，约 20%-50%）。
CoT 中的涌现：探针准确率在模型开始生成 CoT 后显著上升，并在生成到对应中间步骤时达到峰值（ $Acc_{\succ CoT} \approx 100\%$ ）。
结论：模型并非在读取题目时就已确定答案。相反，模型是在生成推理链的过程中，实时（On-the-fly） 逐步计算出中间结果和最终答案。

3.2 因果干预结果：CoT 对答案具有因果决定性

输入 vs. CoT：
- 干预 Input 部分 的隐藏状态：对最终答案的影响非常有限，成功率极低。
- 干预 CoT 部分 的隐藏状态：能够显著改变最终答案。特别是干预 CoT 中最近的推理步骤（Recency Bias），对后续步骤和最终答案的影响最大。
因果图：揭示了 LLM 的多跳推理遵循“近因偏差”（Recency Bias），即当前步骤主要依赖于前一步骤生成的中间结果，而不是直接回溯到原始输入。
结论：CoT 不仅仅是解释，它是计算过程本身。生成的推理链忠实地反映了模型内部的计算路径。

3.3 其他发现

模型通用性：该现象在多种模型（Qwen2.5, Llama3, Yi, Mistral 等）和不同参数量级上均成立。
干扰项处理：对于不需要用于最终答案的干扰变量（Distractors），探针很难提取其值，表明模型内部机制能区分必要计算和无关信息。
错误分析：当模型生成错误答案时，探针往往能在较早的解码步骤中检测到正确的中间值，说明错误可能源于生成过程中的传播或解码策略，而非初始状态错误。

4. 主要贡献 (Key Contributions)

直接证据：首次通过系统性的探针和因果干预实验，提供了强有力的证据表明 LLM 在 CoT 任务中是迭代计算而非事后合理化。
机制解析：揭示了 LLM 内部推理的时间动态，证明了答案是在生成 CoT 的过程中“涌现”的，且 CoT 文本是内部计算的忠实反映。
方法论创新：结合线性探针（检测内部状态）和激活补丁（验证因果关系），为解释 LLM 的推理过程提供了更精细的工具。
反驳“事后合理化”假说：在受控的算术推理任务中，推翻了“模型先有答案再编造理由”的假设，增强了用户对 CoT 推理过程可信度的信心（至少在需要逐步推理的任务中）。

5. 意义与局限性 (Significance & Limitations)

意义

可解释性：加深了对 LLM 如何执行多步推理的理解，确认了 CoT 作为“工作记忆”和“计算载体”的作用。
可靠性：表明在需要逻辑推理的场景下，CoT 生成的解释是可信的，不仅仅是为了取悦用户的装饰性文本。
调试与优化：通过追踪内部状态，为诊断模型推理错误（如中间步骤正确但最终输出错误）提供了新的视角。

局限性

任务范围：实验主要基于合成算术任务。虽然结果具有启发性，但是否完全适用于开放域的自然语言推理（如常识推理、复杂逻辑推理）仍需进一步验证。
探针有效性：线性探针假设信息是线性可分的，虽然广泛使用，但可能无法捕捉所有复杂的非线性表示。
干预纯度：激活补丁（Activation Patching）可能会引入混合信息噪声，尽管这是该领域的标准做法。

总结

这篇论文通过严谨的实验设计，有力地证明了在解决多步算术推理问题时，大型语言模型并非预先确定答案，而是在生成思维链（CoT）的过程中实时、迭代地计算出答案。生成的推理链忠实地反映了模型内部的计算过程，而非事后的合理化解释。这一发现对于提升 LLM 的可解释性和推理可靠性具有重要意义。