Disentangling Recall and Reasoning in Transformer Models through Layer-wise Attention and Activation Analysis

该研究通过控制合成数据集与因果干预技术,首次提供了因果证据,证明 Transformer 模型中的事实回忆与多步推理能力分别依赖于不同但相互作用的内部电路机制。

Harshwardhan Fartale, Ashish Kattamuri, Rahul Raja, Arpita Vats, Ishita Prasad, Akshata Kishore Moharir

发布于 2026-03-16
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(AI)做一次非常精细的“脑部核磁共振”,目的是搞清楚:当 AI 回答问题时,它到底是在“死记硬背”(回忆),还是在“动脑筋思考”(推理)?这两件事是不是由大脑里不同的区域负责的?

为了让你更容易理解,我们可以把 AI 想象成一家超级繁忙的“知识工厂”

1. 核心问题:工厂里谁在干活?

这家工厂(AI 模型)很厉害,既能瞬间报出“法国的首都是巴黎”(这是回忆,像查字典),也能解决复杂的逻辑谜题,比如“如果 A 在 B 左边,B 在 C 左边,那 A 在 C 的哪边?”(这是推理,像解数学题)。

以前大家以为,AI 做这两件事可能用的是同一套“流水线”。但这篇论文想问:会不会工厂里其实分成了两个不同的车间?一个专门负责“查档案”,另一个专门负责“搞发明”?

2. 研究方法:给工厂装“监控摄像头”

为了搞清楚这个问题,作者们没有直接问 AI“你是怎么想的”,而是给工厂装上了成千上万个微型摄像头(技术术语叫层、注意力头、神经元分析),观察 AI 处理问题时的每一个微小动作。

他们设计了两类“考题”来测试工厂:

  • 回忆题(查档案): 比如问“法国的首都是哪里?”或者故意把事实改错(比如问“如果法国首都是伦敦..."),看 AI 能不能调取记忆。
  • 推理题(搞发明): 他们用了国际语言学奥林匹克竞赛(IOL) 的谜题。这些谜题是用一种 AI 从未见过的奇怪语言写的(比如查克索语),AI 没法靠背答案,必须像侦探一样,根据给出的线索去推导语法规则,然后翻译新句子。这就像让一个没学过法语的人,通过观察几个句子,猜出法语的动词变位规则。

3. 主要发现:工厂确实有“分区”!

经过对 Qwen、LLaMA 和 Mistral 等主流模型的检查,作者们发现了一个惊人的规律,就像工厂的楼层分布一样:

  • 低楼层(浅层)是“档案室”:
    当 AI 处理简单的回忆任务时,主要靠工厂的前几层。这些区域像是一个个高效的图书管理员,专门负责快速检索存好的事实。

    • 比喻: 就像你问“中国首都是哪?”,大脑直接调取记忆库,不需要太多思考。
  • 高楼层(深层)是“研发部”:
    当 AI 处理复杂的推理任务时,信息会传送到工厂的最后几层。这些区域像是一群聪明的工程师,负责把零散的信息拼凑起来,进行多步逻辑推演。

    • 比喻: 就像你要解一道复杂的逻辑题,需要把前几步的结论作为下一步的输入,层层递进。
  • 特殊的“工人”(神经元):
    作者还发现,工厂里有些“工人”(神经元)是专才。有的工人只干“查档案”的活,一看到推理题就“罢工”(不激活);有的工人只干“搞推理”的活,一看到查档案就“摸鱼”。

4. 实验验证:拔掉插头看效果

为了证明这不仅仅是巧合,作者们玩了一个“破坏性实验”:

  • 切断“档案室”: 他们故意把负责回忆的电路“关掉”(技术叫激活修补/消融)。结果:AI 连“法国首都是巴黎”都答不上来了,准确率暴跌 15%,但解逻辑谜题的能力完全没受影响
  • 切断“研发部”: 他们把负责推理的电路“关掉”。结果:AI 解逻辑题彻底崩了,但查事实的能力依然在线

这就像你拆掉了工厂的图书馆,它就没法查书了,但工程师们依然能造出新机器;反之亦然。这证明了**“回忆”和“推理”确实是两套独立的系统**。

5. 这意味着什么?(为什么这很重要?)

这项研究就像给 AI 画了一张清晰的“内部地图”,它的意义在于:

  1. 不再“黑盒”: 我们终于知道 AI 是怎么思考的了,不再是瞎猜。
  2. 防止“胡编乱造”(幻觉): 如果我们发现 AI 在推理时出错了,我们可以精准地检查是“研发部”的哪个环节出了问题,而不是盲目地重新训练整个模型。
  3. 更安全的 AI: 了解这些机制,有助于我们设计出更可信、更透明的 AI 系统,知道它什么时候在“背书”,什么时候在“思考”。

总结一下:
这篇论文告诉我们,AI 的大脑并不是一个混在一起的“大杂烩”。它像一座分工明确的摩天大楼:低层负责“死记硬背”,高层负责“逻辑推理”。搞清楚这一点,是我们让 AI 变得更聪明、更诚实、更可靠的关键一步。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →