Human-like Working Memory Interference in Large Language Models

Hua-Dong Xiong (School of Psychological and Brain Sciences, Georgia Tech), Li Ji-An (Department of Psychology, New York University), Jiaqi Huang (Department of Cognitive Science, Indiana University Bloomington, Honda Research Institute), Robert C. Wilson (School of Psychological and Brain Sciences, Georgia Tech, Center of Excellence for Computational Cognition, Georgia Tech), Kwonjoon Lee (Honda Research Institute), Xue-Xin Wei (Departments of Neuroscience and Psychology, The University of Texas at Austin)

发布于 2026-04-14

📖 1 分钟阅读☕ 轻松阅读

查看于 arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题：为什么像人类一样聪明的大语言模型（LLM），在“记东西”这件事上，也会像我们一样容易“脑子转不过弯”或者“记混了”？

简单来说，研究人员发现，大模型并不是因为“记不住”（存储空间不够）才犯错，而是因为记太多的东西时，它们脑子里的信息会互相打架（干扰）。

下面我用几个生活中的比喻来为你拆解这项研究：

1. 核心谜题：为什么“图书馆”也会记不住？

想象一下，大语言模型就像一个拥有1000 亿本书的超级图书馆。

人类的大脑：只有有限的书架，所以一次只能记住几件事（比如 7 个左右的数字）。
大模型：理论上，它拥有整个图书馆的访问权限。只要它想，它随时可以回头去翻之前的任何一页书（上下文）。

那么问题来了： 既然大模型能随时翻书，为什么当它被要求“记住刚才说的第 N 个字母”时，它还是会像人类一样，随着 N 变大（记忆负担加重），表现越来越差，甚至开始胡编乱造？

2. 实验：大模型的“记忆力测试”

研究人员给大模型玩了一个叫 N-back 的游戏。

规则：你给模型一串字母（比如 A, B, C, D...），让它回答"2 个字母之前是什么”。
- 输入：A, B, C, D...
- 正确回答：-, -, A, B...（因为 D 前面两个是 B，C 前面两个是 A）。
发现：
- 如果只让模型专门练这个任务（像训练一个专门的机器人），它能完美做到。
- 但是，现有的大模型（比如 Gemma, Qwen, Llama 等）在玩这个游戏时，随着要记住的步数增加（从 1 步到 4 步），它们的准确率会像人类一样断崖式下跌。

3. 真相大白：不是“记不住”，是“记混了”

研究人员深入分析了模型的大脑（内部机制），发现了一个惊人的真相：

比喻：嘈杂的派对
想象模型的大脑是一个嘈杂的派对。

人类/模型的任务：在派对上找到刚才和你说话的那个人（目标信息）。
干扰（Interference）：派对上还有很多人（其他记忆项）也在大声说话。
- 旧观点：模型记不住，是因为它没听到那个人的声音（信息丢失）。
- 新发现：模型其实听到了那个人的声音，但是周围的声音（最近的其他字母）太吵了，把目标声音盖住了！

具体表现：

最近效应（Recency）：模型更容易记错成刚刚说过的东西，而不是 N 步之前的东西。就像你在嘈杂的派对上，更容易听清刚才谁跟你说话，而不是 5 分钟前谁跟你说话。
内容干扰：如果刚才出现的字母长得像（比如都是元音），或者出现的频率有规律，模型更容易被带偏。这说明它不是在看“位置标签”（比如“这是第 3 个”），而是在看“内容”，结果内容互相打架了。

4. 模型是怎么“努力”的？（内部机制）

研究人员像做手术一样，一层层地观察模型处理信息的過程，发现模型其实有一套**“抗干扰”的战术**，就像人类在努力集中注意力：

层层过滤：模型在处理的早期，脑子里全是刚才所有的字母（很乱）。
中间层“降噪”：到了中间层，模型开始主动压制那些不相关的字母信息（把杂音关小）。
最后层“聚焦”：到了最后一层，模型才把目标信息（你要的那个字母）清晰地提取出来，准备输出。

关键点：虽然模型在努力“降噪”，但在高难度任务（N 很大）时，杂音（干扰）还是太大了，导致它偶尔还是会听错。

5. 一个神奇的“手术”实验

为了证明真的是“杂音”在捣乱，研究人员做了一个大胆的实验：

操作：在模型生成答案之前，强行把那些“字母本身是什么”的信息（比如它是 A 还是 B）从它的脑子里抹去，只保留“位置”信息。
结果：奇迹发生了！模型的成绩变好了！
结论：这证明了，模型犯错确实是因为它太在意“刚才那个字母长什么样”，导致这些信息互相干扰。如果我们帮它把干扰去掉，它就能更准确地找到目标。

6. 这对我们意味着什么？

智能的共性：人类和 AI 虽然构造完全不同（一个是生物神经元，一个是数学公式），但在面对“多任务干扰”时，都遇到了同样的瓶颈。这说明**“在干扰中筛选关键信息”**是智能的一个核心挑战，而不仅仅是“存得下多少”。
未来的方向：想要让 AI 变得更聪明，不能只靠把它的“记忆库”（上下文窗口）做得更大。更重要的是教它如何在一片嘈杂中，精准地屏蔽干扰，只关注重点。就像教一个学生在喧闹的教室里，如何只听到老师讲课的声音。

总结

这篇论文告诉我们：大模型并不是因为“记性不好”才犯错，而是因为它们的大脑里信息太多，互相打架，导致它们有时候“听不清”重点。 这种“人类式的干扰”，恰恰证明了大模型在某种程度上，正在模拟人类智能的运作方式，也面临着和我们一样的认知挑战。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文《Human-like Working Memory Interference in Large Language Models》（大语言模型中类人的工作记忆干扰）的详细技术总结。

1. 研究背景与问题 (Problem)

核心矛盾：工作记忆（Working Memory, WM）是人类智能和推理的核心，但人类的工作记忆容量有限（通常约为 4-7 个物品）。令人困惑的是，尽管大型语言模型（LLMs）拥有数百亿参数（相当于生物系统的神经元规模），且通过自注意力机制（Self-Attention）可以完整访问之前的所有上下文，它们在实际表现中却显示出类似人类的工作记忆容量限制。
核心问题：为什么 LLMs 在拥有完整上下文访问权限的情况下，仍然无法完美执行工作记忆任务？这种限制是源于架构本身的存储瓶颈，还是源于表征干扰（Representational Interference）？
假设：作者提出，LLMs 的工作记忆限制并非因为无法“读取”过去的信息，而是因为多个记忆项在残差流（Residual Stream）中以纠缠（Entangled）的方式编码，导致在检索目标信息时，无关的干扰项（如最近出现的非目标项）会产生竞争。

2. 方法论 (Methodology)

为了验证上述假设，研究团队设计了一套系统的实验框架：

任务设计 (N-back Task)：
- 将经典的 N-back 任务改编为多轮对话形式。
- 输入：用户每轮输入一个字母。
- 目标：模型需输出 $N$ 轮之前输入的字母（例如 2-back：输入 A, B, C，输出应为 -, -, A, B...）。
- 变量：测试了 $N \in \{1, 2, 3, 4\}$ 的不同负载。
- 干扰操纵：引入了“诱饵（Lure）”刺激（ $N \pm 1$ 位置的字母）、减少刺激集大小（从 26 个字母减至 10 个）、以及引入马尔可夫链式的过渡统计结构，以测试内容相似性对检索的影响。
模型评估：
- 模型集合：评估了 10 个不同规模和家族的指令微调模型（Gemma 3, Qwen 3.5, Llama-3.1, Ministral 3），参数量从 1B 到 27B。
- 评估模式：
  1. 自回归（Autoregressive）：模型基于自身之前的输出进行预测（模拟真实推理）。
  2. 教师强制（Teacher-forced）：使用真实的历史答案作为上下文，排除错误传播的影响，专注于检索机制。
- 基线对照：训练了一个简单的双层 Transformer 模型，证明在理想情况下，该架构足以完美解决 N-back 任务，排除了架构本身的根本性缺陷。
机制分析：
- 表征分析：提取 Transformer 各层的隐藏状态，分析刺激表征（Stimulus Representation）、相对位置表征（Relative-position Representation）和字母身份表征（Letter-identity Representation）。
- 干预实验：通过奇异值分解（SVD）识别字母身份的子空间，并在残差流中**因果性地移除（Suppress）**字母身份信息，观察性能变化。

3. 关键贡献 (Key Contributions)

揭示了类人的干扰特征：首次系统性地证明 LLMs 在 N-back 任务中的错误模式与人类高度相似，表现为随记忆负载增加而性能下降，且错误偏向于近因效应（Recency Effect）和内容干扰。
提出了“表征干扰”理论：论证了 LLMs 的工作记忆瓶颈不在于“无法访问”上下文，而在于干扰控制（Interference Control）。模型并非简单地通过位置指针复制 Token，而是需要在纠缠的表征中主动抑制无关信息。
发现了通用的计算轨迹：揭示了不同模型在解决该任务时遵循共同的神经动力学轨迹：
- 早期层：任务无关信息（如字母身份）被逐步抑制。
- 中层：不同记忆项的表征在子空间中分离（去重叠）。
- 晚期层：目标表征与输出权重对齐，准备读取。
建立了工作记忆与通用能力的关联：发现 LLM 的工作记忆容量（N-back 准确率）与其在 MMLU Pro、GPQA 等通用基准测试上的表现呈显著正相关，暗示干扰控制能力是模型通用智能的关键维度。
因果验证：通过干预实验证明，主动抑制残留的字母身份信息可以因果性地提升 N-back 任务的表现，直接证实了表征干扰是性能下降的根源。

4. 主要结果 (Key Results)

性能限制：所有预训练 LLM 在 $N \ge 3$ 时性能显著下降，甚至低于人类水平（尽管 Qwen 3.5 27B 表现优异，但仍随 $N$ 增加而下降）。简单的双层 Transformer 可以达到 100% 准确率，证明预训练模型未能利用其架构潜力。
干扰模式：
- 近因干扰：模型更倾向于错误地回忆最近出现的非目标字母，而非随机猜测。
- 内容干扰：当诱饵字母与目标字母相似，或刺激集变小（重复率高）时，性能显著下降。
- 统计偏差：在自回归模式下，模型容易利用序列统计规律（如过渡概率）作为捷径，但在教师强制模式下，这种统计依赖反而成为干扰源，导致性能下降。
表征动力学：
- 字母身份抑制：随着层数加深，当前刺激的具体字母身份（Letter Identity）信息被逐渐剥离（Cosine 相似度下降）。
- 子空间分离：不同相对位置（ $p=0$ 到 $N$ ）的表征在中层变得分离（Subspace Similarity 降低），但在输出层前又部分重新汇聚。
- 目标对齐：目标表征（Target）仅在最后几层才与输出读取方向（Readout Weights）高度对齐。
干预效果：移除字母身份信息的干预使 N-back 准确率 modestly（适度）提升，特别是在较弱的模型中，证实了残留的身份信息是干扰源。
相关性：N-back 准确率与 MMLU Pro ( $r \approx 0.78$ )、GPQA Diamond ( $r \approx 0.88$ ) 等基准高度相关，且这种相关性独立于参数量。

5. 意义与启示 (Significance)

理论意义：
- 打破了"LLM 拥有无限上下文即无限记忆”的迷思，指出**选择性检索（Selective Retrieval）**在共享分布式表征中的困难才是瓶颈。
- 建立了生物智能（人脑）与人工智能（LLM）在认知限制上的深层联系：两者都面临在纠缠表征中抑制竞争项的共同计算挑战。
实践启示：
- 提升方向：单纯扩大上下文窗口（Context Window）可能无法解决工作记忆问题。未来的改进应聚焦于增强干扰控制机制，例如通过训练或架构设计，使模型能更有效地分离任务相关和无关的表征。
- 评估指标：N-back 任务可作为评估 LLM 通用推理能力和干扰控制能力的有效代理指标（Assay）。
- 干预策略：在推理过程中，通过技术手段（如提示工程或内部表征干预）抑制无关的统计特征或身份噪声，可能提升模型在复杂推理任务中的表现。

总结：该论文通过行为学、表征分析和因果干预，有力地证明了 LLM 的工作记忆限制源于表征干扰而非存储容量不足。这一发现将 LLM 的认知限制与人类认知理论联系起来，并为提升大模型的推理能力提供了新的理论视角和优化方向。

Human-like Working Memory Interference in Large Language Models

1. 核心谜题：为什么“图书馆”也会记不住？

2. 实验：大模型的“记忆力测试”

3. 真相大白：不是“记不住”，是“记混了”

4. 模型是怎么“努力”的？（内部机制）

5. 一个神奇的“手术”实验

6. 这对我们意味着什么？

总结

1. 研究背景与问题 (Problem)

2. 方法论 (Methodology)

3. 关键贡献 (Key Contributions)

4. 主要结果 (Key Results)

5. 意义与启示 (Significance)

类似论文

The Diffusion-Attention Connection

Fairboard: a quantitative framework for equity assessment of healthcare models

Deliberative Alignment is Deep, but Uncertainty Remains: Inference time safety improvement in reasoning via attribution of unsafe behavior to base model

Belief-State RWKV for Reinforcement Learning under Partial Observability

Active Inference with a Self-Prior in the Mirror-Mark Task