Human-like Working Memory Interference in Large Language Models

该研究发现,尽管大型语言模型拥有完整的上下文访问能力,但其工作记忆限制源于与人类相似的表征干扰机制,即模型通过纠缠表示编码多个记忆项并需主动抑制无关信息才能成功提取目标,这种干扰控制能力与模型的通用智能水平密切相关。

Hua-Dong Xiong (School of Psychological and Brain Sciences, Georgia Tech), Li Ji-An (Department of Psychology, New York University), Jiaqi Huang (Department of Cognitive Science, Indiana University Bloomington, Honda Research Institute), Robert C. Wilson (School of Psychological and Brain Sciences, Georgia Tech, Center of Excellence for Computational Cognition, Georgia Tech), Kwonjoon Lee (Honda Research Institute), Xue-Xin Wei (Departments of Neuroscience and Psychology, The University of Texas at Austin)

发布于 2026-04-14
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文探讨了一个非常有趣的问题:为什么像人类一样聪明的大语言模型(LLM),在“记东西”这件事上,也会像我们一样容易“脑子转不过弯”或者“记混了”?

简单来说,研究人员发现,大模型并不是因为“记不住”(存储空间不够)才犯错,而是因为记太多的东西时,它们脑子里的信息会互相打架(干扰)

下面我用几个生活中的比喻来为你拆解这项研究:

1. 核心谜题:为什么“图书馆”也会记不住?

想象一下,大语言模型就像一个拥有1000 亿本书的超级图书馆。

  • 人类的大脑:只有有限的书架,所以一次只能记住几件事(比如 7 个左右的数字)。
  • 大模型:理论上,它拥有整个图书馆的访问权限。只要它想,它随时可以回头去翻之前的任何一页书(上下文)。

那么问题来了: 既然大模型能随时翻书,为什么当它被要求“记住刚才说的第 N 个字母”时,它还是会像人类一样,随着 N 变大(记忆负担加重),表现越来越差,甚至开始胡编乱造?

2. 实验:大模型的“记忆力测试”

研究人员给大模型玩了一个叫 N-back 的游戏。

  • 规则:你给模型一串字母(比如 A, B, C, D...),让它回答"2 个字母之前是什么”。
    • 输入:A, B, C, D...
    • 正确回答:-, -, A, B...(因为 D 前面两个是 B,C 前面两个是 A)。
  • 发现
    • 如果只让模型专门练这个任务(像训练一个专门的机器人),它能完美做到。
    • 但是,现有的大模型(比如 Gemma, Qwen, Llama 等)在玩这个游戏时,随着要记住的步数增加(从 1 步到 4 步),它们的准确率会像人类一样断崖式下跌。

3. 真相大白:不是“记不住”,是“记混了”

研究人员深入分析了模型的大脑(内部机制),发现了一个惊人的真相:

比喻:嘈杂的派对
想象模型的大脑是一个嘈杂的派对

  • 人类/模型的任务:在派对上找到刚才和你说话的那个人(目标信息)。
  • 干扰(Interference):派对上还有很多人(其他记忆项)也在大声说话。
    • 旧观点:模型记不住,是因为它没听到那个人的声音(信息丢失)。
    • 新发现:模型其实听到了那个人的声音,但是周围的声音(最近的其他字母)太吵了,把目标声音盖住了!

具体表现:

  1. 最近效应(Recency):模型更容易记错成刚刚说过的东西,而不是 N 步之前的东西。就像你在嘈杂的派对上,更容易听清刚才谁跟你说话,而不是 5 分钟前谁跟你说话。
  2. 内容干扰:如果刚才出现的字母长得像(比如都是元音),或者出现的频率有规律,模型更容易被带偏。这说明它不是在看“位置标签”(比如“这是第 3 个”),而是在看“内容”,结果内容互相打架了。

4. 模型是怎么“努力”的?(内部机制)

研究人员像做手术一样,一层层地观察模型处理信息的過程,发现模型其实有一套**“抗干扰”的战术**,就像人类在努力集中注意力:

  1. 层层过滤:模型在处理的早期,脑子里全是刚才所有的字母(很乱)。
  2. 中间层“降噪”:到了中间层,模型开始主动压制那些不相关的字母信息(把杂音关小)。
  3. 最后层“聚焦”:到了最后一层,模型才把目标信息(你要的那个字母)清晰地提取出来,准备输出。

关键点:虽然模型在努力“降噪”,但在高难度任务(N 很大)时,杂音(干扰)还是太大了,导致它偶尔还是会听错。

5. 一个神奇的“手术”实验

为了证明真的是“杂音”在捣乱,研究人员做了一个大胆的实验:

  • 操作:在模型生成答案之前,强行把那些“字母本身是什么”的信息(比如它是 A 还是 B)从它的脑子里抹去,只保留“位置”信息。
  • 结果:奇迹发生了!模型的成绩变好了!
  • 结论:这证明了,模型犯错确实是因为它太在意“刚才那个字母长什么样”,导致这些信息互相干扰。如果我们帮它把干扰去掉,它就能更准确地找到目标。

6. 这对我们意味着什么?

  • 智能的共性:人类和 AI 虽然构造完全不同(一个是生物神经元,一个是数学公式),但在面对“多任务干扰”时,都遇到了同样的瓶颈。这说明**“在干扰中筛选关键信息”**是智能的一个核心挑战,而不仅仅是“存得下多少”。
  • 未来的方向:想要让 AI 变得更聪明,不能只靠把它的“记忆库”(上下文窗口)做得更大。更重要的是教它如何在一片嘈杂中,精准地屏蔽干扰,只关注重点。就像教一个学生在喧闹的教室里,如何只听到老师讲课的声音。

总结

这篇论文告诉我们:大模型并不是因为“记性不好”才犯错,而是因为它们的大脑里信息太多,互相打架,导致它们有时候“听不清”重点。 这种“人类式的干扰”,恰恰证明了大模型在某种程度上,正在模拟人类智能的运作方式,也面临着和我们一样的认知挑战。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →