How Attention Sinks Emerge in Large Language Models: An Interpretability Perspective

该论文从可解释性视角揭示了大语言模型中“注意力汇聚”现象的成因,提出了一种不依赖语义信息的"P0 汇聚电路”机制,解释了模型如何在输入序列首个令牌处形成注意力汇聚,并发现该机制在训练早期出现且随训练进程逐渐集中,可作为预训练收敛状态的潜在指标。

Runyu Peng, Ruixiao Li, Mingshu Chen, Yunhua Zhou, Qipeng Guo, Xipeng Qiu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大语言模型(LLM)做一次“深度体检”,发现了一个非常有趣且普遍存在的“怪癖”:模型总是过度关注输入的第一个词

为了让你轻松理解,我们可以把大语言模型想象成一个正在听故事的超级听众,把输入的一串文字想象成一列正在进站的火车

1. 核心发现:那个“忘不掉”的第一个乘客

在大多数情况下,这个“超级听众”(模型)会非常公平地听每一个乘客(单词)说话。但论文发现,它有一个奇怪的毛病:无论火车上坐了谁,它总是死死盯着第一个上车的人(位置 0 的 Token),甚至有点“走火入魔”。

  • 现象:在模型的注意力机制里,第一个词的权重(关注度)异常高,像是一个巨大的“黑洞”(Sink),把其他乘客的注意力都吸过去了。
  • 以前的误解:大家以前以为,这是因为第一个词通常是特殊的 [BOS](开始标记),就像火车头挂着一个特殊的“车头灯”,大家自然都看它。
  • 论文的新发现:即使我们把那个特殊的“车头灯”([BOS])拆掉,换成普通的乘客,模型依然会死死盯着第一个上车的人。这说明,这不是因为“车头灯”特殊,而是模型自己学会了一种识别“第一个”的机制

2. 秘密武器:P0-Sink 电路(“位置 0 识别器”)

模型是怎么做到这一点的呢?论文发现,模型内部有一个简单的“双层电路”(P0-Sink Circuit),就像是一个自动感应门

  • 工作原理
    想象一下,火车进站时,第一个乘客(位置 0)只能看到自己(因为因果掩码,它看不到后面的人)。而第二个乘客能看到前两个,第三个能看到前三个……
    模型利用这种**“只有第一个人是孤独的”**这种不对称性,设计了一个简单的逻辑:
    1. 识别:通过前两层神经网络的“扫描”,模型发现:“哦,这个位置只看到了自己,没有混合别人的信息,这一定是第一个!”
    2. 放大:一旦确认是第一个,模型就会给这个人的“信号”(隐藏状态的向量)加一个超级大的**“扩音器”**(放大 2\ell_2 范数)。
    3. 固化:这个被放大的信号变得非常稳定,方向固定,就像一根定海神针。后面的所有层(火车的后续车厢)都紧紧抓住这根针,把它当作整个故事的“锚点”。

比喻:这就好比你在听一群人说话,虽然大家都在说,但你的大脑自动把第一个说话的人的声音音量调到了最大,并且给他的话加上了“加粗、高亮、闪烁”的效果,让你觉得“只要记住这个人,整个对话的基调就稳了”。

3. 训练过程:从“迷路”到“定型”

论文还追踪了一个从 0 开始训练的大模型(30B 参数),观察它是如何学会这个技能的。这个过程分三个阶段,就像学骑自行车

  • 阶段一(早期):到处乱撞
    刚开始训练时,模型在深层网络里偶尔会盯着第一个词,但很不稳定。有时候它盯着第 2 个,有时候盯着第 3 个。就像刚学骑车的人,摇摇晃晃,不知道重心在哪。
  • 阶段二(过渡期):临时找支点
    随着训练继续,模型发现盯着“第 2 个词”似乎也能凑合,于是它暂时把注意力移到了第 2 个词上。但这只是个临时的“拐杖”,因为它发现第 2 个词的信息太杂了(混合了第 1 个和第 2 个的信息),不够纯粹。
  • 阶段三(成熟期):回归本源
    最终,模型意识到:只有第 1 个词是纯粹且不变的。于是,它把那个“识别电路”牢牢地固定在了前两层,并重新把注意力死死锁在第 1 个词上。从此,这根“定海神针”就再也没变过。

4. 这意味着什么?

  • 不是 Bug,是 Feature:以前大家觉得“注意力集中”是个坏毛病(Sink),想把它修好。但这篇论文说,盯着第一个词其实是模型的一种“生存智慧”。它提供了一个稳定的参考系,防止在长文本中“迷路”或“晕车”。
  • 训练进度的“晴雨表”:论文提出,我们可以通过观察模型是处于“乱撞期”、“过渡期”还是“定型期”,来判断模型训练得怎么样了。如果模型还没学会把注意力稳定在第 1 个词上,说明它可能还没“毕业”(训练收敛)。
  • 未来的设计:理解了这个机制,未来我们可以设计更聪明的模型,或者在模型“迷路”时,利用这个机制把它拉回来。

总结

这篇论文告诉我们,大语言模型并不是随机乱猜的。它们通过一种精妙的、基于**“位置不对称性”的机制,自动学会把第一个词当作整个对话的“锚”。这就像在茫茫大海中,无论风浪多大,模型手里始终紧紧握着一根“第一根稻草”**,以此来确定方向,保证整个推理过程不崩塌。

一句话总结:模型不是傻乎乎地看第一个词,而是聪明地利用“第一个词”的特殊性,把它变成了自己思考的“定海神针”