On the Existence and Behavior of Secondary Attention Sinks

该论文通过跨 11 个模型家族的广泛实验,首次识别并系统分析了区别于传统“主注意力汇”的“次级注意力汇”,揭示了其由中层 MLP 模块生成、具有可变持续层数及显著影响注意力机制的特性,并发现随着模型规模扩大,这些次级汇的出现呈现出更确定且频繁的层级化规律。

Jeffrey T. H. Wong, Cheng Zhang, Louis Mahon, Wayne Luk, Anton Isopoussu, Yiren Zhao

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文发现了一个关于大型语言模型(LLM)如何“思考”的有趣新现象。为了让你更容易理解,我们可以把大模型想象成一个巨大的、多层的交响乐团,而每一个单词(Token)就是乐团里的一位乐手

1. 旧故事:那个总是被关注的“指挥家”(Primary Sink)

以前的研究发现,在乐团演奏开始时,有一个特殊的乐手(通常是第一个词,比如“开始”或 BOS 标记),无论后面演奏什么,其他乐手总是过度关注他。

  • 比喻:就像聚光灯永远打在指挥家身上,哪怕指挥家只是挥了挥手,其他乐手也盯着他看。
  • 原因:这被称为“注意力汇聚(Attention Sink)”。它从第一层开始,一直贯穿到最后一层,像个老大哥一样稳定存在。

2. 新发现:中途出现的“临时替补”(Secondary Sinks)

这篇论文发现,除了那个老大哥指挥家,乐团里还会在中途突然冒出一些新的“临时焦点”

  • 比喻:想象乐团演奏到一半(比如第 22 层),突然有几个不起眼的乐手(比如一些标点符号、空格或数字)被“选中”了。他们突然变得非常重要,其他乐手开始疯狂关注他们,哪怕他们说的话没什么实际意义。
  • 特点
    • 出身不同:他们不像指挥家那样从第一层就存在,而是在中途突然冒出来的。
    • 寿命不同:他们不会一直当焦点,可能只当几层(几小节)的焦点,然后就“下班”了。
    • 位置随机:他们可以是句子中间的任何一个词,甚至是一些没意义的符号(比如空格、换行符)。

3. 他们是怎么“上位”的?(形成机制)

论文通过“解剖”模型发现,这些临时焦点是被模型里的**中层部门(MLP 模块)**强行提拔的。

  • 比喻:想象乐团里有一个**“选角导演”**(位于中间层的 MLP 模块)。
    • 在这个导演眼里,原本普通的乐手(比如一个逗号),经过他的“化妆”和“改造”后,突然变得和那个老指挥家(BOS 令牌)长得一模一样(向量方向一致)。
    • 一旦经过这个导演的手,这些普通乐手就被赋予了“超级关注权”,其他乐手必须盯着他们看。
    • 导演的手劲越大(输出向量的范数越大),这个临时焦点当得越久,受到的关注也越多。

4. 为什么要搞这么多“临时焦点”?(补偿机制)

你可能会问:既然有个老指挥家,为什么还要中途换人?

  • 比喻:老指挥家(BOS)虽然一开始很耀眼,但精力有限。随着乐曲进行(层数加深),他的光芒会逐渐变暗,到了乐曲中段,他有点“力不从心”了。
  • 作用:这时候,那些“临时焦点”就出现了!他们像是接力棒,在老指挥家光芒减弱的时候站出来,填补注意力的空缺,确保乐团(模型)的注意力机制不会崩溃或混乱。
  • 结论:这是一种补偿机制。老大哥累了,小弟们就轮流上来顶班,保证演出继续。

5. 模型越大,规矩越严(规模效应)

论文还发现,模型越大(比如 32B 或 14B 的大模型),这种“临时焦点”的出现就越有规律。

  • 比喻:在小乐团里,谁当临时焦点可能比较随机;但在超级大乐团里,什么时候换人、换谁、当多久,都变得像排好的剧本一样精准和频繁。
  • 特别是那些经过数学推理训练的模型,这种“中途换人”的现象特别明显,说明这可能和模型处理复杂逻辑的能力有关。

总结

简单来说,这篇论文告诉我们:
大模型里的“注意力”不仅仅盯着开头那个词。在模型思考的中途,它会动态地把注意力转移到一些看似无意义的词上。这就像是一个接力赛:老大哥(BOS)跑累了,中间就会有一些临时选手(Secondary Sinks)冲出来接力,确保模型能稳稳地跑完全程。

这对我们有什么意义?
理解这个机制,可以帮助工程师们更好地优化模型(比如压缩模型、加速推理),甚至让模型在处理长文本或复杂逻辑时更聪明、更稳定。