Identifying and Evaluating Inactive Heads in Pretrained LLMs

该论文通过评估 12 种评分函数并结合模型干预实验,发现预训练大语言模型中平均超过 12% 的注意力头处于非活跃状态,且仅依赖注意力权重或首词注意力 sink 的指标会低估这一现象,而基于输出范数的指标能更准确地识别这些冗余头,在特定上下文中将其移除后仍能保持模型性能。

Pedro Sandoval-Segura, Xijun Wang, Ashwinee Panda, Micah Goldblum, Ronen Basri, Tom Goldstein, David Jacobs

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给大型语言模型(LLM)做一次彻底的“体检”和“大扫除”。

想象一下,大型语言模型(比如 Llama、Qwen 等)的大脑里住着成千上万个**“小助手”(也就是论文里说的Attention Heads/注意力头**)。这些助手负责阅读输入的文字,并决定哪些词是重要的,哪些词可以忽略。

以前,大家一直以为这些助手都在勤勤恳恳地工作。但这篇论文发现了一个惊人的秘密:其实,模型里有一大批助手是“摸鱼”的,它们根本就没在干活,甚至是在“装死”。

以下是这篇论文的核心发现,用大白话和比喻来解释:

1. 以前的误区:只盯着“谁在看谁”

过去,科学家判断一个助手是否在摸鱼,主要看它的**“眼神”(也就是注意力权重**)。

  • 旧观点:如果一个助手总是死死盯着句子的第一个词(比如“你好”),而忽略了后面的内容,大家就觉得它“死机”了,因为它没在看有用的信息。这被称为“注意力黑洞”(Attention Sink)。
  • 比喻:就像老师检查学生,发现有个学生一直盯着黑板左上角的挂钟,老师就认为这个学生在走神,把他记为“差生”。

2. 新的发现:眼神不对,还得看“产出”

这篇论文的作者说:“等等,光看眼神不够!有些学生虽然盯着挂钟,但他手里可能根本没拿笔(没有输出);还有些学生虽然盯着挂钟,但他其实是在用余光看黑板,手里正在疯狂写笔记(有输出)。”

作者提出了12 种新的检测方法,不再只看“眼神”,而是看**“产出”**(Head Output):

  • 新方法:直接看这个助手最后算出来的结果有没有用。如果它算出来的结果接近于零(就像它虽然坐在教室里,但交上来的作业是白纸),那它才是真正的“摸鱼”。
  • 比喻:不再看学生盯着哪里,而是直接收作业。如果交上来的是白纸,不管他盯着哪里,他就是没干活。

3. 惊人的实验结果:12% 的助手可以“开除”

作者做了一个大胆的实验:他们把那些被判定为“摸鱼”的助手直接**“关禁闭”**(把它们的输出强制设为 0),然后看模型还能不能正常回答问题。

  • 结果:在大多数模型中,平均有超过 12% 的助手被关禁闭后,模型在考试(MMLU 基准测试)中的成绩几乎没有任何下降(误差在 1% 以内)。
  • 对比:如果只用老方法(只看眼神),只能找出不到 5% 的摸鱼助手。这意味着,老方法漏掉了至少 7% 的“隐形摸鱼者”
  • 比喻:以前以为一个工厂里只有 5% 的机器是坏的,换了新检测法后,发现其实有 12% 的机器根本没在转。把那些不转的机器拔掉插头,工厂的产量居然一点没少!

4. 为什么这很重要?

  • 更聪明的模型:既然有这么多助手在摸鱼,未来的模型设计可能不需要那么多“人头”。我们可以设计更精简的模型,或者在运行时动态地关掉这些摸鱼的助手,从而节省大量的计算资源和电力
  • 更通用的标准:作者发现,不同家族、不同大小的模型(从 30 亿参数到 140 亿参数),虽然长得不一样,但“摸鱼”的规律是一样的:只要看“产出”的大小,就能精准找到摸鱼者。 这就像给所有工厂都制定了一套通用的“查岗标准”。

5. 有趣的副作用:微调没改变“摸鱼”习惯

作者还研究了模型经过“特训”(微调,比如让模型更会聊天)后,这些助手会变勤快吗?

  • 发现:并没有。微调后的模型,那些摸鱼的助手依然摸鱼
  • 比喻:就像给一群员工加了奖金(微调),结果发现那些原本就在摸鱼的员工,加了奖金后还是老样子,该发呆的发呆。这说明模型的“摸鱼”习惯是根深蒂固的,很难通过简单的训练改变。

总结

这篇论文告诉我们:大型语言模型其实很“虚胖”,里面藏着很多不干活的部分。

以前我们只盯着它们“看哪里”来判断它们是否在工作,结果漏掉了很多人。现在,作者教我们直接看它们“交了什么作业”(输出结果)。通过这种方法,我们不仅能找出更多偷懒的助手,还能把它们安全地“开除”,让模型变得更轻、更快、更省电,而不会变笨。

这就好比给一个庞大的团队做了一次精准裁员,发现裁掉那部分“隐形人”后,团队效率反而更高了。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →