Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

该论文从理论和实验两方面证明,在自注意力机制中移除查询(Query)权重矩阵(用单位矩阵替代)不仅可减少 25% 的参数并简化优化过程,还能在保持性能的同时提供隐式正则化效果,从而挑战了传统查询、键、值权重三元组的必要性。

Marko Karbevski, Antonij Mijoski

发布于 2026-03-05
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文的核心发现可以用一个非常直观的比喻来概括:在 Transformer(大语言模型的核心架构)中,我们一直以为必须同时拥有“查询(Query)”、“键(Key)”和“值(Value)”三套独立的权重矩阵,但实际上,我们可以扔掉其中一套(Query),只保留另外两套,模型依然能跑得很好,甚至还能跑得更快、更稳。

这就好比你在厨房里做饭,原本以为必须同时准备“切菜刀”、“砧板”和“调料勺”三样工具才能完成一道菜。但这篇论文证明,只要你的“砧板”和“调料勺”配合得当,你其实可以直接把“切菜刀”换成“手”(或者更准确地说,直接用手拿菜),不仅省了一把刀,做出来的菜味道还一样好。

下面我用更生活化的语言,分几个部分来拆解这篇论文:

1. 核心发现:扔掉“查询”这把钥匙

在 Transformer 模型中,处理信息时有一个叫“自注意力(Self-Attention)”的机制。它通过三个步骤来工作:

  • Query (Q):像是一个“问题”或“搜索词”,用来问:“我想找什么?”
  • Key (K):像是“标签”或“索引”,用来回答:“我是什么?”
  • Value (V):像是“内容”或“答案”,用来提供:“我具体有什么信息?”

通常,模型会训练三套独立的参数(权重矩阵 WQ,WK,WVW_Q, W_K, W_V)来分别生成 Q、K、V。
这篇论文的结论是: 其实 WQW_Q 是多余的!我们可以强制把 WQW_Q 设为“单位矩阵”(也就是不做任何变换,直接原样输出),然后把原本属于 WQW_Q 的功能“转移”给 WKW_KWVW_V

比喻:
想象你在图书馆找书。

  • 传统做法:你手里拿着一张写满问题的纸条(Query),去问图书管理员(Key),管理员再给你书(Value)。这三步都需要专门的训练。
  • 论文做法:你直接把纸条扔掉,直接拿着书去问管理员。因为管理员(Key)和书(Value)已经足够聪明,它们能自动适应你直接拿书过来的情况。结果是你少带了一张纸条(省了 25% 的注意力参数),但依然能找到书。

2. 为什么以前没人这么做?(理论障碍)

你可能会问:“既然这么简单,为什么之前的模型不这么做?”
这就涉及到数学上的“基变换”问题。

  • 以前的顾虑:如果你把 WQW_Q 拿掉,每一层网络处理信息的“坐标系”可能会乱套。就像你每走一步路,脚下的地图就旋转了一下,走多了就不知道东南西北了。
  • 论文的突破:作者发现,只要模型里有“跳跃连接”(Skip Connections,即把输入直接加到输出上,像走楼梯时扶一下扶手),这种“坐标系旋转”的问题就可以被完美解决。跳跃连接就像是一个“翻译器”,它能把不同层之间的混乱坐标系重新对齐。

3. 实验结果:不仅没变差,反而更好

作者真的动手做了实验,训练了一个类似 GPT 的小模型,把 WQW_Q 强制设为“不做任何事”(单位矩阵)。

  • 省资源:每个注意力层减少了 25% 的参数。整个模型减少了约 8% 的总参数量。
  • 性能持平:在参数量减少的情况下,模型的表现(验证集损失)和原本完整的模型几乎一样好。
  • 性能反超:如果把省下来的那些参数,加到模型的其他部分(比如让“大脑”更聪明一点,增加 MLP 层的宽度),新模型竟然比原本更大的模型还要强!
  • 训练更稳:原本需要很强的“正则化”(防止过拟合的约束,比如重量衰减),现在只需要用原来 1/3 的强度就能训练得很稳。这说明模型内部自带了一种“隐式正则化”,更不容易学坏。

4. 一个有趣的副作用:数学上的“边界”

论文还发现了一个关于“跳跃连接”的有趣数学现象。
在数学上,如果模型没有跳跃连接,它和加了跳跃连接的模型,本质上属于两个完全不同的“函数家族”,就像猫和狗虽然都是动物,但没法互相变身。
但一旦有了跳跃连接,模型就能在保持灵活性的同时,把原本需要复杂变换的功能“吸收”进简单的结构里。这解释了为什么跳跃连接对深度学习如此重要——它不仅仅是为了传梯度,更是为了扩展模型能表达的功能范围

5. 这对我们意味着什么?

  • 省钱省算力:大模型训练和运行非常烧钱。如果能去掉 25% 的注意力参数,意味着训练速度更快,推理成本更低,显存占用更少。
  • 设计更精简:这提示我们,现在的模型架构可能有些“过度设计”了。很多组件可能是历史遗留的产物,而不是数学上的必须。
  • 未来的方向:既然 WQW_Q 可以扔掉,那 WKW_KWVW_V 能不能也优化?或者能不能用更简单的非线性函数来替代?这为未来的模型设计打开了新的大门。

总结

这篇论文就像是一个**“极简主义装修师”**,他走进了一间装修豪华但有些冗余的房子(Transformer 模型),发现:“嘿,这面墙(Query 权重)其实根本不需要,拆了之后,把隔壁房间(Key/Value)稍微调整一下,房子不仅没塌,住起来反而更宽敞、更舒服了。”

这对于追求高效、低成本 AI 的领域来说,是一个令人兴奋的重大发现。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →