Key-Value Means

本文介绍了键值均值(KVM),这是一种新颖的块循环注意力机制,它通过支持高效且可分块并行训练、具备灵活的状态扩展能力以及次二次方预填充时间,同时仅采用标准运算和极少的额外参数,从而融合了 Transformer 与线性循环神经网络的各自优势。

原作者: Daniel Goldstein, Eugene Cheah

发布于 2026-05-12✓ Author reviewed
📖 1 分钟阅读☕ 轻松阅读

原作者: Daniel Goldstein, Eugene Cheah

原始论文采用 CC BY 4.0 许可(http://creativecommons.org/licenses/by/4.0/)。 这是对下方论文的AI生成解释。它不是由作者撰写的。如需技术准确性,请参阅原始论文。 阅读完整免责声明

想象一下,你正在尝试阅读一本非常长的书,但你的大脑只有有限的“工作记忆”来在阅读时把故事保持在脑海中。

当前 AI 的问题
当前的 AI 模型(Transformer)就像一个试图记住书中读过的每一个字的学生。

  • 优点:它们极其准确,因为它们面前有整个故事。
  • 缺点:随着书变长,它们的“工作记忆”会变得巨大无比。阅读一本 100 页的书只需极少的精力,但阅读一本 1000 页的书则需要耗费大量的时间和能量。这就像试图背着一个每走一步就变得更重的背包。

循环(RNN 风格)模型的问题
RNN 风格的模型采取了一种不同的方法:它们只保留一个小的、固定大小的摘要,并在阅读过程中不断更新它。

  • 优点:它们超级快且轻便。无论书有多长,它们的背包永远不会变重。
  • 缺点:它们会忘记故事的开头。如果你问它们关于第 10 页的情节要点,它们可能记不住,因为它们只保留着最后几页的内容。

新解决方案:键值均值(KVM)
本文的作者介绍了一种名为**键值均值(Key-Value Means, KVM)**的新方法。将 KVM 想象成一个结合了两者优点的聪明、神奇的笔记本。

以下是它如何通过一个简单的类比来运作:

1. “滑动窗口”(即时上下文)

想象你在读书,你有一个放大镜,只能让你清晰地看到最后几页。这就是“滑动窗口”。KVM 像标准 AI 一样,对最近的词语给予完美的关注。这确保了它不会错过即时的上下文。

2. “压缩摘要”(长期记忆)

当你翻过这几页,旧页面会从你的放大镜中滑出。KVM 不会像 RNN 风格模型那样把它们扔掉,也不会像当前 AI 那样试图携带整本书,而是做了一件巧妙的事:

  • 它查看刚刚滑出的那些页面。
  • 它问道:“这些页面中哪些是最重要或最独特的?”
  • 它将这些重要页面的简短、压缩的摘要写进一个特殊的笔记本中。
  • 如果新页面与笔记本中已有的内容非常相似,它就更新现有的笔记;如果它是全新且令人惊讶的内容,它就在笔记本中添加新的一行。

3. “智能合并”(魔法技巧)

本文描述了一种特定的信息合并方式,称为“赢家通吃”规则。

  • 想象你有一桶水(新信息)和一块海绵(笔记本)。
  • KVM 不是直接把水倒进去,而是找到海绵中与这桶水最匹配的确切位置,并在那里吸收它。
  • 它还使用了一种“即时”归一化。想象一下,当你往笔记本里写东西时,你只是简单地记录原始总和计数,而不去计算平均值。只有当你真正需要读取笔记本里的信息时,你才在最后那一刻进行除法运算(将总和除以计数)来得出正确的平均值。这种“按需”进行的归一化方式,避免了每次写入新条目时都要反复重新计算,从而提高了效率。

为什么这很重要

  • 灵活的大小:你可以告诉 KVM 保持一个微小的笔记本(固定大小)以追求速度,或者让笔记本随着书的变长而增长(可扩展大小)。
  • 速度与记忆:它允许你选择一个中间地带。你不必在“超级快但健忘”和“超级聪明但缓慢”之间做选择。你可以将其调整为足够快以用于实时场景,同时足够聪明以记住整个故事。
  • 无需定制硬件:与某些需要特殊、昂贵计算机芯片才能运行的新方法不同,KVM 可以使用标准计算机和常规软件操作来运行。

结果

作者在语言模型(阅读和书写文本的 AI)上测试了这种方法。

  • 短上下文:KVM 的表现与最好的标准 AI 模型一样好。
  • 长上下文:当输入扩展到数千个 token 时,带有增长型笔记本的 KVM 比“健忘”的 RNN 风格模型记住了更多的细节,并且比“携带整本书”的全注意力 Transformer 快得多。
  • “大海捞针”:在 AI 必须从海量文本中找到特定句子的测试中,允许其笔记本增长的 KVM 版本表现非常出色,证明它能够真正回忆起过去深处的信息。

简而言之,KVM 是一种让 AI 阅读长书而不感到疲惫、不忘记开头、且不需要背负无限变重的背包的新方法。 它通过保持对当下的清晰视野,同时维护对过去的智能、压缩的摘要来实现这一点。

您所在领域的论文太多了?

获取与您研究关键词匹配的最新论文每日摘要——附技术摘要,使用您的语言。

试用 Digest →