QKV Projections Require a Fraction of Their Memory

该论文提出了一种名为点近似矩阵乘法(PAMM)的新型张量压缩技术,通过将注意力层中 Q、K、V 投影的激活值压缩高达 512 倍,在保持甚至提升模型困惑度的同时,几乎消除了这些线性投影的内存占用,且可与 FlashAttention 等高效注意力机制无缝结合。

Malik Khalaf, Yara Shamshoum, Nitzan Hodos, Yuval Sieradzki, Assaf Schuster

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 PAMM(点近似矩阵乘法)的新技术,旨在解决大型语言模型(LLM)训练过程中“太吃内存”的痛点。

为了让你轻松理解,我们可以把训练一个大模型想象成在一个巨大的图书馆里整理书籍

1. 核心问题:图书馆的“临时书架”爆满了

在训练模型时,计算机(GPU)需要一边“阅读”数据(前向传播),一边“记住”刚才读过的内容,以便回头修正错误(反向传播)。

  • 现状:现在的模型(如 LLaMA)非常庞大。在训练过程中,为了计算注意力机制(Attention,这是模型理解上下文的核心),计算机需要把输入的句子转换成三种向量:Q(查询)、K(键)、V(值)。
  • 痛点:这些转换过程会产生海量的中间数据(激活值)。就像你在整理图书馆时,每读一本书,都要在旁边的桌子上放一张巨大的“笔记卡片”。当书(Token)的数量达到几百万时,这些“笔记卡片”堆满了整个房间,甚至把昂贵的显卡内存(VRAM)撑爆了。
  • 后果:因为内存不够,你只能减少每次处理的书籍数量(Batch Size),或者无法训练更大的模型。

2. 解决方案:PAMM 的“智能摘要”策略

这篇论文的作者发现,这些“笔记卡片”其实非常重复。比如,在一段关于“猫”的文本中,很多单词的向量表示其实长得非常像。

PAMM 的做法就像是一个聪明的图书管理员:

  1. 不再死记硬背:传统的做法是把每一本书的笔记都原封不动地存下来。
  2. 提取“代表人物”:PAMM 会随机挑选出几个最具代表性的“样本”(比如选 1 个代表“猫”的样本,1 个代表“狗”的样本)。
  3. 只存“关系”:它不再存储那几百万张具体的笔记,而是只存储:
    • 那几十个样本卡片(Generators)。
    • 一张索引表,写着:“第 1 本书的笔记,其实就是第 3 号样本的 1.2 倍;第 2 本书的笔记,就是第 1 号样本的 0.8 倍……"
  4. 按需还原:当需要计算时,它根据索引表,用少量的样本卡片快速“拼凑”出原本庞大的数据。

3. 一个生动的比喻:合唱团与指挥

想象你在指挥一个1000 人的合唱团(输入序列),每个人都要唱出不同的音符(向量)。

  • 传统方法:你需要给每个人发一张乐谱,并且记住每个人唱的具体音高。这需要巨大的乐谱架(内存)。
  • PAMM 方法
    • 你发现这 1000 个人里,其实只有5 种主要的唱法(比如高音、低音、中音等)。
    • 你只找5 个领唱(Generators),让他们记住这 5 种唱法。
    • 然后你给其他 995 个人发一张小纸条,上面写着:“你跟着 3 号领唱唱,声音稍微大一点点”或者“你跟着 1 号领唱唱,声音小一点点”。
    • 结果:你只需要记住 5 个领唱的乐谱和 995 张小纸条,而不是 1000 份完整的乐谱。内存占用瞬间从 1000 份降到了几乎可以忽略不计。

4. 惊人的效果

  • 内存节省:论文显示,PAMM 可以将 Q、K、V 投影层的内存占用减少 512 倍!这意味着原本需要 8 张高端显卡才能训练的模型,现在可能只需要 1 张,或者可以在同样的显卡上训练大得多的模型。
  • 质量无损:最神奇的是,虽然数据被“压缩”了,但模型最终学到的知识(困惑度 Perplexity)几乎没有下降,甚至在某些情况下因为去除了冗余噪音,效果还更好了。
  • 速度影响小:虽然多了一步“找代表”和“拼凑”的过程,但这点计算开销相对于整个训练过程来说,就像在跑马拉松时多系了一次鞋带,几乎可以忽略不计。

5. 为什么这很重要?

目前的 AI 训练非常烧钱,主要就是因为需要昂贵的 GPU 集群。PAMM 就像给这些昂贵的显卡装了一个“超级压缩引擎”。

  • 对于研究者:让那些没有超级计算机的小团队也能训练大模型成为可能。
  • 对于公司:可以大幅降低训练成本,或者在同样的成本下训练出更聪明的 AI。

总结一句话
PAMM 发现训练大模型时,我们记了太多重复的“废话”。它通过只记“精华”和“索引”,把原本需要塞满整个仓库的笔记,压缩到了一个小盒子里,而且丝毫不影响模型变聪明的速度。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →