Scaling Attention via Feature Sparsity

该论文提出了稀疏特征注意力(SFA)及其高效实现 FlashSFA,通过在特征维度引入稀疏性而非压缩序列长度,在保持模型精度的同时将注意力计算成本降低至Θ(n2k2/d)\Theta(n^2 k^2/d),并显著减少了 FLOPs 和 KV 缓存开销,从而为 Transformer 扩展至超长上下文提供了新的解决方案。

Yan Xie, Tiansheng Wen, Tangda Huang, Bo Chen, Chenyu You, Stefanie Jegelka, Yifei Wang

发布于 2026-03-25
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型人工智能模型(Transformer)能处理超长文本的新方法,叫做**“稀疏特征注意力”(Sparse Feature Attention, SFA)**。

为了让你轻松理解,我们可以把 AI 阅读长文章的过程想象成**“在图书馆里找书”**。

1. 现在的难题:图书馆太乱了

想象一下,你有一个超级大的图书馆(这就是 AI 模型),里面有几百万本书(这就是长文本)。

  • 传统做法(密集注意力): 当你想写一篇文章时,AI 需要把每一本书都拿出来,和每一本其他书进行比对,看看它们之间有没有关系。
    • 问题: 如果书有 100 万本,两两比对就要进行 1 万亿次操作!这就像让一个图书管理员去检查每一本书和每一本书的关联,速度慢到让人崩溃,而且内存(书架空间)根本不够用
  • 现有的笨办法: 以前的方法要么只读书的前几页(局部窗口),要么只挑几本看起来重要的书(Token 剪枝)。但这就像只读摘要,容易漏掉关键信息,导致 AI 变笨,回答不准。

2. 这篇论文的妙招:只关注“核心关键词”

这篇论文换了一个思路:既然书太多比不过来,那我们就只关注书里的“核心关键词”吧!

  • 核心概念(特征稀疏):
    想象每本书(每个词)其实是由成千上万个“特征”组成的(比如:颜色、形状、情感、时间等)。

    • 传统 AI: 阅读时,把一本书里所有的特征(比如 1024 个)都拿出来和别的书比对。
    • SFA 方法: 它给每本书做一个“智能筛选”。对于每一本书,它只挑出最关键的 16 个特征(比如只挑出“红色”、“悲伤”、“昨天”这三个词),把其他几百个不重要的特征直接扔掉(设为 0)。
    • 比喻: 就像你在找“红色的苹果”,你不需要检查苹果的所有属性(重量、产地、甜度),你只需要盯着“红色”和“苹果”这两个特征看就行。
  • 为什么这样更快?
    以前要比对 1024 个特征,现在只比对 16 个。

    • 计算量:1024×10241024 \times 1024 次运算,变成了 16×1616 \times 16 次。运算量直接减少了上千倍
    • 内存: 以前要记住所有书的 1024 个特征,现在只要记住 16 个。内存占用直接减半。

3. 关键技术:FlashSFA(超级图书管理员)

光有筛选方法还不够,如果筛选过程太慢也没用。作者还发明了一个叫 FlashSFA 的“超级图书管理员”(一种新的计算机程序内核)。

  • 它的作用: 它不需要把那些被扔掉的特征先存起来再扔掉(这很浪费时间),而是直接跳过,只处理那 16 个关键特征。
  • 比喻: 就像以前的管理员要把所有书搬出来,把不需要的扔回架子,再比对;现在的 FlashSFA 管理员手里拿着一个“透视眼”,直接看到书里最关键的几个字,只比对这几个字,完全不需要搬运那些没用的书。

4. 效果如何?

作者在 GPT-2 和 Qwen3 等模型上做了实验,结果非常惊人:

  1. 速度快了 2.5 倍: 处理同样的长文章,速度提升了一倍多。
  2. 更省内存: 内存占用减少了近 50%,这意味着你可以在普通的显卡上跑以前需要超级计算机才能跑的超长文本。
  3. 没变笨: 这是最厉害的!通常减少信息会让 AI 变笨,但 SFA 因为保留了“最精华”的特征,准确率几乎和原来的大模型一样,甚至在某些长文本检索任务(比如“大海捞针”测试)中表现更好。
  4. 兼容性强: 它还能和现有的其他加速技术(比如只读部分段落的技术)叠加使用,效果加倍。

总结

这篇论文就像给 AI 装上了一个**“智能过滤器”
以前 AI 阅读长文是“大海捞针”,把整片海的水都过滤一遍;
现在 SFA 让 AI 学会了
“只捞针”**,直接忽略海水,只关注那根针。

结果就是: AI 能读更长的书(从几万字到几百万字),速度更快,更省电,而且脑子依然很灵光。这为未来让 AI 阅读整本小说、整部法律条文甚至整个互联网历史,铺平了道路。