RACE Attention: A Strictly Linear-Time Attention for Long-Sequence Training

本文提出了 RACE 注意力机制,一种通过替代 Softmax 核函数并利用高斯随机投影与软局部敏感哈希来避免构建完整注意力矩阵的严格线性时间复杂度方法,从而在显著降低显存与时间开销的同时,实现了在单块 GPU 或 CPU 上处理数千万 token 的长序列训练,并在多项任务中达到或超越了现有基线模型的性能。

Sahil Joshi, Agniva Chowdhury, Amar Kanakamedala, Ekam Singh, Evan Tu, Anshumali Shrivastava

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 RACE Attention 的新方法,旨在解决当前人工智能(特别是大语言模型)在处理超长文本时遇到的“速度瓶颈”和“内存爆炸”问题。

为了让你轻松理解,我们可以把训练 AI 的过程想象成在图书馆里找书,或者在派对上找人聊天

1. 现在的痛点:传统的“全知全能”太累了

现状(Softmax Attention):
想象你正在参加一个有 100 万人的超级大派对(这就是超长文本序列)。传统的 AI 模型(使用 Softmax Attention)在说话时,为了理解上下文,必须盯着在场的所有人,并且把自己在场的每一个人都进行一遍眼神交流,计算他们之间的“亲密度”。

  • 问题: 如果只有 10 个人,这很简单(10x10=100 次交流)。但如果来了 100 万人,每个人都要和另外 999,999 个人交流,总交流次数就是 100 万亿次N2N^2)。
  • 后果: 这就像让一个人去和全世界每个人握手,不仅累得半死(计算时间极长),而且大脑内存(显存)根本记不住这么多握手记录。现在的顶级显卡(如 GH200)在处理几百万字的文本时,也会因为算不过来或内存不够而“死机”。

2. RACE 的解决方案:聪明的“快速分类法”

RACE Attention 的核心思想:
既然不能和每个人都握手,那我们就分组!RACE 提出了一种更聪明的策略,它不需要和所有人交流,只需要和几个代表交流,就能猜出大概的意思。

核心比喻:图书馆的“智能书架”

想象你要在图书馆找一本关于“猫”的书:

  • 传统方法(Softmax): 你走进图书馆,把每一本书都拿起来看一眼,检查封面上有没有“猫”字,然后计算这本书和你想找的书有多像。如果图书馆有 1000 万本书,你就得翻 1000 万次。
  • RACE 方法:
    1. 打标签(哈希): 图书馆管理员(RACE 算法)给每本书贴上一个随机生成的标签(比如“红色标签”、“蓝色标签”)。
    2. 分组(桶): 所有贴了“红色标签”的书被放在同一个篮子里。
    3. 快速查找: 当你想找“猫”的书时,你不需要看每一本书。你只需要看**“猫”这个概念会落在哪个篮子里**,然后只去那个篮子里找。
    4. 统计摘要: 篮子里的书不需要一本本看,管理员已经提前算好了这个篮子里的“平均内容”(统计摘要)。你只需要和这个“平均内容”交流一下,就能得到 99% 准确的答案。

RACE 的魔法在于:

  • 线性速度: 无论图书馆有 100 本书还是 1 亿本书,你只需要看几个篮子,速度几乎一样快(从 N2N^2 变成了 NN)。
  • 不存全图: 它不需要把所有人的关系图(巨大的矩阵)画出来,只需要记住几个篮子的统计信息,所以内存占用极小

3. 为什么 RACE 比以前的“近似法”更好?

以前也有人尝试过“只和一部分人握手”(比如线性注意力、稀疏注意力),但它们有两个大问题:

  1. 太粗糙: 就像只问“你喜不喜欢猫?”,回答是“是”或“否”,丢失了太多细节,导致 AI 变笨。
  2. 不可训练: 以前的方法像是一个死板的规则,AI 在训练过程中无法自我修正,很难适应复杂的任务。

RACE 的突破:

  • 平滑的“软”分组: RACE 不是生硬地把书扔进一个篮子,而是让书同时属于几个篮子(比如 70% 属于红篮子,30% 属于蓝篮子)。这就像给书贴了“半透明”的标签,保留了更多细节。
  • 可训练: 这种“软”分组是可以调整的,AI 在训练过程中可以学会如何更好地分配这些标签,从而保持极高的准确度。

4. 惊人的实验结果:从“几百万”到“几千万”

论文中的实验数据非常震撼:

  • 传统方法(FlashAttention): 在顶级显卡上,处理 400 万 个词(Token)就已经接近极限,再长就卡死了。
  • RACE 方法:
    • 在普通 CPU 上,轻松处理 7500 万 个词!
    • 在顶级显卡上,处理 1200 万 个词。
    • 速度对比: 在处理 400 万词时,RACE 在普通 CPU 上的速度,竟然比顶级显卡上的传统方法还要快 40 倍

这意味着什么?
以前,只有拥有超级计算机的大公司才能训练能读完整本小说、整部法律条文甚至整本百科全书的 AI。现在,RACE 让这种能力变得平民化,甚至可以在普通的服务器上运行。

5. 总结:RACE 是什么?

如果把 AI 的注意力机制比作寻找线索

  • 旧方法是:拿着放大镜,把整条街道(所有文本)每一块砖都检查一遍。
  • RACE 是:利用智能地图,直接锁定最可能有线索的几个街区,并快速汇总那里的信息。

RACE Attention 就像给 AI 装上了一个**“超级导航仪”,让它能在海量的信息海洋中,以线性速度**(直线速度)找到关键信息,既省时间又省内存,而且找得还很准。这为未来训练能理解超长上下文(如整本书、整段视频)的超级 AI 铺平了道路。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →