Self-Attention And Beyond the Infinite: Towards Linear Transformers with Infinite Self-Attention

该论文提出了无限自注意力(InfSA)及其线性变体 Linear-InfSA,通过将注意力层重构为基于折扣 Neumann 级数的扩散过程,在实现线性时间复杂度、支持超高分辨率推理的同时,显著提升了视觉 Transformer 的准确率与能效。

Giorgio Roffo, Luke Palmer

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为**“无限自注意力”(Infinite Self-Attention, 简称 InfSA)**的新技术,旨在解决当前人工智能(特别是处理图像时)面临的一个巨大难题:当图片变得非常大或非常清晰时,现有的模型会“卡死”或变得极其昂贵。

为了让你轻松理解,我们可以把处理图像的过程想象成**“在一个巨大的城市里寻找最重要的地标”**。

1. 现在的困境:传统的“看全图”法太慢了

想象你是一位城市规划师,手里有一张包含 100 万个街区(像素/Token)的超大地图。你的任务是找出哪里是城市的中心(比如著名的广场)。

  • 传统 Transformer(Softmax Attention)的做法:
    你派出了 100 万个侦探,每个侦探都要亲自跑遍整个城市,去和另外 999,999 个侦探“握手”、交换情报,然后才能决定哪里最重要。
    • 后果: 如果城市只有 100 个街区,这很快。但如果城市有 100 万个街区,侦探们要进行的“握手”次数是 $100 万 \times 100 万 = 1 万亿$次!
    • 比喻: 这就像为了找一家餐厅,你要给全城每个人打电话问意见。随着城市变大,时间和电话费(计算成本)会呈爆炸式增长,直到你的预算(显存)瞬间耗尽,任务失败。

2. 论文的新方案:InfSA(无限自注意力)

作者提出了两种新方法来替代这种笨重的“全员握手”:

方法一:Pure InfSA(纯无限注意力)—— 像“滚雪球”一样传递信息

  • 核心思想: 不要每个人都去跑遍全城。我们建立一个**“信息传递链”**。
  • 比喻:
    想象城市里有一个“谣言”或“重要消息”。
    1. 第一层:消息从 A 传给 B。
    2. 第二层:B 收到后,再传给 C。
    3. 第三层:C 再传给 D……
      作者发现,如果让这个消息无限次地传递下去(就像滚雪球,越滚越大),最后那些被传递次数最多、最核心的节点(比如城市广场),自然就会变得非常显眼。
    • 数学魔法: 他们利用了一种叫“诺伊曼级数”(Neumann series)的数学工具,把这种“无限次传递”的过程压缩成了一个简单的公式。这就像你不需要真的跑 100 万步,只需要算一下“如果一直跑下去,最终会停在哪里”。
    • 结果: 这种方法能精准地找到最重要的“地标”,而且不需要每个人去跑遍全城,避免了“过度平滑”(即所有地方看起来都一样重要)的问题。

方法二:Linear-InfSA(线性无限注意力)—— 像“选队长”一样快速决策

这是论文最厉害的地方,它把计算速度提升到了线性级别(O(N)),意味着城市变大 10 倍,计算时间只增加 10 倍,而不是 100 倍。

  • 核心思想: 既然最终大家都会汇聚到那个“最重要的中心”,那我们就直接预测谁是那个中心,然后让所有人听他的。
  • 比喻:
    想象你要选出一位“城市代言人”。
    • 传统方法: 让 100 万人互相投票,统计票数(太慢)。
    • Linear-InfSA 方法:
      1. 先快速扫描一下每个人的“能量值”(比如谁的声音大、谁的位置显眼)。
      2. 选出一个“虚拟队长”(主特征向量)。
      3. 直接让所有人把注意力集中在“队长”身上,由队长来代表整体。
    • 神奇之处: 作者证明,这个“队长”的权重,其实就等同于那个“无限次传递”后最终汇聚的结果。
    • 效果: 不需要构建那个巨大的 $100 万 \times 100 万$ 的表格,只需要几个简单的向量运算。

3. 这带来了什么改变?(实验结果)

作者把这项技术用在了处理图片的模型(ViT)上,效果惊人:

  1. 能处理“超级高清”图片了:

    • 以前的模型处理 4K 图片(约 5 万个像素块)就内存溢出了(OOM)。
    • 新的模型能处理 9216 x 9216 分辨率的图片(约 33 万个像素块!),而且没有崩溃。这就像以前只能看小电视,现在能直接看 IMAX 巨幕了。
  2. 更省电、更快:

    • 在同样的硬件上,新模型的速度比旧模型快 13 倍,能耗降低了 13 倍
    • 比喻: 以前跑完马拉松要喝 13 瓶水,现在只喝 1 瓶就能跑完,而且跑得更快。
  3. 看得更准、更懂“重点”:

    • 旧模型看图片时,注意力容易分散,背景里的树、云都看得很认真。
    • 新模型的注意力非常聚焦,能精准地锁定在“猫的脸”或“车的轮子”上。
    • 比喻: 旧模型像个走马观花的游客,看什么都觉得新鲜;新模型像个专业的侦探,一眼就能锁定关键线索。
  4. 成绩更好:

    • 在著名的 ImageNet 图像识别测试中,这个只有 4 层的新模型(参数很少),成绩竟然超过了那些有 24 层、参数多得多的大模型。

总结

这篇论文就像给 AI 装上了一个**“超级导航仪”**:

  • 它不再让 AI 笨拙地遍历所有可能性(像无头苍蝇)。
  • 而是利用数学规律(图论、马尔可夫链),让 AI 学会**“抓重点”**。
  • 它让 AI 能够轻松处理超高清图片,同时大幅降低能耗,让未来的 AI 应用(如自动驾驶看高清路况、医疗影像分析)变得更加可行和环保。

简单来说,以前是“人海战术”,现在是“精兵简政”;以前是“盲目乱撞”,现在是“有的放矢”。