Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

该论文提出用固定的参数化沃尔什 - 阿达玛变换替代多头注意力中的密集输出投影,在消除约 25% 注意力参数并显著降低内存与推理成本的同时,保持了模型在标准基准测试上的性能甚至略有提升。

Shubham Aggarwal, Lokendra Kumar

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种让大型人工智能模型(Transformer)变得更轻、更快、更省钱的新方法。为了让你轻松理解,我们可以把训练一个 AI 模型想象成经营一家超级繁忙的跨国咨询公司

1. 核心问题:那个“超级大会议室”太浪费了

在这个咨询公司(AI 模型)里,有一个核心部门叫**“多头注意力机制”(Multi-Head Attention)**。

  • 比喻:想象这里有 12 个(或更多)不同的专家小组(Head),每个小组都在独立地分析一份文件。
  • 现状:分析完后,这 12 个小组需要把各自的观点汇总起来,交给一个**“超级大会议室”(即论文中提到的Dense Output Projection**,密集输出投影层)进行最终决策。
  • 问题:这个“超级大会议室”的运作方式非常笨重。它要求每个专家都要和所有其他专家进行一对一的“深度对话”。
    • 如果有 100 个专家,就需要 $100 \times 100 = 10,000$ 条对话线路。
    • 如果有 1000 个专家,就需要 $1,000,000$ 条线路!
    • 后果:这个会议室占据了公司 25% 的预算(参数),消耗了大量的电力(计算力),而且每次开会(推理)都要等很久,因为线路太多,交通堵塞严重。

2. 解决方案:用“哈达玛变换”代替“大会议室”

作者提出,我们不需要那个笨重的“超级大会议室”,我们可以用一个**“结构化的高效广播系统”(即Walsh-Hadamard Transform**,沃尔什 - 哈达玛变换)来替代它。

  • 比喻
    • 旧方法(密集投影):就像每个人都要给其他人发一封私人邮件,还要等待每个人的回复。这需要巨大的邮费(参数)和漫长的时间。
    • 新方法(哈达玛变换):就像大家围成一个圈,通过一种**固定的、不需要学习的“传球规则”**来交换信息。
      • 这个规则是固定的(不需要花钱去训练,是“参数免费”的)。
      • 规则很简单:要么是“把信息加给邻居”,要么是“把信息反转后加给邻居”(就像蝴蝶结形状的加减法)。
      • 神奇之处:虽然规则简单,但它能确保每个人的信息都能均匀地传递给所有人,而且不会丢失任何信息(保持正交和范数不变)。

3. 这样做带来了什么好处?

作者把公司里的“超级大会议室”拆掉,换成了这个“高效广播系统”,结果非常惊人:

  • 省下了 25% 的“人头费”

    • 因为那个笨重的“大会议室”不需要再雇佣那么多员工(参数)了。整个注意力模块的参数减少了约 25%,整个模型减少了约 7% 的总参数。
    • 比喻:公司裁员了,但业务没受影响,因为剩下的员工通过更聪明的协作方式(广播系统)干得更好了。
  • 开会速度变快了(吞吐量提升)

    • 以前是 N2N^2 的复杂度(人越多,混乱指数级增长),现在是 NlogNN \log N 的复杂度(人越多,效率依然很高)。
    • 比喻:以前 1000 个人开会要开一天,现在可能只要开一小时。特别是在公司规模变大(模型变大)或者同时处理很多任务(批量处理)时,速度提升最明显(最高提升了 6.6%)。
  • 内存占用更少

    • 因为少了一个巨大的参数矩阵,显存(GPU 内存)占用降低了约 8.9%。
    • 比喻:办公室腾出了 10% 的空间,现在可以塞进更多的员工一起工作,或者在同样的硬件上运行更大的模型。
  • 效果没变差,甚至更好

    • 虽然省了钱,但公司的业绩(在标准测试题上的表现)并没有下降,甚至在某些任务上还有微弱的提升。
    • 有趣的现象:作者发现,用这种新方法的公司,在“训练投入”和“成绩提升”的曲线上,斜率更陡峭。这意味着每一分钱的算力投入,带来的回报更高。就像是用更少的油跑出了更快的速度。

4. 为什么这很重要?

现在的 AI 模型越来越大,越来越贵,像是一个不断膨胀的巨兽。

  • 旧思路:为了跑得更快,我们只能买更贵的显卡,或者把模型切得更碎。
  • 新思路:我们不需要换硬件,只需要改变内部沟通的“规则”

这就好比,你不需要把家里的水管全部换成更粗的(买新硬件),只需要把原本混乱的管道布局改成符合流体力学的结构(哈达玛变换),水流(数据)自然就通畅了,而且不需要额外的水泵(参数)。

总结

这篇论文的核心思想就是:别再用那种“每个人都要和所有人说话”的笨办法来混合信息了。

作者引入了一种数学上固定、不需要学习、像蝴蝶结一样高效的变换方法(哈达玛变换),替代了原本那个昂贵且冗余的“大会议室”。结果就是:模型更轻了、跑得更快了、省了更多电,而且智商一点没降。

这对于未来在手机上运行大模型,或者让数据中心更环保,都有着巨大的意义。