Mixture-of-Depths Attention

该论文提出了混合深度注意力(MoDA)机制,通过让注意力头同时关注当前层及前序层的键值对,有效缓解了深层大语言模型中的信号退化问题,在仅增加 3.7% 计算开销的情况下显著提升了模型性能,并展示了其在深度扩展方面的巨大潜力。

Lianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang

发布于 2026-03-17
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MoDA (Mixture-of-Depths Attention,混合深度注意力) 的新技术,旨在解决大型语言模型(LLM)在“变深”时遇到的一个核心难题:信息稀释

为了让你轻松理解,我们可以把训练一个大型语言模型想象成建造一座摩天大楼,或者让一个实习生完成一项复杂的长期任务

1. 核心问题:信息在传递中“变淡”了

现状(传统做法):
想象你有一个实习生(模型),你要让他处理一份长达几千页的报告(长文本)。

  • 传统 Transformer 模型就像是一个单线传递的接力赛。
  • 第 1 层(底层)的实习生读懂了报告的第一段,把笔记传给第 2 层。
  • 第 2 层在笔记基础上加工,再传给第 3 层……以此类推,直到第 100 层。
  • 问题在于: 每经过一层,笔记就会被“重写”一次。就像你传话给 100 个人,传到第 100 个人时,最初那个精彩的细节(比如“老板其实很生气”)可能已经被层层过滤、修改,变得面目全非,甚至完全消失了。这就是论文里说的**“信息稀释”**。模型越深,越容易忘记最初学到的重要东西。

2. 解决方案:MoDA —— 给实习生配个“记忆库”

MoDA 的创意:
MoDA 给每一层的实习生都配了一个**“个人记忆库”**。

  • 当第 50 层的实习生在思考时,他不仅看第 49 层传给他的笔记(这是传统的做法),他还可以直接回头去翻自己以前写过的笔记(即第 1 层到第 49 层的关键信息)。
  • 比喻: 就像你在做数学题时,不仅看上一步的草稿,还能随时翻阅你之前写下的所有关键公式和思路,而不是只盯着上一行看。
  • 效果: 这样,无论模型有多深,最底层学到的重要信息(比如“老板生气了”)都能被高层直接调用,不会被层层过滤掉。

3. 技术难点:如何不“慢”下来?

挑战:
如果让每一层都去翻所有以前的笔记,听起来很美好,但速度会慢到无法接受

  • 想象一下,如果每读一页书,你都要把整本书从头翻一遍来找之前的重点,那读一本书要花一辈子。
  • 在计算机里,这意味着巨大的内存访问和计算量,显卡(GPU)会累死。

MoDA 的“黑科技”优化:
论文作者不仅提出了想法,还发明了一套极其高效的“翻书”方法,让这个过程变得像变魔术一样快:

  1. 整理书架(Chunk-aware): 他们把笔记按“块”整理好,而不是散乱堆放。找信息时,直接去对应的“书架区”找,不用满世界乱跑。
  2. 小组协作(Group-aware): 几个实习生(注意力头)共用同一本笔记,大家分工合作,避免重复劳动。
  3. 流水线作业(Fused Kernel): 他们把“找笔记”和“写笔记”这两个动作合并成一个超级动作,中间不卡顿。

结果: 他们的速度几乎和目前最快的标准方法(FlashAttention-2)一样快,只慢了不到 3%,但效果却好得多。

4. 实际效果:更聪明,更省钱

作者用这个新方法训练了不同大小的模型(从 7 亿参数到 15 亿参数),发现:

  • 更懂行: 在理解常识、逻辑推理和做选择题的任务上,MoDA 模型比传统模型(OLMo2)表现更好。
  • 更精准: 模型生成的文字更通顺,犯错更少(困惑度更低)。
  • 性价比极高: 只需要增加**不到 4%**的计算量,就能换来明显的性能提升。这就像给汽车加了个涡轮增压,油耗没怎么增加,但速度提上去了。

5. 总结:为什么这很重要?

以前,为了让 AI 变聪明,我们要么加数据(喂更多书),要么加宽度(让模型变胖),要么加深度(让模型变高)。

  • 加数据太贵。
  • 加宽度有瓶颈。
  • 加深度(让模型层数更多)本来是最有潜力的,但因为“信息稀释”和“计算太慢”一直很难做。

MoDA 就像是为“加深度”打开了一扇新大门。 它证明了:只要让模型学会**“随时回顾过去”**,我们就能造出更深、更强大、更聪明的 AI,而且不需要付出巨大的代价。

一句话总结:
MoDA 就是给 AI 装了一个**“随时可查的超级记忆库”**,让它不管多深都能记住最初的重点,而且查得飞快,让 AI 变得更聪明、更可靠。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →