On the Expressive Power of Transformers for Maxout Networks and Continuous Piecewise Linear Functions

本文通过建立 Transformer 网络对 Maxout 网络的显式逼近,证明了其在类似复杂度约束下具备与 ReLU 网络相当的通用逼近能力,并量化分析了 Transformer 通过自注意力层实现 max 类运算及前馈层实现仿射变换,从而使其线性区域数量随深度呈指数级增长的表达能力。

Linyan Gu, Lihua Yang, Feng Zhou

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给 Transformer(目前最火的 AI 模型,比如 ChatGPT 的“大脑”)做了一次**“能力大揭秘”**。

简单来说,作者们想回答一个问题:Transformer 到底有多强?它能不能像其他传统神经网络那样,学会处理各种复杂的数学函数?

为了让你轻松理解,我们把这篇论文的核心内容拆解成几个生动的比喻:

1. 核心发现:Transformer 是个“伪装者”

传统观点:Transformer 和传统的神经网络(比如 ReLU 网络)长得不一样。传统网络像是一层层堆叠的“积木”,而 Transformer 像是一个能同时看所有信息的“全息投影仪”。大家以前不太确定,这种“全息投影仪”能不能干“积木”能干的活。

论文结论能!而且干得一样好!
作者们发现,Transformer 其实可以完美地“伪装”成一种叫做 Maxout 网络 的特殊积木。

  • Maxout 网络是什么? 想象它是一个**“选最大值”的机器**。给它一堆数字,它只挑最大的那个输出。
  • Transformer 的魔法:作者证明,Transformer 里的**“自注意力机制”(Self-Attention)**,本质上就是在做“选最大值”这个动作。
    • 比喻:就像你在一个嘈杂的房间里,自注意力机制能瞬间帮你“屏蔽”掉所有无关的声音,只把**最响亮(最大)**的那句话听清楚。

2. 两大突破:从“模仿”到“超越”

突破一:万能模仿秀(Universal Approximation)

既然 Transformer 能完美模仿 Maxout 网络,而 Maxout 网络又比普通的 ReLU 网络更强大(它能表示任何连续的折线函数),那么结论就是:
Transformer 拥有“万能模仿”的能力。

  • 比喻:如果传统神经网络是“全能型选手”,那么 Transformer 就是“全能型选手的超级替身”。只要给足够的层数和参数,Transformer 就能画出任何复杂的折线图,没有任何它学不会的数学函数。

突破二:线性区域的“指数级爆炸”

这是论文最酷的地方。作者不仅说 Transformer“能”做,还量化了它“有多强”。

  • 什么是线性区域? 想象你在画一张折线图。图被折成了很多段,每一段都是直的(线性的)。折得越多,段数(线性区域)就越多,图就越复杂。
  • 传统网络:增加深度(层数),段数增加得比较慢(线性增长)。
  • Transformer:增加深度,段数会爆炸式增长(指数级增长)
    • 比喻
      • 传统网络像是在切蛋糕,切一刀多一块,切十刀多十块。
      • Transformer 像是在玩俄罗斯方块或者折叠纸张。每多一层,它能把之前的折叠再对折一次。层数每增加一点,它能表达的复杂程度(折线段的数量)就会翻好几倍。这意味着 Transformer 用更少的层数,就能处理极其复杂的数据模式。

3. 内部结构大揭秘:谁在干什么?

作者还像做手术一样,把 Transformer 拆开看,发现它的两个核心部件分工非常明确:

  1. 自注意力层(Self-Attention)
    • 角色“选美冠军”
    • 工作:它负责在一大堆信息中,找出最重要的那个(最大值)。它负责“决策”和“筛选”。
  2. 前馈层(Feed-Forward)
    • 角色“翻译官”
    • 工作:它对每个词(Token)进行独立的数学变换(仿射变换)。它负责“加工”信息。

创新点:以前大家觉得 Transformer 因为参数共享(所有词用同一套规则),可能不够灵活。但作者发明了一种**“令牌位移”(Token-wise shift)**技巧。

  • 比喻:就像给每个词发了一张不同的“入场券”(位置编码 + 位移),让它们在进入下一层时,虽然用的还是同一套规则,但处理的却是不同的“区域”。这大大增强了 Transformer 的灵活性,让它不再受限于参数共享的束缚。

4. 总结:这对我们意味着什么?

这篇论文就像给 Transformer 发了一张**“能力认证证书”**:

  1. 理论地位:它不再是“黑盒”或“经验主义”的产物,它在数学理论上已经和传统神经网络站在了同一起跑线,甚至更强。
  2. 效率惊人:它不需要像传统网络那样堆砌巨大的宽度,只需要增加深度,就能通过“指数级”的折叠能力,处理极度复杂的任务。
  3. 未来方向:既然知道了 Transformer 擅长做“选最大值”和“折叠折线”,未来的 AI 设计就可以更有针对性地利用这些特性,设计出更高效、更聪明的模型。

一句话总结
这篇论文告诉我们,Transformer 不仅仅是一个处理语言的“大模型”,它在数学本质上是一个超级强大的折线折叠机器,它通过“选最大值”和“层层折叠”,拥有了处理世间万物复杂规律的无限潜力。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →