Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基(包括埃尔米特多项式、傅里叶三角函数及热带化多项式)的激活函数族,通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题,实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练,并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给深度神经网络(Deep Neural Networks)的“大脑”换一种全新的思考方式

为了让你轻松理解,我们可以把神经网络想象成一个巨大的、层层递进的工厂流水线。每一层工人(神经元)接收上层的零件,加工一下,再传给下一层。

在这个工厂里,最关键的环节是“加工”这一步,也就是激活函数(Activation Function)。它决定了工人如何处理收到的信息:是把它放大、缩小、还是直接扔掉?

1. 以前的做法:用“死板”的工具

过去几十年,我们最常用的工具是 ReLUGELU

  • 比喻:这就像工厂里只有一种标准的“剪刀”。不管来的是什么形状的零件(数据),剪刀要么把它剪断(如果是负数),要么原样放行(如果是正数)。
  • 问题:虽然这把剪刀很好用,但有时候太死板了。特别是当我们试图用多项式(比如 x2,x3x^2, x^3 这种数学公式)来代替剪刀时,以前大家觉得这行不通,因为信号传得太深时,要么变得无限大(爆炸),要么消失不见(消失),导致工厂瘫痪。

2. 这篇论文的突破:引入“正交”的魔法工具箱

作者提出,我们其实可以用更高级的数学工具——正交基函数(Orthogonal Bases)来作为激活函数。他们引入了三种新工具:

A. 埃尔米特多项式 (Hermite) —— “懂正态分布的调音师”

  • 比喻:想象工厂里的零件大小通常符合“中间多、两头少”的规律(正态分布)。埃尔米特多项式就像一位精通这种分布的调音师
  • 作用:它能完美地处理这些零件,确保信号在传递过程中音量(方差)保持不变。既不会让声音震破耳朵(爆炸),也不会让声音听不见(消失)。
  • 神奇之处:以前大家觉得多项式太危险,但作者发现,只要给这些多项式配上正确的“初始音量”(方差保持初始化),它们就能在深层网络里稳定工作,甚至表现得比传统剪刀更好。

B. 傅里叶激活 (Fourier) —— “会唱歌的波浪”

  • 比喻:如果零件的分布是均匀的(像均匀分布),那就用正弦和余弦波(像海浪一样)。
  • 作用:这些波浪函数能捕捉数据中细微的周期性变化。就像用波浪去包裹零件,比用剪刀剪断要更细腻,能保留更多细节。

C. 热带激活 (Tropical) —— “最聪明的最大值选择器”

  • 比喻:这是一种基于“热带几何”的数学概念。想象你在做决策时,只关心**“哪个选项最好”**(取最大值),然后把这些最好的选项加起来。
  • 作用:它本质上是一种分段线性的函数(像折线图)。它非常高效,计算量小,而且能像 ReLU 一样处理非线性问题,但结构更清晰,甚至可以被理解为一种“凸包”的构建过程。

3. 核心创新:如何不让工厂爆炸?

以前用多项式做激活函数,最大的问题是**“失控”**。

  • 旧方法:就像给一辆没有刹车的赛车(多项式)加速,跑几圈就飞出去了。
  • 新方法(方差保持初始化):作者发明了一套精密的“油门和刹车校准系统”
    • 他们证明了,只要按照特定的公式给这些新工具(多项式、三角函数等)设定初始参数,就能保证信号在每一层传递时,能量(方差)既不增加也不减少
    • 这就好比给每个工人发了一套自动平衡器,无论工厂有多少层,信号传到最后依然清晰有力。

4. 实验结果:真的好用吗?

作者把这套新系统装进了两个著名的“超级工厂”里进行测试:

  1. 图像识别工厂 (ConvNeXt):在 ImageNet 数据集上识别图片。
  2. 语言模型工厂 (GPT-2):在 OpenWebText 上预测下一个词。

结果令人惊讶

  • 这些使用新“数学工具”的工厂,表现比使用传统剪刀(ReLU/GELU)的还要好,或者至少一样好。
  • 这意味着,我们不需要再依赖那些为了稳定而强行加入的“补丁”(比如额外的归一化层或复杂的截断机制),这些数学工具本身就能自我调节。

5. 更深层的意义:把神经网络变成“数学公式”

这篇论文还有一个非常有趣的理论发现:

  • 以前的观点:神经网络是黑盒子,我们不知道它内部到底在算什么。
  • 现在的观点:如果你用多项式做激活函数,整个深层神经网络其实就是一个巨大的、复杂的多变量多项式函数
  • 比喻:以前我们以为工厂里有一群人在随机捣鼓,现在发现,其实整个工厂就是一个超级复杂的数学公式。这让我们可以用代数几何的方法去理解它,甚至可以通过插值法(Hermite 插值),让新的数学工具完美模仿旧的剪刀(比如 GELU),从而在微调旧模型时非常顺滑。

总结

这篇论文就像是在说:

“别再用那把老掉牙的剪刀了!我们有一整套数学上的‘瑞士军刀’(多项式、三角函数、热带函数)。只要给它们配上正确的初始校准(方差保持初始化),它们不仅能像剪刀一样工作,还能处理更复杂、更细腻的任务,而且能让整个深层网络像精密仪器一样稳定运行。”

这不仅打破了“多项式不适合深度学习”的旧观念,还为未来设计更高效、更可解释的 AI 模型打开了一扇新的大门。