Polynomial, trigonometric, and tropical activations

本文提出了一种基于正交基(包括埃尔米特多项式、傅里叶三角函数及热带化多项式)的激活函数族,通过简单的方差保持初始化成功解决了深度模型中的激活与梯度爆炸/消失问题,实现了在 GPT-2 和 ConvNeXt 等大规模任务上的有效训练,并揭示了多项式激活网络的代数结构及其在微调任务中通过埃尔米特插值逼近经典激活函数的潜力。

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL