Polynomial, trigonometric, and tropical activations
Cet article présente des fonctions d'activation basées sur des bases orthogonales (polynomiales, trigonométriques et tropicales) qui, grâce à une initialisation préservant la variance, permettent d'entraîner efficacement des modèles profonds comme GPT-2 et ConvNeXt tout en évitant les problèmes d'explosion ou de disparition des gradients et en facilitant le fine-tuning via l'interpolation d'Hermite.