Polynomial, trigonometric, and tropical activations

Each language version is independently generated for its own context, not a direct translation.

Deze paper is een ontdekkingstocht naar nieuwe "schakelaars" voor kunstmatige intelligentie.

Stel je een diep neurale netwerk voor als een gigantisch, complex fabrieksgebouw. In elke verdieping van dit gebouw zitten duizenden arbeiders (de neuronen) die informatie verwerken. Om te zorgen dat de boodschap van de ene verdieping naar de andere niet verdwijnt (te zwak wordt) of niet ontploft (te hard wordt), hebben ze een speciale schakelaar nodig: een activatiefunctie.

Voor jarenlang was de standaard schakelaar de ReLU of GELU. Dit zijn als het ware simpele, betrouwbare schakelaars die altijd hetzelfde doen. Maar de auteurs van dit paper vragen zich af: "Wat als we die schakelaars niet vastzetten, maar ze laten leren en aanpassen? En wat als we ze vervangen door wiskundige formules die we al eeuwen kennen, zoals polynomen (veeltermen) of golven?"

Hier is de uitleg in drie simpele onderdelen, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Gouden Middelweg"

In een diep netwerk moet de energie van het signaal precies goed blijven. Als je te hard duwt, explodeert het signaal; als je te zacht duwt, verdwijnt het.

De oude manier: Gebruik een simpele schakelaar (zoals ReLU) en pas de gewichten van het netwerk heel zorgvuldig aan om de energie stabiel te houden.
Het probleem met polynomen: Als je probeert polynomen (zoals $x^2$ of $x^3$ ) als schakelaar te gebruiken, gaat het vaak mis. Ze worden te groot of te klein, en het netwerk crasht. Het is alsof je probeert een auto te besturen met een gaspedaal dat niet lineair reageert: een klein beetje gas geeft een enorme sprong, en een beetje remmen doet niets.

2. De Oplossing: De "Ortheogonale" Schakelaars

De auteurs zeggen: "Laten we geen willekeurige polynomen gebruiken, maar een speciaal soort: orthogonale basisfuncties."

De Analogie van de Orkest:
Stel je een orkest voor. Als elke muzikant zijn eigen melodie speelt die perfect past bij de anderen (ze "orthogonaal" zijn), dan hoor je een helder geluid zonder ruis.
De auteurs gebruiken drie soorten muzikale schakelaars:
1. Hermite (Polynomen): Dit zijn als de "klassieke" instrumenten. Ze werken perfect als de input (de muziek) een bepaalde vorm heeft (een normale verdeling). Ze zijn zo ontworpen dat ze de energie van het signaal precies in balans houden.
2. Fourier (Trigonometrie/Golven): Dit zijn de "golf-muzikanten". Ze werken perfect als de input gelijkmatig verdeeld is (zoals een rechte lijn). Ze kunnen patronen en golven in de data heel goed vangen.
3. Tropisch (Max-plus): Dit is de meest bizarre, maar slimme schakelaar. In plaats van optellen en vermenigvuldigen, gebruikt deze "max" en "optellen".
  - Vergelijking: Stel je voor dat je een bergpad beklimt. Een normale schakelaar kijkt naar elke stap. De tropische schakelaar kijkt alleen naar het hoogste punt dat je op dat moment hebt bereikt. Het is alsof je de "schaduw" van een berg bekijkt: het is een stukje rechte lijn, dan een scherpe hoek, dan weer een rechte lijn. Dit is heel efficiënt en lijkt op hoe ReLU werkt, maar dan veel krachtiger.

3. Het Resultaat: De "Magische" Initiatie

Het geheim van dit paper is niet alleen wat ze gebruiken, maar hoe ze het beginnen.
Ze hebben een nieuwe manier bedacht om de schakelaars in te stellen (initialisatie).

De Vergelijking: Stel je voor dat je een nieuw instrument koopt. Normaal gesproken moet je het zelf afstemmen, wat vaak mislukt. De auteurs hebben een "automatische stemmachine" bedacht. Zodra je de machine aanzet, is het instrument perfect afgestemd op de zwaartekracht van het netwerk.
Het Effect: Dankzij deze machine kunnen ze diepe netwerken (zoals GPT-2 voor taal en ConvNeXt voor beelden) trainen met deze nieuwe schakelaars zonder dat het netwerk instort.

Wat betekent dit voor de praktijk?

Betere prestaties: In tests met beelden (ImageNet) en tekst (OpenWebText) deden deze nieuwe schakelaars het net zo goed, en soms zelfs beter dan de oude standaard.
Geen extra trucs nodig: Vroeger moest je vaak extra "remmen" of "klemmen" toevoegen om polynomen stabiel te houden. Nu niet meer. De wiskunde doet het werk voor je.
Fijnafstemming: Je kunt deze nieuwe schakelaars zo instellen dat ze precies lijken op de oude schakelaars. Als je een model hebt dat al getraind is, kun je de oude schakelaars vervangen door deze nieuwe, en het model blijft werken alsof er niets gebeurd is, maar dan met meer flexibiliteit.

Conclusie in één zin

De auteurs hebben bewezen dat we de simpele schakelaars in AI-netwerken kunnen vervangen door elegante, wiskundige golven en veeltermen, mits we ze met de juiste "stemmachine" starten. Dit opent de deur naar slimme netwerken die beter begrijpen hoe de wereld in elkaar zit, zonder dat ze ontploffen.

Kortom: Ze hebben de "motor" van de AI vervangen door een efficiënter, wiskundig perfect afgesteld model, en het rijdt nog steeds (en soms zelfs sneller) dan ooit tevoren.

Each language version is independently generated for its own context, not a direct translation.

Titel: Polynoom-, Trigonometrische en Tropische Activeringen

Auteurs: Ismail Khalfaoui-Hassani & Stefan Kesselheim (Jülich Supercomputing Centre)
Publicatie: ICLR 2026

1. Het Probleem

Diepe neurale netwerken (DNN's) vertrouwen traditioneel op statische, niet-lineaire activeringsfuncties zoals ReLU, GELU of SiLU. Hoewel deze effectief zijn, brengen ze beperkingen met zich mee:

Variance Exploding/Vanishing: Bij het trainen van zeer diepe netwerken met polynoom-gebaseerde activeringen (die vaak worden afgekeurd vanwege het Universal Approximation Theorem) treden vaak problemen op met het instabiliteit van gradiënten en activaties. De variantie van signalen kan exponentieel groeien of verdwijnen tijdens forward- en backward-passes.
Moeilijke Initialisatie: Bestaande methoden voor het initialiseren van leerbare activeringen (zoals rationele functies) missen vaak een gesloten vorm voor de tweede orde momenten, wat het berekenen van een stabiele initialisatie bemoeilijkt.
Interpretatie: Er is een gebrek aan een theoretisch raamwerk dat diepe netwerken met polynoom-activeringen direct koppelt aan multivariate polynoomafbeeldingen.

2. Methodologie

De auteurs introduceren een nieuw raamwerk dat gebruikmaakt van orthogonale basisfuncties en tropische polynomen als leerbare activeringsfuncties. De kern van de methode ligt in een variantiebehoudende initialisatie (variance-preserving initialization).

A. Variantiebehoudende Initialisatie

Om stabiel trainen te garanderen, moet de variantie van het signaal en de gradiënt behouden blijven door de lagen heen. De auteurs definiëren een "forward gain" ( $\alpha$ ) en een "backward gain" ( $\alpha'$ ). Voor een stabiel netwerk moeten deze gelijk zijn.

Door gebruik te maken van orthonormale basissen, kunnen de tweede orde momenten ( $E[F(x)^2]$ en $E[F'(x)^2]$ ) analytisch en in gesloten vorm worden berekend.
Dit stelt hen in staat om de coëfficiënten van de activeringsfuncties zo te initialiseren dat $\alpha = \alpha' = 1$ (of een constante), zonder extra "clamping" mechanismen (zoals ReLU) nodig te hebben.

B. De Drie Activeringsfamilies

Hermite Activeringen (Polynomen):
- Gebaseerd op de probabilistische Hermite-polynomen ( $He_n$ ).
- Geoptimaliseerd voor inputs die normaal verdeeld zijn ( $N(0,1)$ ).
- De auteurs bewijzen dat met specifieke coëfficiënten (afhankelijk van de graad $n$ ), de forward en backward gains gelijk zijn.
Fourier Activeringen (Trigonometrisch):
- Gebaseerd op een afgeknotte Fourier-reeks (sinus en cosinus termen).
- Geoptimaliseerd voor inputs die uniform verdeeld zijn op $[-\pi, \pi]$ .
- Hierbij zijn ook de frequenties leerbaar, wat leidt tot een "cosine basis" in plaats van een strikte Fourier-reeks.
Tropische Activeringen:
- Gebaseerd op de "max-plus" algebra (tropische semiring).
- Gedefinieerd als $F(x) = \max_k \{a_k + kx\}$ .
- Dit kan worden geïnterpreteerd als de discrete convexe conjugate van een functie en encodeert het convexe hull van de epigrafie. Het is een generalisatie van ReLU.

C. Praktische Implementatie

Efficiëntie: Er zijn gespecialiseerde CUDA-kernels ontwikkeld voor Hermite-polynomen die gebruikmaken van recursieve formules om de complexiteit van $O(d^2)$ te verlagen naar $O(d)$ .
Fitting: Voor fine-tuning van bestaande modellen (bijv. GPT-2) worden de nieuwe activeringen geïnitieerd door klassieke activeringen (zoals GELU) te benaderen via Hermite-interpolatie. Dit zorgt ervoor dat zowel de functie als de afgeleide worden gematched, wat stabiliteit garandeert bij het overstappen.

3. Belangrijkste Bijdragen

Nieuwe Initialisatiemethode: Een wiskundig onderbouwde methode om orthogonale leerbare activeringen te initialiseren zodat variantiebehoud wordt gegarandeerd, wat leidt tot stabiel trainen zonder extra regularisatie.
Empirisch Bewijs voor Polynoomnetwerken: Het paper weerlegt het dogma dat polynoom-activeringen ongeschikt zijn voor diepe netwerken. Ze tonen aan dat ConvNeXt en GPT-2 succesvol getraind kunnen worden met deze activeringen op grote datasets.
Theoretische Interpretatie: Bewijs (in Appendix F) dat diepe netwerken met polynoom-activeren equivalent zijn aan multivariate polynoomafbeeldingen. Dit biedt een nieuwe algebraïsche kijk op de expressiviteit van DNN's.
Tropische Geometrie: Introductie van tropische polynomen als activeringsfunctie, geïnterpreteerd als discrete convexe conjugaten, wat een lichtgewicht alternatief biedt.
Open Source: De implementatie is beschikbaar in de torchortho bibliotheek.

4. Resultaten

De auteurs hebben uitgebreide experimenten uitgevoerd op twee grote taken:

Beeldclassificatie (ImageNet-1k met ConvNeXt-T):
- De modellen met Hermite, Fourier en Tropische activeringen presteerden consistent beter dan of gelijk aan de GELU-baseline.
- Hermite (graad 3): Bereikte 82.22% Top-1 nauwkeurigheid (tegenover 82.06% voor GELU).
- Tropisch (graad 6): Bereikte 82.17%.
- Fourier (graad 6): Bereikte 81.64%.
- Ablatiestudies toonden aan dat het leerbaar maken van de coëfficiënten essentieel is en dat hogere graden over het algemeen de prestaties verbeteren.
Taalmodelleren (OpenWebText met GPT-2 124M):
- De nieuwe activeringen resulteerden in lagere perplexity (PPL) en verlies vergeleken met GELU en SiLU.
- Hermite: Bereikte een validatie PPL van 18.82 (tegenover 19.32 voor GELU).
- Fourier: Bereikte 18.96.
- Tropisch: Bereikte 19.02.
- Alle nieuwe activeringen waren statistisch significant beter dan de baseline.
Fine-tuning: Bij het fine-tunen van een voorgetraind model op CIFAR-10, presteerden de modellen die waren geïnitieerd via Hermite-interpolatie van GELU aanzienlijk beter dan modellen met willekeurige initialisatie.

5. Betekenis en Conclusie

Dit paper is significant omdat het de weg vrijmaakt voor het gebruik van leerbare, wiskundig georiënteerde activeringsfuncties in grote schaal deep learning.

Paradigmaverschuiving: Het toont aan dat polynoom-gebaseerde netwerken niet alleen theoretisch interessant zijn, maar ook praktisch superieur kunnen zijn aan traditionele ReLU/GELU netwerken als ze correct worden geinitialiseerd.
Interpretatie: Het biedt een nieuw perspectief waarbij diepe netwerken kunnen worden gezien als composities van polynomen (of tropische polynomen), wat de connectie met algebraïsche variëteiten en tropische meetkunde versterkt.
Efficiëntie: Ondanks de complexiteit van de functies, zijn de berekeningen efficiënt geïmplementeerd (vooral voor lage graden op GPU's) en leiden ze tot betere convergentie en stabiliteit.

Samenvattend bewijzen de auteurs dat door het gebruik van orthonormale basissen en een zorgvuldige initialisatie, de beperkingen van polynoom-activeringen kunnen worden overwonnen, wat leidt tot robuustere en efficiëntere diepe neurale netwerken voor zowel visuele als taaltaken.