The Affine Divergence: Aligning Activation Updates Beyond Normalisation

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een heel groot team van werknemers (een kunstmatig brein) leidt om een moeilijke puzzel op te lossen. De puzzel is het vinden van de perfecte oplossing voor een probleem, zoals het herkennen van een kat op een foto.

In de wereld van deep learning hebben we twee soorten mensen in dit team:

De managers (de parameters): Dit zijn de vaste regels en gewichten die we kunnen aanpassen om het team beter te laten werken.
De werknemers (de activeringen): Dit zijn de tijdelijke gedachten en berekeningen die elke werknemer heeft op basis van de specifieke foto die ze net bekijken.

Het Probleem: De "Verkeerde Kompasnaald"

Tot nu toe hebben we alleen naar de managers gekeken om te beslissen hoe we het team moeten verbeteren. Als de managers een fout maken, geven we ze een duwtje in de goede richting (via een techniek genaamd gradient descent).

De auteur van dit paper, George Bird, zegt echter: "Wacht even! De managers zijn niet de enige die tellen. De werknemers (de activeringen) zijn eigenlijk directer betrokken bij de oplossing. Als een werknemer een verkeerde gedachte heeft, is dat directer een probleem dan als een manager een verkeerde regel heeft."

Het probleem is dat de manier waarop we de managers bijsturen, niet automatisch zorgt voor de perfecte bijsturing van de werknemers. Het is alsof je de managers een kaart geeft die zegt: "Loop naar het noorden," maar als de werknemers die instructie volgen, lopen ze eigenlijk een beetje naar het noordoosten. Ze komen niet precies op de plek waar ze moeten zijn.

De paper noemt dit de "Affine Divergentie". Het is een fundamentele scheefstand tussen wat we wensen dat er gebeurt (de ideale stap voor de werknemers) en wat er echt gebeurt (de stap die overblijft als we alleen de managers aanpassen).

De Oplossing: Een Nieuwe Manier van Lopen

De auteur vraagt zich af: "Wat als we de regels van het spel zo aanpassen dat de managers en de werknemers precies in dezelfde richting bewegen?"

Hij doet twee interessante dingen:

1. De "Normale" Oplossing (die we al kennen, maar nu begrijpen)
Als je probeert dit probleem op te lossen, kom je uit op iets dat lijkt op wat we nu al gebruiken: Normalisatie.
Stel je voor dat de werknemers soms heel hard rennen (grote getallen) en soms heel langzaam. Dit maakt het moeilijk om een evenwichtige stap te zetten. Normalisatie zorgt ervoor dat iedereen op een vergelijkbare snelheid loopt.

De nieuwe inzichten: Dit paper zegt: "We denken dat normalisatie werkt omdat het de statistiek van de data verbetert. Maar misschien werkt het wel gewoon omdat het dit 'verkeerde kompas' rechtzet!" Het is alsof we per ongeluk de juiste oplossing hebben gevonden, zonder te weten waarom het werkte.

2. De "Vreemde" Oplossing (De echte verrassing)
De auteur vindt een tweede manier om dit op te lossen. Deze oplossing ziet eruit als een gewone, aangepaste berekening, maar geeft geen normalisatie. Het is alsof je de werknemers niet dwingt om op dezelfde snelheid te lopen, maar je hun instructies wel zo herschrijft dat ze toch perfect op de juiste plek aankomen.

Het resultaat: Deze "vreemde" oplossing werkt zelfs beter dan de bekende methoden in veel tests! Dit is een enorme verrassing, omdat het betekent dat "normalisatie" (het gelijk maken van snelheden) misschien niet het geheim is van succes, maar dat het rechtzetten van de "scheve stap" het echte geheim is.

Een Analogie: De Dansvloer

Stel je een dansvloer voor waar iedereen een dansstap moet maken.

De oude manier: De leraar (de manager) zegt: "Draai je linkervoet." Maar omdat de vloer oneffen is (de "divergentie"), draait de leerling (de werknemer) zijn hele lichaam een beetje scheef.
De nieuwe manier: De leraar past de instructie aan op basis van de oneffenheid van de vloer, zodat de leerling precies de juiste draai maakt, ongeacht hoe de vloer eruitziet.

Wat betekent dit voor de toekomst?

Batchgrootte is verrassend: Het paper voorspelde iets raars: als je meer mensen tegelijk laat dansen (een grotere "batch"), zou de nieuwe methode minder goed moeten werken. Waarom? Omdat de "oneffenheid" van de vloer dan voor iedereen anders is en de instructies elkaar verstoren. En ja, de tests bevestigden dit! Dit is een sterk bewijs dat hun theorie klopt.
Nieuwe architecturen: Ze hebben ook een nieuwe manier bedacht voor "convolutie" (een techniek voor beeldherkenning), genaamd PatchNorm. Dit is alsof je niet naar de hele foto kijkt, maar naar kleine stukjes (patches) en die direct corrigeert.
Activatiefuncties en Normalisatie zijn één: Het paper stelt voor dat we "normalisatie" en "activatie" (het activeren van neuronen) niet als twee verschillende dingen moeten zien, maar als twee delen van dezelfde machine.

Conclusie

Kortom: Dit paper zegt dat we al die tijd hebben gekeken naar de managers om het team te verbeteren, terwijl we eigenlijk de werknemers (de activeringen) directer hadden moeten helpen. Door de "scheve stap" tussen managers en werknemers recht te zetten, vinden we nieuwe, betere manieren om kunstmatige intelligentie te trainen. Het is alsof we eindelijk de juiste blauwdruk hebben gevonden voor hoe een perfect lopend team eruit moet zien.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "The Affine Divergence: Aligning Activation Updates Beyond Normalisation" van George Bird, gepresenteerd op de GRaM-workshop bij ICLR 2026.

Titel: The Affine Divergence: Aligning Activation Updates Beyond Normalisation

Auteur: George Bird (Universiteit van Manchester)
Context: GRaM Workshop, ICLR 2026

1. Het Probleem: De Affine Divergentie

Het artikel identificeert een fundamentele structurele misalignatie in het diep leren, specifiek tijdens het gradient descent-proces. Er bestaat een systematisch verschil tussen de wiskundig ideale update voor activaties (representaties) en de effectieve update die ontstaat door het bijwerken van parameters (gewichten en biases).

De Kern van het Probleem: In standaard gradient descent worden parameters bijgewerkt in de richting van de steilste daling van de loss-functie. Activaties worden echter niet direct bijgewerkt; ze veranderen alleen als gevolg van de parameter-updates. Het artikel toont aan dat de propagatie van deze parameter-updates naar de activaties niet resulteert in de optimale stap voor de activaties zelf.
De Affine Divergentie: Voor affine lagen (zoals volledig verbonden lagen) leidt de propagatie van de parameter-update tot een effectieve update voor de activaties die wordt verstoord door een term die afhangt van de kwadratische grootte van de input ( $\|\vec{x}\|^2 + 1$ $∥ x ∥^{2} + 1$ ).
- Ideale gradient: $\frac{\partial L}{\partial z_i}$
- Effectieve gradient (via parameters): $\frac{\Delta L}{\Delta z_i} = \frac{\partial L}{\partial z_i} (\|\vec{x}\|^2 + 1)$
Gevolg: Dit creëert een "affine divergentie" waarbij samples met een grotere magnitude (norm) een disproportioneel grote update ontvangen. Dit leidt tot een geometrische inconsistentie en suboptimale leerstappen, waarbij de richting van de update wordt afgebogen door de grootte van de input.

2. Methodologie en Afleiding

De auteur analyseert dit probleem vanuit een eerste-orde benadering (single-step, lineair in leerfactor $\eta$ ) en leidt wiskundige oplossingen af om de divergentie te elimineren.

Structurale Correcties: In plaats van alleen de gradienten aan te passen, worden de structurele mappingen van de lagen zelf aangepast zodat de effectieve update overeenkomt met de ideale update. De auteur leidt twee families van oplossingen af:
1. Norm-achtige oplossing (Norm-like):
  $\vec{z} = W \left( \frac{\vec{x}}{\|\vec{x}\|} \right) + \vec{b}$
  Dit komt overeen met een klassieke L2-normalisatie (vergelijkbaar met parameterloze RMSNorm). Het projecteert de input op een eenheidsbol, wat de divergentie opheft maar informatie verliest (radiale vrijheidsgraad).
2. Affine-achtige oplossing (Affine-like):
  $\vec{z} = \frac{W\vec{x} + \vec{b}}{\sqrt{\|\vec{x}\|^2 + 1}}$
  Dit is een gemodificeerde affiene afbeelding die geen normalisatie is in de traditionele zin (geen schaal-invariantie), maar wel de divergentie exact opheft. Het behoudt alle vrijheidsgraden van de representatie en fungeert als een zachte, niet-lineaire begrenzing.
Gradient-only Correcties: Er wordt ook een alternatief onderzocht waarbij alleen de leerfactor wordt aangepast (bijv. $\eta' = \eta / (\|\vec{x}\|^2 + 1)$ ), maar dit wordt als minder praktisch beschouwd vanwege implementatiecomplexiteit in backpropagation.

3. Belangrijkste Bijdragen

Primaat van Representaties: Het artikel stelt dat activaties (representaties) directer invloed hebben op de loss dan parameters en dat de optimalisatieprioriteit zou moeten verschuiven naar het aligneren van hun updates, in plaats van alleen parameters te optimaliseren.
Afleiding van Normalisatie: Normalisatie wordt hier niet als een empirische heuristiek of een middel tegen covariatenverschuiving gepresenteerd, maar als een wiskundig noodzakelijke consequentie van het oplossen van de affine divergentie. Dit biedt een nieuw, principieel fundament voor het bestaan van normalisatielagen.
De "Affine-like" Map: De introductie van een nieuwe functionele vorm (Affine-like Correction) die de divergentie oplost zonder de beperkingen van traditionele normalisatie (zoals verlies van schaal-informatie of singulariteiten bij $\vec{x} \to 0$ ).
PatchNorm: Voor convolutielagen wordt een nieuwe methode, "PatchNorm", voorgesteld. Hoewel dit structureel lijkt op de affiene correctie, toont het aan dat de aannames voor convolutie complexer zijn door de niet-lineaire mix van patches.
Unificatie van Normalisatie en Activeringen: Het artikel betoogt dat normalisatie en activeringsfuncties algebraïsch kunnen worden ontbonden in een parameter-geschaalde stap en een niet-lineaire kaart, waarbij de grens tussen beide vervaagt.

4. Resultaten en Experimenten

De theorie wordt getest op CIFAR-10 classificatie met volledig verbonden netten en convolutienetwerken.

Prestaties: De Affine-like Correction presteert consistent beter dan of gelijk aan bestaande normalisatiemethoden (BatchNorm, LayerNorm, RMSNorm, L2-Norm) over verschillende netwerkbreedtes en dieptes, vooral bij gebruik van Tanh en Leaky-ReLU activeringen.
Schaal-invariantie weerlegd: De succesvolle prestaties van de Affine-like map (die geen schaal-invariantie heeft) suggereren dat schaal-invariantie niet de primaire oorzaak is van het succes van normalisatie, maar eerder het oplossen van de divergentie.
Batchgrootte Hypothese: Een cruciale voorspelling van de theorie is dat bij structurele correcties (die per sample werken) een grotere batchgrootte leidt tot slechtere prestaties. Dit komt door "interferentie" tussen samples in de parameter-updates die de ideale per-sample correctie verstoren.
- Resultaat: Experimenten bevestigen deze contra-intuïtieve negatieve correlatie voor de structuurcorrecties, terwijl traditionele normalisatiemethoden (zoals BatchNorm) vaak profiteren van grotere batches. Dit ondersteunt het mechanisme van de divergentie-theorie.
Convolutie (PatchNorm): Hoewel PatchNorm werkt, presteert het minder duidelijk boven bestaande methoden dan bij volledig verbonden lagen. Dit wordt toegeschreven aan de breuk van de single-sample-aannamen door de niet-lineaire interacties tussen patches in convolutie.

5. Betekenis en Conclusie

Dit werk biedt een fundamenteel nieuw perspectief op diep leren:

Mechanistisch Inzicht: Het biedt een mechanistische verklaring voor het succes van normalisatie die losstaat van de traditionele "internal covariate shift" theorie.
Nieuwe Architecturen: Het introduceert nieuwe, theoretisch onderbouwde functies (Affine-like, PatchNorm) die empirisch superieur blijken te zijn in bepaalde contexten.
Paradigmaverschuiving: Het daagt de conventionele wijsheid uit dat parameters de primaire focus van optimalisatie moeten zijn. Het stelt dat het aligneren van representatie-updates een effectievere strategie kan zijn.
Toekomstperspectief: Het artikel pleit voor een herdefiniëring van de relatie tussen normalisatie en activeringsfuncties en suggereert dat toekomstig onderzoek zich moet richten op het oplossen van divergenties in complexere lagen (zoals Attention en Residuals) en het generaliseren van deze principes.

Kortom, het papier beweert dat de "Affine Divergence" een ondergewaardeerd probleem is dat de basis vormt voor het succes van bestaande normalisatiemethoden, en biedt tegelijkertijd een nieuwe, robuuste oplossing die de beperkingen van huidige normalisatie overwint.

The Affine Divergence: Aligning Activation Updates Beyond Normalisation

Het Probleem: De "Verkeerde Kompasnaald"

De Oplossing: Een Nieuwe Manier van Lopen

Een Analogie: De Dansvloer

Wat betekent dit voor de toekomst?

Conclusie

Titel: The Affine Divergence: Aligning Activation Updates Beyond Normalisation

1. Het Probleem: De Affine Divergentie

2. Methodologie en Afleiding

3. Belangrijkste Bijdragen

4. Resultaten en Experimenten

5. Betekenis en Conclusie

Meer zoals dit

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models