The Affine Divergence: Aligning Activation Updates Beyond Normalisation

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache, bildhafte Erklärung der wissenschaftlichen Arbeit „The Affine Divergence" von George Bird, als würde man sie einem interessierten Laien beim Kaffee erzählen.

Das Grundproblem: Der falsche Weg zur Ziellinie

Stell dir vor, du bist ein Bergsteiger, der einen steilen Berg hinabsteigen will, um den tiefsten Punkt (den „Verlust" oder das Ziel) zu erreichen.

In der Welt des maschinellen Lernens gibt es zwei Arten von „Dingen", die sich bewegen:

Die Parameter (Gewichte und Bias): Das sind die festen Regeln des Bergsteigers, die er langsam anpasst.
Die Aktivierungen: Das sind die aktuellen Schritte, die der Bergsteiger tatsächlich macht, basierend auf dem Gelände (den Eingabedaten).

Das Problem:
Bisher hat man immer nur darauf geachtet, dass die Regeln (Parameter) perfekt angepasst werden, um den Berg hinabzukommen. Man dachte: „Wenn ich meine Regeln perfekt mache, dann landen meine Schritte automatisch am besten Ort."

Der Autor dieses Papiers sagt jedoch: „Moment mal! Das ist nicht ganz richtig."

Er hat entdeckt, dass es eine Lücke (Divergenz) gibt. Wenn man die Regeln (Parameter) perfekt nach der Mathematik anpasst, führt das nicht unbedingt zum perfekten Schritt für den Bergsteiger selbst (die Aktivierung). Es ist, als würde man die Kompassnadel perfekt justieren, aber der Weg, den man tatsächlich geht, führt trotzdem ein paar Meter daneben.

Warum passiert das? Weil die Regeln (Parameter) für alle Wanderer gleich sind, aber jeder Wanderer (jedes Datenbeispiel) ein anderes Gelände hat. Die mathematische Anpassung der Regeln ignoriert diese kleinen, individuellen Unterschiede im Gelände.

Die Lösung: Den Weg direkt korrigieren

Der Autor fragt sich: „Was wäre, wenn wir nicht nur die Regeln anpassen, sondern den Schritt selbst direkt so korrigieren, dass er perfekt ist?"

Dazu entwickelt er zwei neue Methoden, die wie eine Art „Auto-Korrektur" für jeden einzelnen Schritt funktionieren.

1. Die „Norm-ähnliche" Lösung (Der Sphären-Trick)

Stell dir vor, du zwingst jeden Wanderer, genau auf einer Kugeloberfläche zu laufen. Egal wie groß oder klein der Schritt war, du normalisierst ihn so, dass er immer genau 1 Meter lang ist.

Was passiert: Das funktioniert gut und ist ähnlich wie die bekannten Methoden (wie BatchNorm oder LayerNorm), die in KI-Modellen schon heute genutzt werden.
Der Clou: Der Autor zeigt, dass diese Methoden nicht nur „zufällig" funktionieren, sondern weil sie diese Lücke zwischen Regel-Anpassung und tatsächlichem Schritt schließen. Er beweist quasi, warum diese alten Methoden funktionieren, indem er sie aus der Mathematik ableitet.

2. Die „Affine-ähnliche" Lösung (Der Neue Star)

Das ist die wirklich spannende Entdeckung. Der Autor findet eine zweite Methode, die nicht wie eine Normierung aussieht. Sie verändert den Schritt nicht auf eine Kugel, sondern passt ihn geschmeidig an, wie ein weicher Gummiband-Effekt.

Das Besondere: Diese Methode ist nicht skaleninvariant (sie ändert sich, wenn die Schritte größer oder kleiner werden), was bisher als „wichtigste Eigenschaft" für gute KI galt.
Das Ergebnis: Überraschenderweise funktioniert diese neue Methode in Tests oft besser als die alten, bewährten Normierungen! Sie zeigt, dass wir uns vielleicht zu sehr auf die Idee der „Skaleninvarianz" verlassen haben und dass die eigentliche Magie darin liegt, die Lücke zwischen Regel und Schritt zu schließen.

Ein wichtiger Nebeneffekt: Die Gruppengröße

Ein weiterer verrückter Befund des Autors:
Normalerweise denkt man: „Je mehr Leute ich gleichzeitig durch den Berg führe (größere Batch-Größe), desto besser wird es, weil sich Fehler ausgleichen."

Bei seinen neuen Methoden ist es genau umgekehrt!

Die Analogie: Stell dir vor, du hast eine Gruppe von Wanderern. Wenn du die Gruppe vergrößerst, beginnen sie sich gegenseitig zu stören. Jeder versucht, seinen perfekten Schritt zu machen, aber durch die Masse der Gruppe wird der ideale Weg für den Einzelnen etwas verzerrt.
Die Erkenntnis: Bei diesen neuen Methoden führt eine kleinere Gruppe oft zu besseren Ergebnissen als eine riesige. Das ist kontraintuitiv, aber es bestätigt die Theorie des Autors: Es geht darum, den perfekten Schritt für das Individuum zu finden, nicht den Durchschnitt für die Masse.

Was bedeutet das für die Zukunft?

Der Autor schlägt vor, dass wir die Art und Weise, wie wir neuronale Netze bauen, neu denken sollten:

Aktivierungen sind wichtiger: Wir sollten nicht nur die Regeln anpassen, sondern sicherstellen, dass die Information, die durch das Netz fließt, immer den optimalen Weg nimmt.
Neue Werkzeuge: Es gibt neue, einfachere Wege, Netze zu bauen, die besser funktionieren als die alten Standards, weil sie dieses fundamentale mathematische Problem lösen.
Verständnis: Wir verstehen jetzt besser, warum Dinge wie „Normalisierung" funktionieren. Es ist kein Zaubertrick, sondern eine notwendige Korrektur für eine mathematische Unstimmigkeit.

Zusammenfassung in einem Satz

Der Autor hat entdeckt, dass KI-Modelle bisher einen kleinen, aber wichtigen Fehler machten: Sie passten die Regeln perfekt an, aber die eigentlichen Schritte (die Daten) landeten daneben; mit seinen neuen Methoden korrigiert er direkt die Schritte, was zu besseren Ergebnissen führt und uns zeigt, dass wir die alten Regeln für KI vielleicht neu überdenken müssen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papiers „The Affine Divergence: Aligning Activation Updates Beyond Normalisation" von George Bird, veröffentlicht im Rahmen des GRaM-Workshops bei ICLR 2026.

1. Problemstellung: Die „Affine Divergenz"

Das Papier identifiziert ein fundamentales, systematisches Missverhältnis zwischen dem mathematisch idealen und dem effektiven Update von Aktivierungen während des Gradientenabstiegs in neuronalen Netzen.

Der Kontext: Beim Training werden Parameter (Gewichte $W$ und Bias $b$ ) so aktualisiert, dass sie in Richtung des steilsten Abstiegs des Verlusts ( $L$ ) bezüglich dieser Parameter gehen. Aktivierungen ( $z$ ) hingegen sind Funktionen der Eingabe und können nicht direkt aktualisiert werden; sie ändern sich nur indirekt durch die Parameterupdates.
Das Problem: Die Autoren zeigen, dass der durch die Parameterupdates induzierte effektive Schritt für die Aktivierungen ( $\Delta z_{eff}$ ) nicht mit dem mathematisch idealen Schritt ( $\partial L / \partial z$ ) übereinstimmt.
Die mathematische Herleitung: Für eine affine Schicht $z = Wx + b$ ergibt sich der ideale Gradient $\partial L / \partial z = g$ . Der effektive Gradient, der durch die Propagierung der Parameterupdates ( $\Delta W = -\eta g x$ , $\Delta b = -\eta g$ ) entsteht, lautet jedoch:
$\Delta z_{eff} \approx -\eta g (\|x\|^2 + 1)$
Dieser Term $(\|x\|^2 + 1)$ führt zu einer stichprobenabhängigen quadratischen Verzerrung (Sample-wise quadratic bias). Große Eingabevektoren erhalten unverhältnismäßig große Updates, was die Richtung des steilsten Abstiegs in der Repräsentationsebene verzerrt. Dies wird als „Affine Divergenz" bezeichnet.

2. Methodik und Herleitung von Lösungen

Das Ziel ist es, die Struktur der Netzwerke so zu modifizieren, dass der effektive Update-Schritt der Aktivierungen mit dem idealen Gradienten übereinstimmt ( $\Delta z_{eff} = \partial L / \partial z$ ).

Die Autoren leiten zwei Hauptfamilien von strukturellen Korrekturen ab, die diese Divergenz analytisch aufheben:

Norm-ähnliche Lösung (Norm-like):
- Form: $z = W \frac{x}{\|x\|} + b$
- Dies entspricht einer klassischen $L_2$ -Normalisierung (ähnlich RMSNorm ohne Skalierungsfaktor). Sie projiziert die Eingabe auf eine Hypersphäre.
- Nachteil: Sie führt zu einem Informationsverlust, da der radiale Freiheitsgrad (die Magnitude der Aktivierung) unwiderruflich entfernt wird (Projektion auf eine Sphäre). Zudem weist sie Singularitäten bei $\|x\| \to 0$ auf.
Affine-ähnliche Lösung (Affine-like) – Die zentrale Innovation:
- Form: $z = \frac{Wx + b}{\sqrt{\|x\|^2 + 1}}$
- Diese Funktion skaliert den gesamten affinen Output durch den Term $\sqrt{\|x\|^2 + 1}$ .
- Vorteile:
  - Sie hebt die Divergenz exakt auf.
  - Sie ist nicht skaleninvariant (im Gegensatz zu klassischen Normalisierern).
  - Sie erhält alle Freiheitsgrade (Degrees of Freedom) der Darstellung, da sie keine Projektion auf eine Sphäre erzwingt, sondern eher wie eine nichtlineare, weiche Begrenzung wirkt.
  - Sie vermeidet Singularitäten bei kleinen Eingaben (der Nenner ist immer $\ge 1$ ).

Zusätzlich wird eine PatchNorm-Variante für Faltungsschichten (Convolutional Layers) vorgeschlagen, die die Divergenz auf Patch-Ebene korrigiert, wobei die Autoren diskutieren, dass die Annahmen hier komplexer sind als bei vollvernetzten Schichten.

3. Wichtige Beiträge und theoretische Einsichten

Neue Perspektive auf Normalisierung: Die Arbeit argumentiert, dass der Erfolg von Normalisierungstechniken (wie BatchNorm, LayerNorm) nicht primär auf statistischen Effekten (wie Reduktion des Internal Covariate Shift) oder Skaleninvarianz beruht, sondern darauf, dass sie (unabsichtlich) die affine Divergenz teilweise korrigieren. Die Normalisierung wird hier als eine Konsequenz der Notwendigkeit abgeleitet, Parameter- und Repräsentationsupdates in Einklang zu bringen.
Entkopplung von Normalisierung und Aktivierungsfunktion: Die Autoren schlagen vor, Normalisierer algebraisch in zwei Schritte zu zerlegen: eine parametrisierte Skalierung und eine nichtlineare Abbildung (die als Aktivierungsfunktion fungiert). Dies verwischt die traditionelle Grenze zwischen Normalisierung und Aktivierungsfunktion.
Hypothese zur Batch-Größe: Basierend auf der Theorie der Divergenz wird eine kontraintuitive Vorhersage getroffen: Da die Korrekturen pro Stichprobe optimiert sind, aber über den Batch gemittelt werden, sollte eine Vergrößerung der Batch-Größe die Leistung der strukturellen Korrekturen verschlechtern (aufgrund von Interferenzen zwischen den Stichproben). Dies steht im Gegensatz zu klassischen Normalisierern, die oft von größeren Batches profitieren.

4. Ergebnisse und Experimente

Die Autoren testen ihre Methoden an vollvernetzten und convolutionalen Netzen auf dem CIFAR-10-Datensatz.

Leistung: Die affine-ähnliche Korrektur übertrifft in den meisten Szenarien (insbesondere bei tieferen und breiteren Netzen mit Tanh- und Leaky-ReLU-Aktivierungen) konventionelle Normalisierer wie BatchNorm, LayerNorm, RMSNorm und reine $L_2$ -Norm.
Robustheit: Die affine-ähnliche Lösung funktioniert auch ohne explizite nichtlineare Aktivierungsfunktionen gut, da die Korrektur selbst nichtlinear wirkt.
Validierung der Batch-Größen-Hypothese: Die Experimente bestätigen die Vorhersage: Bei den strukturellen Korrekturen (Norm-like und Affine-like) korreliert eine größere Batch-Größe negativ mit der Genauigkeit. Bei klassischen Normalisierern (BatchNorm) oder ohne Normalisierung ist dieser Effekt nicht vorhanden oder sogar positiv. Dies dient als starke empirische Bestätigung für die Existenz der Divergenz als mechanistische Ursache.
Faltung (PatchNorm): Bei Faltungsnetzen zeigt die PatchNorm-Variante gute Ergebnisse, ist aber weniger dominant als bei vollvernetzten Netzen. Die Autoren führen dies auf die komplexen, nichtlinearen Abhängigkeiten zwischen Patches zurück, die die einfache Single-Sample-Approximation stören.

5. Bedeutung und Fazit

Das Papier bietet einen theoretisch fundierten, mechanistischen Rahmen für das Verständnis von Normalisierung, der über die bisherigen statistischen Erklärungen hinausgeht.

Paradigmenwechsel: Es stellt die Priorität der Parameter-Updates in Frage und argumentiert, dass die Ausrichtung der Aktivierungs-Updates (Repräsentationen) wichtiger für die Optimierung ist.
Neue Architekturen: Die vorgestellte „Affine-like"-Funktion ist eine neue, leistungsfähige Alternative zu bestehenden Normalisierern, die keine Skaleninvarianz benötigt und mehr Information bewahrt.
Zukunftsaussichten: Die Arbeit regt dazu an, Normalisierer nicht als statische Bausteine, sondern als dynamische Korrekturen für die geometrische Ausrichtung von Gradienten zu betrachten. Sie wirft auch Fragen zur Rolle von Optimierern (wie Adam) und deren Skalierungseffekten im Kontext dieser Divergenz auf.

Zusammenfassend demonstriert das Paper, dass die „Affine Divergenz" ein bisher übersehenes fundamentales Problem ist, dessen Lösung nicht nur zu neuen, überlegenen Normalisierungsmethoden führt, sondern auch das Verständnis dafür vertieft, warum bestehende Methoden funktionieren.

The Affine Divergence: Aligning Activation Updates Beyond Normalisation

Das Grundproblem: Der falsche Weg zur Ziellinie

Die Lösung: Den Weg direkt korrigieren

1. Die „Norm-ähnliche" Lösung (Der Sphären-Trick)

2. Die „Affine-ähnliche" Lösung (Der Neue Star)

Ein wichtiger Nebeneffekt: Die Gruppengröße

Was bedeutet das für die Zukunft?

Zusammenfassung in einem Satz

1. Problemstellung: Die „Affine Divergenz"

2. Methodik und Herleitung von Lösungen

3. Wichtige Beiträge und theoretische Einsichten

4. Ergebnisse und Experimente

5. Bedeutung und Fazit

Mehr davon

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models