Early-Warning Signals of Grokking via Loss-Landscape Geometry

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie unterrichten einen sehr intelligenten, aber etwas verwirrten Schüler in Mathe.

Zuerst lernt der Schüler die Aufgaben auswendig. Er kann jede einzelne der 50 Übungsaufgaben perfekt lösen. Wenn Sie ihn aber fragen, ob er das Prinzip verstanden hat, um neue Aufgaben zu lösen, schüttelt er nur den Kopf. Er hat auswendig gelernt (Memorization), aber noch nicht verstanden (Generalization).

Das Phänomen, das in diesem Papier untersucht wird, nennt man „Grokking" (ein Begriff aus der Science-Fiction, der „plötzliches tiefes Verstehen" bedeutet). Es passiert etwas Magisches: Nach Tausenden von weiteren Trainingsstunden, in denen der Schüler scheinbar nichts Neues lernt, schnappt es plötzlich. Plötzlich versteht er das Prinzip und kann jede neue Aufgabe lösen.

Die große Frage war bisher: Können wir diesen „Aha-Moment" vorhersehen? Können wir sehen, dass das Verständnis kurz bevorsteht, noch bevor der Schüler die ersten neuen Aufgaben richtig löst?

Die Antwort des Papiers ist ein lautes JA. Und sie haben eine Art „Frühwarnsystem" dafür gefunden.

Die Hauptfigur: Der „Kommutator-Defekt"

Stellen Sie sich das Lernen des neuronalen Netzwerks wie einen Wanderer vor, der einen Berg erklimmt.

Der Pfad: Der Wanderer bewegt sich auf einem sehr schmalen, flachen Grat (dem „Ausführungs-Mannigfaltigkeit"). Er läuft hier schon lange hin und her.
Die Kurven: Normalerweise ist der Boden unter seinen Füßen flach. Aber kurz bevor er den Gipfel des Verständnisses erreicht, wird der Boden unter ihm krumm und unruhig.

Das Papier misst diese „Krummheit" mit einer cleveren Methode, die sie Kommutator-Defekt nennen.

Einfache Analogie: Stellen Sie sich vor, Sie gehen einen Schritt nach Norden und dann einen nach Osten. Dann gehen Sie einen Schritt nach Osten und dann nach Norden. Auf einer flachen Wiese landen Sie am selben Ort. Auf einem krummen Berg (wie der Erde) landen Sie an zwei leicht unterschiedlichen Stellen.
Die Entdeckung: Kurz bevor das Netzwerk „Grokkt" (versteht), passiert genau das: Die Reihenfolge, in der es lernt, macht plötzlich einen riesigen Unterschied. Der Wanderer merkt, dass der Boden unter ihm sich verdreht.

Die große Überraschung: Es funktioniert überall!

Frühere Studien zeigten, dass dieses „Krummwerden" bei einfachen Rechenaufgaben (Modulare Arithmetik) passiert. Die Forscher wollten wissen: Gilt das auch für komplexere Dinge?

Sie testeten es an zwei völlig verschiedenen Aufgaben:

SCAN: Ein System, das englische Sätze („springe zweimal") in Befehle übersetzt.
Dyck: Ein System, das zählt, wie tief Klammern ineinander verschachtelt sind (wie bei einer Programmiersprache).

Das Ergebnis: Egal ob Rechenaufgaben, Sprache oder Klammern – das Signal war immer dasselbe!
Der „Kommutator-Defekt" (die Unruhe unter den Füßen) steigt lange bevor das Netzwerk die neuen Aufgaben löst.

Der Zeitplan: Ein super-schneller Frühwarnsystem

Das Papier hat eine erstaunliche Regel gefunden:
Je langsamer das Netzwerk lernt (kleinere Lernrate), desto früher kommt die Warnung.

Die Analogie: Wenn Sie sehr langsam einen Berg erklimmen, merken Sie, dass der Boden wackelt, schon wenn Sie noch am Fuß des Berges stehen.
Die Zahlen: Bei sehr langsamen Lernraten gab das System eine Warnung aus, während das Netzwerk noch in den ersten 3–5 % des Trainings war. Das bedeutet, Sie haben 95–97 % der Trainingszeit als Vorwarnzeit, um zu wissen: „Achtung, gleich kommt das große Verständnis!"

Warum ist das wichtig?

Kein Blindflug mehr: Bisher mussten Trainer warten, bis das Netzwerk plötzlich „klickte". Jetzt können sie das Signal sehen und wissen: „Es wird noch dauern, aber es wird funktionieren."
Es ist universell: Es funktioniert bei verschiedenen Netzwerk-Architekturen (nur Encoder, nur Decoder, oder beides). Es ist also ein fundamentales Gesetz des maschinellen Lernens, keine Zufallsentdeckung.
Ursache und Wirkung: Die Forscher haben experimentell bewiesen, dass dieses „Wackeln" (der Defekt) nicht nur ein Anzeichen ist, sondern notwendig für das Verstehen. Wenn sie das Wackeln unterdrückten, lernte das Netzwerk nie. Wenn sie es künstlich verstärkten, lernte es schneller.

Zusammenfassung in einem Satz

Dieses Papier zeigt, dass man das „plötzliche Verstehen" einer KI vorhersagen kann, indem man misst, wie sehr die Reihenfolge der Lernschritte das Ergebnis beeinflusst – ein Signal, das wie ein Erdbeben kurz vor dem Ausbruch des Wissens auftritt, und das bei fast jeder Art von Aufgabe funktioniert.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Hintergrund

Das Phänomen „Grokking" beschreibt den abrupten Übergang neuronaler Netze von reiner Memorierung (Auswendiglernen) zu Generalisierung nach einer langen Trainingsphase, oft lange nachdem die Trainingsgenauigkeit bereits perfekt ist. Bisherige Arbeiten (z. B. Power et al., 2022) zeigten dies bei modularen Arithmetikaufgaben. Ein zentrales offenes Problem war jedoch, ob die zugrundeliegenden geometrischen Mechanismen universell sind oder nur auf diese spezifischen numerischen Aufgaben beschränkt bleiben.

Standard-Metriken wie Trainingsverlust oder Genauigkeit bieten keine Vorwarnung: Ein Modell kann perfekte Trainingsgenauigkeit bei schlechter Testgenauigkeit haben und entweder kurz vor dem „Grokking" stehen oder nie generalisieren.

Die vorliegende Arbeit untersucht, ob die in früheren Arbeiten [Xu, 2026b] identifizierten geometrischen Indikatoren – insbesondere die Krümmungsdynamik und der Kommutator-Defekt (Commutator Defect) – auch auf strukturell völlig andere Aufgaben anwendbar sind.

2. Methodik

Die Studie erweitert die Analyse auf zwei neue, strukturell unterschiedliche Sequenzlern-Aufgaben:

SCAN: Ein Benchmark für kompositionelle Generalisierung (Übersetzung von Sprachbefehlen in Aktionssequenzen), trainiert mit einem Encoder-Decoder-Transformer.
Dyck-1: Eine formale Sprachaufgabe zur Vorhersage der Stapeltiefe (Klammerausdrücke), trainiert mit einem Causal (Decoder-only) Transformer auf extrem wenigen Daten (50 Beispiele).

Diese Aufgaben unterscheiden sich von modularen Arithmetikaufgaben in Architektur, Eingabedomain, Ausgabetyp und Datensatzgröße.

Schlüsselmethoden:

Kommutator-Defekt ( $D$ ): Ein Maß für die Nicht-Kommutativität aufeinanderfolgender Gradienten-Updates. Er quantifiziert die lokale Krümmung des Loss-Landschafts. Wenn die Reihenfolge der Gradientenschritte (Batch A dann B vs. B dann A) zu unterschiedlichen Parametern führt, ist $D > 0$ .
PCA-Analyse (Hauptkomponentenanalyse): Untersuchung der Gewichtsraum-Trajektorien, um die Konzentration auf niedrigdimensionale „Execution Manifolds" zu messen (PC1-Varianz).
Integrabilitäts-Zerlegung: Eine Drei-Basis-Analyse (Weight SVD, $\Delta W$ SVD, Gradient SVD), um zu bestimmen, ob die Nicht-Kommutativität strukturiert innerhalb des Lern-Subraums auftritt.
Kausale Interventionen: Gezielte Störungen des Trainingsprozesses, um die Kausalität zu testen:
- Boosting: Verstärkung des Defekts (Erhöhung der Nicht-Kommutativität).
- Suppression: Unterdrückung des orthogonalen Gradientenflusses (Verhinderung der Krümmungsexploration).
Spektrale Geometrie: Analyse der Singulärwerte und des Matrix-Kommutators der Attention-Matrizen ( $W_Q, W_K$ ).

3. Wichtige Beiträge und Ergebnisse

A. Universalität des Defekt-Einsatzes (Defect Onset)

Der Kommutator-Defekt steigt zuverlässig vor dem Generalisierungsübergang an, unabhängig von der Aufgabe oder der Lernrate.

SCAN: 11 von 11 Grokking-Läufen zeigten einen positiven Vorlaufzeitraum.
Dyck: 14 von 14 Läufen zeigten einen positiven Vorlaufzeitraum.
Dies widerlegt die Annahme, dass dies nur ein Artefakt modularer Arithmetik sei.

B. Superlineare Skalierung (Power Law)

Die Vorlaufzeit ( $\Delta t$ ) zwischen Defekt-Einsatz und Grokking folgt einem Potenzgesetz mit dem Exponenten $\alpha > 1$ :
$\Delta t \propto t_{\text{grok}}^\alpha$

SCAN: $\alpha \approx 1.18$ ( $R^2 = 0.990$ ).
Dyck: $\alpha \approx 1.13$ ( $R^2 = 0.908$ ).
Modulare Arithmetik (Vorgängerarbeit): $\alpha \approx 1.27$ .
Bedeutung: Da $\alpha > 1$ , wächst das Vorwarnfenster superlinear mit der Trainingsdauer. Bei langsamen Lernraten (z. B. $\eta = 10^{-5}$ ) tritt der Defekt bereits in den ersten 3–5 % des Trainings auf, was ein Vorwarnfenster von 90–97 % der Trainingszeit bietet.

C. Dissociation der PC1-Konzentration

Ein überraschender Befund ist, dass das Verhalten der ersten Hauptkomponente (PC1) nicht universell ist:

Bei Dyck und modularer Arithmetik nimmt die PC1-Konzentration vor dem Grokking ab (De-Konzentration).
Bei SCAN nimmt die PC1-Konzentration nach dem Grokking weiter zu.
Fazit: Die spektrale Konzentration ist kein universeller Vorläufer. Der Kommutator-Defekt ist ein robusteres Signal als die reine Spektralanalyse.

D. Kausale Evidenz durch Interventionen

Die Experimente bestätigen eine kausale Rolle der Krümmungsdynamik:

Notwendigkeit: Die Unterdrückung des orthogonalen Gradientenflusses (Suppression) verzögert oder verhindert Grokking bei allen drei Aufgabenfamilien.
Ausreichendheit (Suffizienz): Hier zeigt sich ein Spektrum der Empfindlichkeit:
- Modulare Arithmetik: Boosting hat keinen Effekt (rigide Lösung).
- SCAN: Mildes Boosting beschleunigt, aggressives Boosting destabilisiert das Encoder-Decoder-System.
- Dyck: Sowohl mildes als auch aggressives Boosting beschleunigen das Grokking (hoch responsiv).

E. Spektrale Geometrie der Attention-Matrizen

Die Analyse der Attention-Gewichte ( $W_Q, W_K$ ) zeigt eine klare zeitliche Abfolge:

SGD-Defekt-Spike: Der Loss-Landscape wird geometrisch nicht-trivial.
Matrix-Kommutator-Peak: Die Matrizen $W_Q$ und $W_K$ erreichen einen Punkt maximaler Nicht-Kommutativität.
Grokking: Generalisierung tritt ein.
Spektrale Kompression: Erst danach öffnen sich die spektralen Lücken ( $\sigma_1 \gg \sigma_2$ ) und die Matrizen werden gleichzeitig diagonalisierbar.
Dies korrigiert frühere Annahmen, dass spektrale Kompression eine Voraussetzung für Grokking sei; sie ist vielmehr eine Folge der Generalisierung.

4. Signifikanz und Implikationen

Universeller Frühwarnindikator: Der Kommutator-Defekt etabliert sich als robuster, architekturunabhängiger und kausal begründeter Frühwarnindikator für das bevorstehende Grokking in Transformer-Modellen.
Praktische Anwendbarkeit: Da der Defekt bei langsamen Lernraten extrem früh (innerhalb der ersten 3–5 % des Trainings) auftritt, können Praktiker erkennen, ob ein Modell noch im Memorierungsstadium steckt und bald generalisieren wird, ohne wochenlanges Warten auf die Testgenauigkeit.
Geometrisches Verständnis: Die Arbeit bestätigt das Bild, dass Grokking ein Prozess ist, bei dem das Modell lange in einem niedrigdimensionalen Subraum (Execution Manifold) gefangen ist, während sich Krümmungsbarrieren in transversalen Richtungen aufbauen, bis die Trajektorie in die generalisierende Lösung entweicht.
Kausale Hierarchie: Die Ergebnisse zeigen, dass die Notwendigkeit transversaler Krümmungsdynamik universell ist, während die Empfindlichkeit gegenüber deren Verstärkung von der Komplexität der Lösung und der Architektur abhängt.

Zusammenfassend erweitert diese Arbeit das geometrische Verständnis von Grokking über modulare Arithmetik hinaus und liefert ein praktisches Werkzeug zur Überwachung und Steuerung des Trainingsverlaufs komplexer neuronaler Netze.