Low-Dimensional and Transversely Curved Optimization Dynamics in Grokking

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du lernst ein schwieriges Gedicht auswendig. Zuerst musst du jeden einzelnen Wortlaut perfekt memorieren. Du kannst es im Schlaf aufsagen, aber wenn du es jemandem erklären sollst, der eine andere Frage stellt, scheiterst du. Du hast es nur auswendig gelernt, nicht verstanden.

Dann passiert das „Grokken" (ein Begriff aus dem Englischen, der so viel bedeutet wie „plötzlich begreifen"): Nach langer Zeit, in der du nur das Gedächtnis trainiert hast, passiert plötzlich ein Wunder. Ohne dass du etwas Neues gelernt hast, verstehst du das Prinzip dahinter. Plötzlich kannst du das Gedicht auf jede beliebige Frage anwenden.

Dieses Papier erklärt genau, was in den „Gehirnen" (den neuronalen Netzen) während dieser Wartezeit und des plötzlichen Durchbruchs physikalisch passiert. Hier ist die Erklärung in einfachen Worten:

1. Der einsame Pfad im Wald (Der „Ausführungs-Mannigfaltigkeit")

Stell dir den Trainingsraum eines neuronalen Netzes als einen riesigen, undurchdringlichen Wald vor, der aus Milliarden von Wegen besteht. Normalerweise läuft ein Computer-Algorithmus wild durch diesen Wald und probiert alles aus.

Das Papier zeigt aber: Wenn das Netz „grokt", läuft es nicht mehr wild herum. Es findet einen einzelnen, schmalen Pfad (eine Art Autobahn), auf dem es sich fast ausschließlich bewegt.

Die Analogie: Stell dir vor, du fährst mit einem Auto durch einen riesigen Wald. Plötzlich findest du eine einzige, perfekt ausgetretene Schneise. Du bleibst die ganze Zeit auf dieser einen Spur. Das ist der „Ausführungs-Mannigfaltigkeit". Das Netz hat gelernt, dass es für diese Aufgabe nur diesen einen Weg braucht.

2. Die unsichtbare Wand (Die „Krümmung")

Während das Netz auf diesem schmalen Pfad entlangfährt, passiert etwas Seltsames. Der Wald um den Pfad herum wird immer steiler und steiler. Es bilden sich hohe, unsichtbare Wände aus Dornen und Felsen (diese nennt man im Papier „Krümmung").

Das Wichtige: Das Netz bleibt trotzdem auf dem Pfad. Die Wände drängen es nicht davon ab. Es ist, als würde das Netz eine unsichtbare Kraft spüren, die es genau auf der Spur hält, während der Rest des Waldes immer gefährlicher wird.
Die Metapher: Stell dir vor, du läufst auf einem schmalen Seil. Links und rechts von dir stürzen tiefe Abgründe ab (die hohe Krümmung). Aber du läufst sicher weiter, weil du dich auf das Seil konzentrierst. Die Gefahr (die Krümmung) wächst, aber sie berührt dich nicht direkt.

3. Der Countdown zum Durchbruch

Das Spannendste an diesem Papier ist die Vorhersagekraft. Die Forscher haben entdeckt, dass diese „Wände" (die Krümmung) bevor das Netz das Gedicht versteht, extrem hoch werden.

Die Analogie: Es ist wie bei einem Vulkan. Der Boden beginnt zu zittern und die Hitze steigt (die Krümmung wächst), lange bevor der Vulkan ausbricht. Wenn du merkst, dass die Hitze unter dem Boden extrem wird, weißt du: „In Kürze passiert etwas Großes."
Die Erkenntnis: Das Netz „bereitet" sich auf das Verständnis vor, indem es gegen diese unsichtbaren Wände drückt. Sobald der Druck zu groß wird, bricht es durch die Wand und findet den Weg zum Verständnis (Generalisierung).

4. Warum passiert das nicht immer? (Der Unterschied zwischen Lernen und Verstehen)

Manchmal wird der Druck unter dem Boden auch hoch, aber der Vulkan bricht nicht aus. Das Netz bleibt stecken.

Der Unterschied: Damit der Durchbruch (das „Grokken") passiert, braucht es zwei Dinge:
1. Den hohen Druck (die Krümmung).
2. Einen leichten „Schub" in die richtige Richtung (im Papier „Gewichtsabnahme" genannt).
  Ohne diesen zweiten Schub bleibt das Netz zwar unter Druck, findet aber keinen Weg nach draußen. Es bleibt beim Auswendiglernen stecken.

5. Der geheime Mechanismus (Die „Schlüssel")

Am Ende des Papers wird erklärt, warum das Netz plötzlich den richtigen Weg findet. Es liegt an einer Art „Schlüssel", der sich im Inneren des Netzes dreht.

Die Analogie: Stell dir vor, das Netz hat zwei Schlüssel, die fast gleich groß sind. Solange sie fast gleich groß sind, wackeln sie hin und her, und das System ist instabil (das ist die Phase, in der die Krümmung wächst). Plötzlich entscheidet sich das System: „Dieser eine Schlüssel ist der Richtige!" Der andere wird ignoriert. In diesem Moment, wenn sich die Schlüssel stabilisieren, „klickt" es im Gehirn des Computers, und es versteht die Aufgabe.

Zusammenfassung für den Alltag

Dieses Papier sagt uns:
Wenn ein KI-Modell lange Zeit nur auswendig lernt und dann plötzlich alles versteht, ist das kein Zufall.

Es läuft auf einem sehr schmalen, sicheren Pfad.
Um diesen Pfad herum baut sich enormer Druck auf.
Dieser Druck ist ein Warnsignal: „Bald passiert etwas!"
Wenn der Druck hoch genug ist und das Netz die richtige Richtung wählt, bricht es durch die Barriere und versteht die Welt dahinter.

Es ist also wie das Warten auf einen Frühlingstauwetter: Der Schnee (das Auswendiglernen) liegt noch da, aber unter der Oberfläche baut sich schon die Wärme (die Krümmung) auf, die den Durchbruch zum grünen Gras (dem Verständnis) vorbereitet.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Phänomen des „Grokking" beschreibt den abrupten Beginn der Generalisierung in neuronalen Netzen lange nach dem Auswendiglernen (Memorization) des Trainingsdatensatzes. Während Modelle zunächst eine perfekte Trainingsgenauigkeit erreichen, generalisieren sie oft erst nach Tausenden weiteren Trainingsschritten plötzlich auf Testdaten.

Bisherige Erklärungsansätze konzentrierten sich auf Repräsentationslernen, implizite Regularisierung durch Weight Decay oder die Bildung von „Circuits". Ein fundamentales geometrisches Verständnis fehlte jedoch:

Liegt die Trajektorie im Gewichtsraum während des Grokking auf einer niedrigdimensionalen Mannigfaltigkeit?
Ist diese Mannigfaltigkeit unter den Optimierungsdynamiken invariant (d.h. lenkt die Krümmung der Loss-Landschaft die Trajektorie aus dem gelernten Unterraum heraus)?
Kann die Geometrie der Loss-Landschaft den Zeitpunkt der Generalisierung vorhersagen?

2. Methodik

Die Autoren untersuchen Transformer-Modelle, die auf modularen Arithmetik-Aufgaben (Modulo 97) trainiert werden. Die Methodik kombiniert geometrische Analysen mit kausalen Interventionen:

PCA-Eigenanalyse: Die Trajektorien der Attention-Gewichte ( $W_Q, W_K, W_V, W_O$ ) werden über den Trainingsverlauf aufgezeichnet. Eine Hauptkomponentenanalyse (PCA) bestimmt die intrinsische Dimensionalität des gelernten Unterraums („Execution Manifold").
Kommutator-Defekt-Analyse (Commutator Defect): Um die lokale Krümmung der Loss-Landschaft zu messen, wird die Nicht-Kommutativität aufeinanderfolgender Gradientenschritte quantifiziert. Für zwei Mini-Batches $A$ und $B$ wird die Differenz zwischen den Parametern nach der Reihenfolge $A \to B$ und $B \to A$ berechnet:
$D = \frac{\|\theta_{AB} - \theta_{BA}\|}{\|\eta g_A\| \cdot \|\eta g_B\|}$
Ein hoher Defekt deutet auf starke Krümmung (Nicht-Flachheit) hin.
Projektion auf den Unterraum: Die Kommutator-Vektoren werden auf die PCA-Basis des Execution Manifold projiziert. Dies misst, ob die Krümmung innerhalb des Unterraums liegt oder transversal (orthogonal) dazu.
Kausale Interventionen:
- Unterdrückung: Gradienten werden auf den PCA-Unterraum projiziert, um Bewegung in orthogonalen Richtungen zu verhindern.
- Erzwungung: Künstliche „Kicks" in Richtung des Kommutators werden injiziert, um zu testen, ob Krümmung allein Grokking auslöst.
Spektrale Analyse: Untersuchung der Singulärwerte der Attention-Matrizen, um Symmetriebrechungs-Ereignisse zu identifizieren.

3. Wichtige Beiträge und Ergebnisse

A. Geometrische Struktur: Der „Execution Manifold"

Rang-1-Struktur: Während des Grokking liegt die Gewichts-Trajektorie auf einem eindimensionalen Unterraum (Rank-1-Manifold). Die erste Hauptkomponente (PC1) erklärt 68–83 % der Varianz der Gewichtsänderungen.
Empirische Invarianz: Dieser Unterraum ist unter den Optimierungsdynamiken invariant. Die Kommutator-Vektoren (die die Krümmung repräsentieren) sind fast vollständig orthogonal zum Execution Manifold ( $\rho \approx 1.0$ ). Das bedeutet: Die enorme Krümmung der Loss-Landschaft lenkt die Trajektorie nicht aus dem gelernten Unterraum heraus; sie wirkt ausschließlich in den transversalen Richtungen (Normalenbündel).

B. Transversale Krümmungsexplosion und zeitliche Vorhersage

Krümmungswachstum: Bei grokkenden Operationen explodiert die Krümmung im orthogonalen Bündel um das 10- bis 1000-fache im Vergleich zu nicht-grokkenden Kontrollen.
Vorhersagekraft: Der Anstieg des Kommutator-Defekts beginnt konsistent 600–1600 Trainingsschritte vor dem eigentlichen Generalisierungssprung (definiert als Erreichen von 90 % Testgenauigkeit).
Notwendig, aber nicht hinreichend: Auch nicht-grokkende Operationen zeigen ein moderates Krümmungswachstum (30–50-fach), generalisieren aber nicht. Der Defekt-Anstieg ist also eine notwendige Bedingung (Signal für eine Umstrukturierung der Loss-Landschaft), aber nicht allein hinreichend für Generalisierung.
Skalierungsgesetz: Die Vorlaufzeit ( $\Delta t$ ) bis zur Generalisierung folgt einem Potenzgesetz zur Grokking-Zeitskala: $\Delta t \propto t_{grok}^{\alpha}$ mit $\alpha \approx 1.27$ . Bei niedrigen Lernraten (z.B. $\eta = 3 \times 10^{-5}$ ) bietet der Defekt-Anstieg eine Vorwarnzeit von 95 % der gesamten Trainingsdauer.

C. Kausale Mechanismen

Notwendigkeit: Die Unterdrückung der Bewegung in orthogonalen Richtungen (durch Projektion der Gradienten auf den PCA-Unterraum) verhindert Generalisierung vollständig. Grokking erfordert also Zugang zu spezifischen, erlernten Richtungen im Gewichtsraum.
Keine hinreichende Bedingung: Das künstliche Erhöhen der Krümmung (durch „Kicks" in Kommutator-Richtung) beschleunigt Grokking nicht. Die reine Ansammlung von Krümmung reicht nicht aus; eine koordinierte Bewegung entlang des Execution Manifold ist erforderlich.

D. Spektraler Mechanismus

Die Analyse der Singulärwerte der Attention-Matrizen ( $W_Q, W_K$ ) offenbart den zugrundeliegenden Mechanismus:

Near-Degeneracy: Vor dem Grokking werden die beiden führenden Singulärwerte fast entartet ( $\sigma_1 \approx \sigma_2$ ). Dies führt zu einer Instabilität der Repräsentationsbasis.
Symmetriebrechung: Kurz vor der Generalisierung bricht diese Symmetrie, ein Modus dominiert ( $\sigma_1 \gg \sigma_2$ ), und die Operatoren alignieren sich in eine gemeinsame Eigenbasis.
Dieser Übergang korreliert direkt mit dem Anstieg des Kommutator-Defekts und dem anschließenden Grokking.

E. Robustheit und Phasendiagramm

Die Ergebnisse gelten über verschiedene Lernraten, Weight-Decay-Einstellungen und Hyperparameter-Regime hinweg. Das Paper identifiziert drei dynamische Regime basierend auf der Lernrate:

Überdämpft (niedrige LR): Lange Ansammlung von Krümmung, langsame Trajektorie.
Unterdämpft (hohe LR): Schnelle Übergänge, geringere Krümmungsakkumulation.
Kritisch gedämpft: Intermediäres Verhalten.

4. Bedeutung und Implikationen

Neues Verständnis von Grokking: Grokking wird nicht als verzögertes Lernen, sondern als Flucht aus einem metastabilen Regime interpretiert. Das System ist in einem niedrigdimensionalen Unterraum gefangen, während sich transversale Barrieren (Krümmung) aufbauen, bis eine Symmetriebrechung den Ausbruch ermöglicht.
Diagnostisches Werkzeug: Der Kommutator-Defekt dient als Frühwarnsystem für die Reorganisation der Loss-Landschaft, lange bevor sich dies in der Genauigkeit zeigt.
Verbindung zur Interpretierbarkeit: Die Bildung des Execution Manifold korrespondiert mit der Stabilisierung interpretierbarer „Circuits". Die geometrische Reorganisation markiert den Übergang von verteilten Repräsentationen zu strukturierten, schaltkreisartigen Organisationen.
Robustheit: Post-Grokking-Lösungen zeigen eine reduzierte Krümmungs-Anisotropie entlang der Optimierungspfade, was ihre Robustheit gegenüber Störungen und Kompression erklärt.

Zusammenfassend liefert das Paper eine umfassende geometrische und kausale Erklärung für Grokking, die auf der Interaktion zwischen niedrigdimensionalen Untermannigfaltigkeiten, transversaler Krümmung und spektraler Symmetriebrechung basiert.