Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Each language version is independently generated for its own context, not a direct translation.

Das Rätsel des „Grokking": Warum KI plötzlich „Aha!" sagt

Stell dir vor, du unterrichtest einen sehr fleißigen, aber etwas verwirrten Schüler in Mathe. Du gibst ihm eine Aufgabe: „Was ist 3 plus 4 modulo 5?" (Das ist eine Art mathematisches Zählen im Kreis, wie auf einer Uhr).

Die Phase des Auswendiglernens: Dein Schüler lernt die ersten 100 Aufgaben auswendig. Er kann sie perfekt beantworten, wenn du sie ihm abfragst. Aber wenn du eine neue Aufgabe stellst, die er noch nie gesehen hat, ist er völlig ratlos. Er hat die Muster nicht verstanden, er hat sie nur auswendig gelernt (im Fachjargon: Memorization).
Die Phase der Stagnation: Du gibst ihm noch mehr Aufgaben. Er bleibt bei den alten Aufgaben perfekt, aber bei den neuen ist er immer noch schlecht. Es scheint, als würde er nicht weiterkommen.
Der „Grokking"-Moment: Plötzlich, nach langer Zeit des Übens, passiert etwas Magisches. Seine Leistung bei den neuen Aufgaben schießt schlagartig nach oben. Er hat die Regel verstanden (im Fachjargon: Generalization). Er hat den „Aha!"-Moment erlebt. Dieses Phänomen nennen Forscher Grokking.

Die große Frage war: Warum passiert das so plötzlich? Und warum dauert es so lange?

Die neue Brille: Singular Learning Theory (SLT)

Die Autoren dieses Papiers haben eine neue Art, auf dieses Problem zu schauen, entwickelt. Sie nutzen eine Theorie namens Singular Learning Theory (SLT).

Stell dir den Lernprozess wie das Suchen nach dem tiefsten Punkt in einer riesigen, verschneiten Berglandschaft vor.

Der Berg: Das ist die „Fehlerlandschaft". Je tiefer du bist, desto besser ist dein Ergebnis.
Die Täler: Es gibt viele Täler, die fast genauso tief sind wie der tiefste Punkt.

Früher dachte man, der Lernalgorithmus (der Schüler) würde einfach in das erste tiefe Tal springen, das er findet. Aber das Problem ist: Es gibt zwei Arten von Tälern:

Das steile, enge Tal (Das Auswendig-Lern-Tal): Stell dir eine schmale Schlucht vor. Wenn du dort stehst, passt du perfekt hinein. Aber wenn sich der Boden auch nur ein winziges Stück bewegt (eine neue Aufgabe), fällst du sofort wieder raus. Das ist gut für das Auswendiglernen, aber schlecht für das Verstehen.
Das flache, weite Tal (Das Verstehen-Tal): Stell dir eine riesige, flache Ebene vor. Hier kannst du herumlaufen, ohne zu stolpern. Selbst wenn sich der Boden ein wenig verändert, bleibst du sicher stehen. Das ist das Tal der allgemeinen Regeln.

Das Geheimnis: Der „Komplexitäts-Messer" (LLC)

Die Forscher haben ein Werkzeug erfunden, das sie Local Learning Coefficient (LLC) nennen. Nennen wir es den „Flachheits-Messer".

Dieser Messer sagt dir, wie „breit" oder „flach" ein Tal ist.
Ein niedriger Wert bedeutet: Das Tal ist riesig und flach (gut für das Verstehen).
Ein hoher Wert bedeutet: Das Tal ist eng und steil (gut für das Auswendiglernen, aber riskant).

Was passiert beim Grokking?
Am Anfang landet der Schüler im steilen Tal (Auswendiglernen). Er fühlt sich sicher, weil der Fehler sehr klein ist. Aber er ist in einer Falle.
Dann, nach langer Zeit, beginnt der Lernprozess (durch Zufall und viele Versuche) langsam, sich aus dem steilen Tal herauszubewegen. Er wandert über einen kleinen Hügel in das flache Tal (Verstehen).
Sobald er im flachen Tal ist, sieht er plötzlich, dass er viel robuster ist. Er kann neue Aufgaben lösen!

Was die Autoren entdeckt haben

Diese Forscher haben sich nicht nur auf echte KI-Modelle verlassen, sondern ein vereinfachtes mathematisches Modell (ein „quadratisches Netzwerk") gebaut, bei dem sie die Mathematik exakt berechnen konnten.

Sie haben die Formel für die Täler gefunden: Sie haben bewiesen, dass man genau berechnen kann, wie „flach" oder „steil" ein Tal ist, basierend auf der Struktur des Modells.
Sie haben den Übergang gemessen: Sie haben gesehen, wie sich der „Flachheits-Messer" (LLC) während des Trainings verändert.
- Zuerst ist der Wert hoch (steiles Tal = Auswendiglernen).
- Dann fällt der Wert plötzlich ab (flaches Tal = Verstehen).
- Das Wichtige: Dieser Abfall des Messers passiert genau zur gleichen Zeit, wie die Leistung bei den neuen Aufgaben besser wird. Man kann also den „Aha!"-Moment vorhersagen, indem man nur auf die Trainingsdaten schaut!

Was bedeutet das für uns?

Stell dir vor, du bist ein Trainer. Früher musstest du warten und hoffen, dass dein Schüler plötzlich „klick" macht.
Mit dieser neuen Erkenntnis kannst du einen Kompass benutzen (den LLC-Messer).

Wenn der Kompass anzeigt, dass dein Schüler in einem „steilen Tal" steckt, weißt du: „Okay, er lernt gerade nur auswendig. Wir müssen noch etwas warten oder die Trainingsmethode ändern."
Wenn der Kompass anzeigt, dass er in ein „flaches Tal" wandert, weißt du: „Super, er hat die Regel verstanden!"

Zusammenfassend:
Das Papier erklärt, dass „Grokking" kein Zufall ist. Es ist ein Wechsel zwischen zwei verschiedenen Arten von Lösungen. Die KI lernt zuerst, die Aufgaben auswendig (in einem engen, steilen Tal), und wandert dann, fast wie von selbst, in ein breites, flaches Tal, in dem sie die Regeln wirklich versteht. Die Autoren haben nun einen mathematischen „Flachheits-Messer" entwickelt, der uns genau zeigt, wann dieser Wechsel stattfindet.

Das ist ein großer Schritt, um zu verstehen, wie künstliche Intelligenz wirklich lernt und wann sie wirklich „klug" wird.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung: Das Phänomen des „Grokking"

Das Paper untersucht das Phänomen des Grokking (ein Begriff, der von Power et al., 2022 geprägt wurde). Dabei handelt es sich um ein Trainingsphänomen in neuronalen Netzen, bei dem das Modell zwar frühzeitig einen nahezu nullen Trainingsfehler (Memorisierung) erreicht, aber über einen langen Zeitraum eine schlechte Generalisierung aufweist. Erst nach weiterem Training erfolgt ein plötzlicher, abrupter Sprung in der Testleistung.

Dieses Verhalten deutet darauf hin, dass im Verlustlandschafts-Modell (Loss Landscape) mehrere Lösungsbecken (Basins) mit nahezu null Verlust koexistieren, die jedoch stark unterschiedliche Generalisierungseigenschaften aufweisen. Die zentrale Forschungsfrage lautet: Wenn mehrere Becken die Trainingsdaten perfekt anpassen, was bestimmt, welches Becken statistisch bevorzugt wird und zu einer besseren Generalisierung führt?

2. Methodik: Singular Learning Theory (SLT)

Die Autoren wenden die Singular Learning Theory (SLT) an, einen bayesschen Rahmen, der speziell für singuläre Modelle (wie tiefe neuronale Netze) entwickelt wurde, bei denen die Fisher-Information singulär ist und die Parameter nicht eindeutig identifizierbar sind.

Lokaler Lernkoeffizient (LLC): Der Kern der Methode ist der lokale Lernkoeffizient $\lambda$ $λ$ (auch bekannt als Real Log Canonical Threshold, RLCT). Dieser quantifiziert die lokale Entartung (Degeneracy) der Verlustoberfläche in der Nähe eines Minimums.
- Ein kleinerer $\lambda$ -Wert entspricht einem „flacheren" Becken mit höherem Volumen an Parametern, die den gleichen Verlust erzeugen.
- In der SLT ist $\lambda$ der führende logarithmische Term in der Expansion der negativen marginalen Log-Likelihood. Becken mit niedrigerem $\lambda$ erhalten asymptotisch mehr Posterior-Masse.
- Die erwartete Bayes'sche Generalisierungsfehler ist proportional zu $\lambda$ . Daher generalisieren Becken mit niedrigerem $\lambda$ besser.
Bayessche Phasenübergänge: Das Paper interpretiert Grokking als einen Phasenübergang erster Ordnung. Während des Trainings wandert die Posterior-Masse von einem Becken mit höherem $\lambda$ (Memorisierung, schlechte Generalisierung) zu einem Becken mit niedrigerem $\lambda$ (Generalisierung). Dieser Übergang wird durch die wachsende Stichprobengröße $n$ getrieben.
Modellarchitektur: Um analytische Lösungen zu erhalten, untersuchen die Autoren quadratische Netzwerke (2-Schichten, quadratische Aktivierung $\sigma(x)=x^2$ ), die auf der Aufgabe der modularen Addition trainiert werden. Dies ermöglicht die Herleitung geschlossener Formeln für den LLC, was bei komplexeren Architekturen (wie tiefen Transformern) oft nicht möglich ist.

3. Hauptbeiträge

Die Arbeit leistet zwei wesentliche Beiträge:

Herleitung geschlossener Formeln für den LLC:
Die Autoren leiten exakte analytische Ausdrücke für den LLC in quadratischen Netzwerken ab, die auf modularen Additionsaufgaben trainiert werden.
- Überparametrisierter Fall ( $K \ge d(d+1)/2$ ): Der LLC ist $\lambda = p \cdot \frac{d(d+1)}{4}$ .
- Unterparametrisierter Fall ( $K < d(d+1)/2$ ): Der LLC ist $\lambda = K \cdot \frac{d+p-1}{2}$ .
- Diese Formeln zeigen, wie die effektive Dimension des Parameterraums von der Netzwerkbreite $K$ und der Problemgröße $p$ (Primzahl für die Modulo-Operation) abhängt.
Empirische Validierung und Interpretation:
- Die Autoren zeigen, dass LLC-Trajektorien während des Trainings den Übergang von der Memorisierung zur Generalisierung zuverlässig verfolgen.
- Sie demonstrieren, wie Hyperparameter (wie die Lernrate) die Schwere des Grokking beeinflussen, indem sie den Pfad durch die Verlustlandschaft steuern.

4. Ergebnisse

Theoretische Skalierungsgesetze: Die experimentellen Ergebnisse bestätigen die theoretisch vorhergesagten linearen Beziehungen zwischen der Netzwerkgröße (Versteckte Dimension $K$ ), der Problemgröße ( $p$ ) und dem finalen LLC-Wert.
LLC als Indikator für Generalisierung: Obwohl der LLC nur aus Trainingsdaten berechnet wird, korreliert seine Entwicklung stark mit dem Validierungsfehler. Während des Trainings steigt der LLC zunächst an (Memorisierung in einem flachen, aber hochkomplexen Becken) und fällt dann abrupt ab, sobald das Netzwerk eine strukturierte, generalisierende Lösung findet (Übergang in ein Becken mit niedrigerem $\lambda$ ).
Einfluss der Lernrate: Es wurde ein negativer Zusammenhang zwischen der Lernrate und der „Schwere" des Grokking (GSM - Grokking Severity Measure) gefunden.
- Hohe Lernraten: Führen zu einem Optimierungsverlauf, der scharfe Täler vermeidet und direkt in Becken mit hoher Entartung (niedriger LLC, gute Generalisierung) gelangt. Dies reduziert die Verzögerung beim Grokking.
- Niedrige Lernraten: Das Modell bleibt länger in einem „lazy"-Regime (ähnlich dem Neural Tangent Kernel, NTK), das eine hohe effektive Komplexität aufweist, bevor es in das generalisierende Regime übergeht.
Mechanismus des Übergangs: Der Übergang wird als Wechsel von einem „lazy"-Regime (wo nur die oberste Schicht $V$ angepasst wird und die Repräsentation $W$ fixiert ist) zu einem „Feature-Learning"-Regime (wo $W$ sich anpasst, um task-spezifische Merkmale zu lernen) interpretiert. Im Feature-Learning-Regime sinkt der effektive LLC, da nur eine Teilmenge der Neuronen aktiv ist und die Lösung strukturiert ist.

5. Bedeutung und Fazit

Dieses Paper bietet einen rigorosen theoretischen Rahmen, um das oft rätselhafte Grokking-Phänomen zu verstehen.

Theoretische Klarheit: Es verbindet die intuitive Idee, dass „flache Minima" besser generalisieren, mit der mathematischen Strenge der Singular Learning Theory. Es zeigt, dass Grokking kein Artefakt der Optimierung ist, sondern ein statistischer Phasenübergang zwischen konkurrierenden Lösungsräumen unterschiedlicher geometrischer Komplexität.
Neue Metrik: Der lokale Lernkoeffizient (LLC) wird als robustes Werkzeug etabliert, um die Dynamik des Trainings zu überwachen und den Zeitpunkt der Generalisierung vorherzusagen, ohne auf Testdaten angewiesen zu sein.
Implikationen für das Training: Die Ergebnisse legen nahe, dass Hyperparameter wie die Lernrate nicht nur die Konvergenzgeschwindigkeit, sondern die geometrische Route durch den Parameterraum bestimmen. Eine höhere Lernrate kann helfen, das Modell schneller aus dem „Memorierungs-Becken" in das „Generalisierungs-Becken" zu katapultieren.

Zusammenfassend demonstriert die Arbeit, dass SLT ein mächtiges Werkzeug ist, um die implizite Regularisierung und die Generalisierungsfähigkeit überparametrisierter Modelle zu erklären, und liefert die ersten geschlossenen analytischen Lösungen für den LLC in einem relevanten neuronalen Netzwerk-Setting.

Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Das Rätsel des „Grokking": Warum KI plötzlich „Aha!" sagt

Die neue Brille: Singular Learning Theory (SLT)

Das Geheimnis: Der „Komplexitäts-Messer" (LLC)

Was die Autoren entdeckt haben

Was bedeutet das für uns?

1. Problemstellung: Das Phänomen des „Grokking"

2. Methodik: Singular Learning Theory (SLT)

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Horseshoe Priors and MDP

Observable Geometry of Singular Statistical Models

Conditional Independence under Infinite Measures and Poisson Point Processes

Sharp Debiasing for Smooth Functional Estimation in Banach Spaces

Opponent-Adjusted Evaluation of NFL Pass Blocking and Pass Rushing Performance