Grokking as a Phase Transition between Competing Basins: a Singular Learning Theory Approach

Diese Arbeit interpretiert das Phänomen des „Grokking" als Phasenübergang zwischen konkurrierenden Lösungsbecken mittels der Singular Learning Theory, wobei sie geschlossene Ausdrücke für den lokalen Lernkoeffizienten in quadratischen Netzwerken herleitet und empirisch nachweist, dass dieser Koeffizient ein zuverlässiges Werkzeug zur Verfolgung der Generalisierungsdynamik darstellt.

Ben Cullen, Sergio Estan-Ruiz, Riya Danait, Jiayi Li

Veröffentlicht 2026-03-04
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Rätsel des „Grokking": Warum KI plötzlich „Aha!" sagt

Stell dir vor, du unterrichtest einen sehr fleißigen, aber etwas verwirrten Schüler in Mathe. Du gibst ihm eine Aufgabe: „Was ist 3 plus 4 modulo 5?" (Das ist eine Art mathematisches Zählen im Kreis, wie auf einer Uhr).

  1. Die Phase des Auswendiglernens: Dein Schüler lernt die ersten 100 Aufgaben auswendig. Er kann sie perfekt beantworten, wenn du sie ihm abfragst. Aber wenn du eine neue Aufgabe stellst, die er noch nie gesehen hat, ist er völlig ratlos. Er hat die Muster nicht verstanden, er hat sie nur auswendig gelernt (im Fachjargon: Memorization).
  2. Die Phase der Stagnation: Du gibst ihm noch mehr Aufgaben. Er bleibt bei den alten Aufgaben perfekt, aber bei den neuen ist er immer noch schlecht. Es scheint, als würde er nicht weiterkommen.
  3. Der „Grokking"-Moment: Plötzlich, nach langer Zeit des Übens, passiert etwas Magisches. Seine Leistung bei den neuen Aufgaben schießt schlagartig nach oben. Er hat die Regel verstanden (im Fachjargon: Generalization). Er hat den „Aha!"-Moment erlebt. Dieses Phänomen nennen Forscher Grokking.

Die große Frage war: Warum passiert das so plötzlich? Und warum dauert es so lange?

Die neue Brille: Singular Learning Theory (SLT)

Die Autoren dieses Papiers haben eine neue Art, auf dieses Problem zu schauen, entwickelt. Sie nutzen eine Theorie namens Singular Learning Theory (SLT).

Stell dir den Lernprozess wie das Suchen nach dem tiefsten Punkt in einer riesigen, verschneiten Berglandschaft vor.

  • Der Berg: Das ist die „Fehlerlandschaft". Je tiefer du bist, desto besser ist dein Ergebnis.
  • Die Täler: Es gibt viele Täler, die fast genauso tief sind wie der tiefste Punkt.

Früher dachte man, der Lernalgorithmus (der Schüler) würde einfach in das erste tiefe Tal springen, das er findet. Aber das Problem ist: Es gibt zwei Arten von Tälern:

  1. Das steile, enge Tal (Das Auswendig-Lern-Tal): Stell dir eine schmale Schlucht vor. Wenn du dort stehst, passt du perfekt hinein. Aber wenn sich der Boden auch nur ein winziges Stück bewegt (eine neue Aufgabe), fällst du sofort wieder raus. Das ist gut für das Auswendiglernen, aber schlecht für das Verstehen.
  2. Das flache, weite Tal (Das Verstehen-Tal): Stell dir eine riesige, flache Ebene vor. Hier kannst du herumlaufen, ohne zu stolpern. Selbst wenn sich der Boden ein wenig verändert, bleibst du sicher stehen. Das ist das Tal der allgemeinen Regeln.

Das Geheimnis: Der „Komplexitäts-Messer" (LLC)

Die Forscher haben ein Werkzeug erfunden, das sie Local Learning Coefficient (LLC) nennen. Nennen wir es den „Flachheits-Messer".

  • Dieser Messer sagt dir, wie „breit" oder „flach" ein Tal ist.
  • Ein niedriger Wert bedeutet: Das Tal ist riesig und flach (gut für das Verstehen).
  • Ein hoher Wert bedeutet: Das Tal ist eng und steil (gut für das Auswendiglernen, aber riskant).

Was passiert beim Grokking?
Am Anfang landet der Schüler im steilen Tal (Auswendiglernen). Er fühlt sich sicher, weil der Fehler sehr klein ist. Aber er ist in einer Falle.
Dann, nach langer Zeit, beginnt der Lernprozess (durch Zufall und viele Versuche) langsam, sich aus dem steilen Tal herauszubewegen. Er wandert über einen kleinen Hügel in das flache Tal (Verstehen).
Sobald er im flachen Tal ist, sieht er plötzlich, dass er viel robuster ist. Er kann neue Aufgaben lösen!

Was die Autoren entdeckt haben

Diese Forscher haben sich nicht nur auf echte KI-Modelle verlassen, sondern ein vereinfachtes mathematisches Modell (ein „quadratisches Netzwerk") gebaut, bei dem sie die Mathematik exakt berechnen konnten.

  1. Sie haben die Formel für die Täler gefunden: Sie haben bewiesen, dass man genau berechnen kann, wie „flach" oder „steil" ein Tal ist, basierend auf der Struktur des Modells.
  2. Sie haben den Übergang gemessen: Sie haben gesehen, wie sich der „Flachheits-Messer" (LLC) während des Trainings verändert.
    • Zuerst ist der Wert hoch (steiles Tal = Auswendiglernen).
    • Dann fällt der Wert plötzlich ab (flaches Tal = Verstehen).
    • Das Wichtige: Dieser Abfall des Messers passiert genau zur gleichen Zeit, wie die Leistung bei den neuen Aufgaben besser wird. Man kann also den „Aha!"-Moment vorhersagen, indem man nur auf die Trainingsdaten schaut!

Was bedeutet das für uns?

Stell dir vor, du bist ein Trainer. Früher musstest du warten und hoffen, dass dein Schüler plötzlich „klick" macht.
Mit dieser neuen Erkenntnis kannst du einen Kompass benutzen (den LLC-Messer).

  • Wenn der Kompass anzeigt, dass dein Schüler in einem „steilen Tal" steckt, weißt du: „Okay, er lernt gerade nur auswendig. Wir müssen noch etwas warten oder die Trainingsmethode ändern."
  • Wenn der Kompass anzeigt, dass er in ein „flaches Tal" wandert, weißt du: „Super, er hat die Regel verstanden!"

Zusammenfassend:
Das Papier erklärt, dass „Grokking" kein Zufall ist. Es ist ein Wechsel zwischen zwei verschiedenen Arten von Lösungen. Die KI lernt zuerst, die Aufgaben auswendig (in einem engen, steilen Tal), und wandert dann, fast wie von selbst, in ein breites, flaches Tal, in dem sie die Regeln wirklich versteht. Die Autoren haben nun einen mathematischen „Flachheits-Messer" entwickelt, der uns genau zeigt, wann dieser Wechsel stattfindet.

Das ist ein großer Schritt, um zu verstehen, wie künstliche Intelligenz wirklich lernt und wann sie wirklich „klug" wird.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →