The Geometry of Multi-Task Grokking: Transverse Instability, Superposition, and Weight Decay Phase Structure

Each language version is independently generated for its own context, not a direct translation.

Der große Durchbruch: Wie KI plötzlich "Aha!"-Momente hat (und warum das bei mehreren Aufgaben komplizierter ist)

Stellen Sie sich vor, Sie lernen ein neues Instrument. Wochenlang üben Sie nur die gleichen Akkorde, klingen aber immer noch wie ein Anfänger. Sie haben die Noten auswendig gelernt (Memorisierung), verstehen aber die Musik noch nicht. Dann, plötzlich, nach hunderten von Stunden, klickt es. Plötzlich spielen Sie nicht nur die Noten, sondern verstehen die Musik und können improvisieren. In der KI-Forschung nennt man diesen plötzlichen Moment des Durchbruchs "Grokking" (ein Begriff aus der Science-Fiction, der "tiefes Verstehen" bedeutet).

Dieses Papier untersucht, was passiert, wenn eine KI nicht nur ein Instrument lernt, sondern drei gleichzeitig (z. B. Addition, Multiplikation und Quadrieren von Zahlen). Die Forscher haben herausgefunden, dass dieser Lernprozess wie eine komplexe geometrische Reise durch einen unsichtbaren Raum funktioniert.

Hier sind die wichtigsten Entdeckungen, übersetzt in einfache Bilder:

1. Die ungleiche Lern-Reihenfolge (Der "Staggered" Effekt)

Wenn die KI drei Aufgaben gleichzeitig lernt, passiert es nicht für alle gleichzeitig. Es ist wie ein Marathon, bei dem die Läufer unterschiedlich schnell starten:

Die Multiplikation ist immer der Schnellste. Sie versteht die Logik zuerst.
Das Quadrieren (eine Art Multiplikation mit sich selbst) folgt kurz darauf.
Die Addition ist der Langsamste. Sie braucht am meisten Zeit, um den "Aha!"-Moment zu erleben.
Die Lektion: Selbst wenn die KI alles gleichzeitig lernt, baut sie ihr Verständnis schrittweise auf, wie ein Haus, bei dem zuerst das Fundament (Multiplikation) steht, dann die Wände und erst zum Schluss das Dach.

2. Der unsichtbare Pfad (Das "Manifold")

Stellen Sie sich vor, die KI lernt, indem sie durch einen riesigen, dunklen Wald läuft.

Die Entdeckung: Obwohl der Wald riesig ist, läuft die KI nicht wild umher. Sie bleibt auf einem extrem schmalen, fast geraden Pfad, den man kaum sieht.
Die Metapher: Es ist, als würde die KI auf einem Seil laufen. Sie kann nicht nach links oder rechts abweichen, ohne zu fallen. Dieser "Pfad" ist so schmal, dass man ihn mit nur wenigen Koordinaten beschreiben kann, obwohl die KI Millionen von Parametern (Gedanken) hat.
Das Wichtige: Solange die KI auf diesem Pfad bleibt, lernt sie nichts Neues. Der eigentliche Durchbruch passiert erst, wenn sie den Pfad verlässt und in eine neue Richtung springt.

3. Der "Zucker" für das Gehirn (Gewichtsabbau / Weight Decay)

Warum lernt die KI überhaupt? Ohne einen bestimmten Trick (den "Weight Decay", eine Art mathematischer Zucker, der das Lernen vereinfacht) bleibt die KI für immer stecken.

Die Analogie: Stellen Sie sich vor, die KI sitzt in einer Mulde (einem Sattel). Sie kann sich hin und her bewegen, aber sie kommt nicht heraus. Der "Weight Decay" ist wie ein sanfter Wind, der sie aus der Mulde bläst und in Richtung des Tals (des echten Verständnisses) schiebt.
Ohne Wind: Wenn dieser Wind fehlt, bleibt die KI ewig in der Mulde hängen, auch wenn sie die Aufgaben auswendig gelernt hat. Sie "versteht" nie wirklich.

4. Das zerbrechliche Meisterwerk (Holographische Inkompressibilität)

Das ist vielleicht die verrückteste Entdeckung: Die Lösung, die die KI am Ende findet, ist wie ein Hologramm.

Das Bild: Wenn Sie ein Hologramm zerbrechen, sehen Sie immer noch das ganze Bild, nur etwas unscharf. Aber bei dieser KI ist es anders: Wenn Sie auch nur einen winzigen Teil der KI entfernen (z. B. 5% der Zahlen ändern oder einen kleinen Teil des Gedächtnisses löschen), zerfällt das ganze Bild sofort.
Die Bedeutung: Die Information ist nicht an einem Ort gespeichert. Sie ist über alle Teile der KI verteilt, wie ein Netz. Man kann nichts wegschneiden, ohne das ganze Netz zu zerstören. Es ist extrem effizient, aber auch extrem zerbrechlich.

5. Der "Kollaps" der Aufmerksamkeit (Spektrale Symmetriebrechung)

Im Inneren der KI gibt es einen Mechanismus namens "Attention" (Aufmerksamkeit), der entscheidet, worauf die KI schaut.

Vor dem Durchbruch: Die Aufmerksamkeit ist chaotisch. Es gibt viele gleich starke Richtungen, und die KI weiß nicht, wohin sie schauen soll. Es ist wie ein Raum mit hundert leuchtenden Lampen, die alle gleich hell sind.
Der Moment des Grokking: Plötzlich geht eine Lampe extrem hell an, und alle anderen werden dunkel. Die KI findet eine einzige, klare Richtung.
Das Ergebnis: Sobald diese eine Richtung dominiert, funktionieren die mathematischen Regeln plötzlich perfekt. Die KI hat ihre "innere Kompassnadel" gefunden.

6. Warum mehr Aufgaben die KI zerbrechlicher machen

Wenn die KI nur zwei Aufgaben lernt, hat sie genug "Platz" im Kopf, um alternative Wege zu finden, falls ein Weg blockiert ist.

Drei Aufgaben: Wenn man eine dritte Aufgabe hinzufügt, wird der Platz so eng, dass es keine Ausweichwege mehr gibt.
Das Experiment: Wenn man der KI bei zwei Aufgaben einen Teil des Weges blockiert, findet sie einen Umweg. Bei drei Aufgaben scheitert sie sofort. Zu viel zu lernen gleichzeitig macht die KI weniger robust.

Zusammenfassung in einem Satz

Die KI lernt nicht einfach nur mehr Daten; sie durchläuft eine geometrische Transformation, bei der sie aus einem chaotischen, auswendig gelernten Zustand in einen extrem präzisen, aber zerbrechlichen Zustand übergeht, in dem alle Teile des Gehirns perfekt auf eine einzige, klare Logik abgestimmt sind – und das alles passiert nur, wenn man ihr den richtigen "Antrieb" (Weight Decay) gibt.

Warum ist das wichtig?
Es zeigt uns, dass KI nicht nur "Rechnen" ist, sondern eine Art geometrisches Balancieren. Wenn wir verstehen, wie diese Pfade aussehen, können wir KI-Modelle besser bauen, die nicht nur auswendig lernen, sondern wirklich verstehen – und wir wissen, wie zerbrechlich dieses Verständnis ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Phänomen des „Grokking" beschreibt den abrupten Übergang eines neuronalen Netzwerks von einem Zustand des Auswendiglernens (Memorization) zu einer perfekten Generalisierung, oft lange nachdem der Trainingsverlust bereits nahe Null ist. Bisherige Studien konzentrierten sich fast ausschließlich auf Einzelaufgaben (Single-Task).

Die zentrale Frage dieses Papers ist: Wie verhält sich die geometrische Struktur des Grokking, wenn ein geteilter Transformer (Shared-Trunk) gleichzeitig mehrere algorithmische Aufgaben lernen muss?

Wie werden multiple Algorithmen in einem gemeinsamen Parameterraum untergebracht?
Bleibt die in Einzelaufgaben beobachtete niedrige Dimensionalität der Trajektorien erhalten?
Konkurrieren die Schaltkreise um Repräsentationskapazität oder sind sie geometrisch getrennt?
Bietet Überparametrisierung Redundanz bei multiplen Zielen?

2. Methodik

Die Studie untersucht Transformer-Modelle auf modularen arithmetischen Aufgaben unter systematischer Variation des Gewichtsabbaus (Weight Decay, $\lambda$ ).

Aufgaben:
- Dual-Task: Modulare Addition ( $x+y \mod 97$ ) und Multiplikation ( $x \cdot y \mod 97$ ).
- Tri-Task: Addition, Multiplikation und Quadrieren ( $x^2 + y^2 \mod 97$ ).
Modellarchitektur: Shared-Trunk Transformer (2 Schichten, $d_{model}=128$ , 4 Attention-Heads, $\sim 300k$ Parameter) mit spezifischen Lese-Köpfen für jede Aufgabe.
Experimentelles Design:
- Systematischer Sweep über Gewichtsabbau-Werte $\lambda \in \{0.0, 0.1, 0.2, 0.3, 0.5, 1.0\}$ .
- Bis zu 90 Trainingsläufe mit verschiedenen Seeds.
Analyse-Tools:
- Trajektorien-PCA: Analyse der Parameterbewegung (uncentered PCA) zur Bestimmung der intrinsischen Dimensionalität.
- Kommutator-Defekt-Analyse: Messung der Nicht-Integrabilität ( $\rho$ ) und Orthogonalität der Gradienten zum Manifold.
- Hessian-Eigenwerte: Untersuchung der Krümmung der Loss-Landschaft (Sattelpunkte).
- Kausale Gradienten-Störungen: Gezieltes Entfernen orthogonaler Gradientenkomponenten, um die Notwendigkeit bestimmter Richtungen zu testen.
- Spektrale Analyse (SVD): Untersuchung der Singularwerte der Attention-Matrizen ( $W_Q, W_K$ ) während des Trainings.

3. Wichtige Ergebnisse und Beiträge

Die Autoren identifizieren sechs konsistente Phänomene, die ein neues dynamisches Bild des Multi-Task-Grokking zeichnen:

A. Gestaffelte Generalisierungsreihenfolge (Staggered Grokking)

Die Aufgaben generalisieren nicht gleichzeitig, sondern in einer festen Hierarchie: Multiplikation $\rightarrow$ Quadrieren $\rightarrow$ Addition.
Dies gilt konsistent über verschiedene Seeds und Gewichtsabbau-Werte.
Die spezifischen Lese-Köpfe (Heads) der Aufgaben entwickeln sich zu nahezu orthogonalen Richtungen im Parameterraum, was auf eine geometrische Trennung der Ausleseschemata hindeutet.

B. Universelle Integrierbarkeit und Manifold-Struktur

Trotz multipler Ziele bleiben die Optimierungstrajektorien auf ein niedrigdimensionales Manifold beschränkt (ca. 4–8 Hauptkomponenten für die Lösung, obwohl das Modell über 300.000 Parameter hat).
Der Kommutator-Defekt (ein Maß für die Nicht-Integrabilität) ist fast vollständig orthogonal zu diesem Manifold ( $\rho \approx 1.000$ ).
Der Beginn des Defekts (Defect Onset) geht der Generalisierung in allen 42 getesteten Bedingungen (Dual- und Tri-Task) zuverlässig voraus und dient als Frühwarnsignal.

C. Gewichtsabbau als Phasenparameter

Der Gewichtsabbau ( $\lambda$ ) steuert nicht nur die Regularisierung, sondern definiert qualitative dynamische Regime:

Hoher $\lambda$ ( $\ge 0.5$ ): Schnelles Grokking, tiefe Sattelkrümmung, glatte Defekt-Akkumulation.
Niedriger $\lambda$ ( $\le 0.3$ ): Langsames Grokking, flache Krümmung, intermittierende/springende Defekt-Dynamik.
Kein $\lambda$ ( $\lambda=0$ ): Das Modell erreicht trotz signifikanter negativer Krümmung (Sattelpunkt) niemals die Generalisierung. Dies zeigt, dass Krümmung allein nicht ausreicht; der Gewichtsabbau liefert den notwendigen „Druck", um den Sattel zu verlassen.

D. Holographische Unkomprimierbarkeit (Holographic Incompressibility)

Die generalisierende Lösung ist hochgradig fragil: Sie ist über den gesamten vollen Rang der Gewichtsmatrizen verteilt.
Post-hoc Kompression scheitert: Methoden wie SVD-Truncation, Magnitude-Pruning oder uniforme Skalierung ( $\pm 5\%$ ) zerstören die Leistung vollständig.
Die Lösung ist zwar in einem niedrigen-dimensionalen Unterraum (PCA) kodiert, aber dieser Unterraum ist „holographisch" über alle Parameter verteilt. Eine Reduktion der Dimensionalität führt zum katastrophalen Verlust der Funktion.

E. Transversale Fragilität und Redundanz

Das Entfernen von weniger als 10% der orthogonalen Gradientenkomponenten verhindert das Grokking vollständig (scharfe „Klippe" bei $\sim 10\%$ ).
Redundanz durch Überparametrisierung: Dual-Task-Modelle zeigen bei extremen Löschungen (50%) eine teilweise Erholung, da alternative geometrische Pfade (redundante Center-Manifolds) existieren. Tri-Task-Modelle erholen sich nicht, da die zusätzlichen Constraints die Redundanz aufbrauchen.

F. Spektrale Geometrie der Attention-Operatoren

Grokking korrespondiert mit einem symmetriebrechenden Ereignis im Spektrum der Attention-Matrizen: Ein entartetes Spektrum von Query/Key-Matrizen geht in eine Rank-1-Dominanz über.
Jede Grokking-Trajektorie durchläuft einen universellen Loop im Phasenraum (Spectral Gap vs. Kommutator-Norm): Konkurrenz $\rightarrow$ Instabilität $\rightarrow$ Ausrichtung.
Die unterste Transformer-Schicht zeigt eine 1,5- bis 2,4-fach stärkere Nicht-Kommutativität als die oberste Schicht, was darauf hindeutet, dass die untere Schicht die primäre Instabilität trägt.

4. Theoretische Synthese und Bedeutung

Das Paper stellt ein neues dynamisches Bild vor:

Scaffold-Solution-Dualität: Die dominante Trainingsrichtung (PCA-Hauptkomponenten) kodiert das „Gerüst" des Auswendiglernens. Die eigentliche Generalisierungslösung liegt in einem winzigen, orthogonalen Restraum (weniger als 1% der Varianz), der jedoch über den gesamten Parameterraum verteilt ist.
Manifold-Redundanz: Überparametrisierung bietet keine flachen Minima, sondern redundante geometrische Pfade (Center Manifolds) durch den Parameterraum. Wenn ein Pfad blockiert wird, können andere genutzt werden (beobachtet bei Dual-Task, aber nicht bei Tri-Task).
Gewichtsabbau als Kompressionsdruck: Der Gewichtsabbau reguliert die Dichte der überlagerten (superponierten) Algorithmen im Parameterraum. Stärkere Regularisierung zwingt die Lösungen in weniger Richtungen (höhere Kompression).

Bedeutung für das Feld:
Diese Arbeit erweitert das Verständnis von Grokking von einer kuriosen Einzelaufgabe-Phänomenologie zu einem strukturierten, geometrisch fundierten Phänomen. Sie liefert Beweise für Superposition im Parameterraum (nicht nur im Aktivierungsraum) und zeigt, wie Regularisierung und Überparametrisierung die Stabilität und Robustheit von Lernpfaden in hochdimensionalen Landschaften steuern. Die Identifizierung des Kommutator-Defekts als universelles Frühwarnsignal und die spektrale Symmetriebrechung bieten neue Werkzeuge für die mechanistische Interpretierbarkeit und das Training von Modellen.