The Long Delay to Arithmetic Generalization: When Learned Representations Outrun Behavior

Each language version is independently generated for its own context, not a direct translation.

Das Geheimnis des „Grokking": Wenn das Gehirn lernt, aber der Mund schweigt

Stellen Sie sich vor, Sie unterrichten einen Schüler in Mathe. Sie geben ihm eine Aufgabe: „Was passiert, wenn man eine gerade Zahl durch 2 teilt oder eine ungerade Zahl mit 3 multipliziert und 1 addiert?" (Das ist die sogenannte Collatz-Aufgabe, ein mathematisches Rätsel).

Nach monatelangem Üben passiert etwas Seltsames:

Der Schüler kann die Aufgabe im Kopf perfekt lösen. Er versteht die Logik, die Muster und die Regeln.
Aber wenn Sie ihn bitten, die Antwort laut vorzulesen, stottert er. Er sagt immer noch Unsinn oder rät einfach.
Plötzlich, nach Wochen des scheinbaren Stillstands, klickt es. Er kann die Antworten plötzlich fließend und korrekt vorlesen.

Dieses Phänomen nennt man in der KI-Forschung „Grokking" (etwa: „Durchdringen" oder „Plötzliches Verstehen"). Die Forscher aus diesem Papier haben herausgefunden, warum diese lange Wartezeit passiert.

Die zwei Hälften des Roboters: Der Denker und der Sprecher

Der verwendete KI-Modell-Typ besteht aus zwei Teilen:

Der Encoder (Der Denker): Er liest die Zahl, versteht sie und baut ein internes Bild davon auf.
Der Decoder (Der Sprecher): Er nimmt dieses Bild und verwandelt es in die richtige Zahlenfolge (die Antwort).

Die große Entdeckung:
Die Forscher haben festgestellt, dass der Denker die Aufgabe schon nach wenigen Minuten (in der Trainingszeit) verstanden hat. Er hat die Muster längst gelernt. Aber der Sprecher war noch nicht in der Lage, diese Informationen zu nutzen.

Es ist, als hätte der Denker eine perfekte Landkarte im Kopf, aber der Sprecher trug immer noch eine Augenbinde und stolperte im Dunkeln. Die lange Wartezeit vor dem „Grokking" war also keine Zeit des Lernens, sondern eine Zeit des Wartens, bis der Sprecher endlich die Brille aufsetzen konnte.

Der Beweis: Der Organ-Transplant

Um das zu beweisen, haben die Forscher ein Experiment wie in einem Sci-Fi-Film gemacht:

Sie nahmen einen erfahrenden Denker (der die Aufgabe schon perfekt verstand) und steckten ihn in einen frischen, jungen Körper (einen noch nicht trainierten Sprecher).
Ergebnis: Der neue Sprecher lernte die Aufgabe sofort! Er brauchte nur ein Viertel der Zeit, um perfekt zu werden.
Im Umkehrschluss: Wenn sie einen erfahrenen Sprecher in einen frischen Denker steckten, half das gar nichts. Der Sprecher war verwirrt, weil der Denker noch nichts wusste.

Fazit: Das Problem lag nicht darin, dass die KI die Mathematik nicht lernte. Das Problem war, dass sie nicht wusste, wie sie das Gelernte in eine Antwort umwandeln sollte.

Das Problem mit der Sprache: Warum die Zahlbasis wichtig ist

Ein weiterer spannender Teil der Studie dreht sich darum, wie die Zahlen geschrieben werden. Wir schreiben Zahlen im Dezimalsystem (Basis 10). Die KI kann aber auch im Binärsystem (Basis 2, nur 0 und 1) oder im Oktalsystem (Basis 8) rechnen.

Die Forscher haben herausgefunden, dass die Wahl der „Sprache" (der Zahlbasis) entscheidet, wie schwer es für den Sprecher ist:

Basis 8 oder 24: Hier passt die „Grammatik" der Zahlen perfekt zur Logik der Aufgabe. Der Sprecher kann die Antwort leicht ableiten. Die KI wird extrem gut (fast 100% richtig).
Basis 2 (Binär): Hier kollabiert alles. Die Zahlen sind so lang und die Regeln so unübersichtlich, dass der Sprecher völlig verwirrt ist. Die KI lernt zwar kurz etwas auswendig, bricht dann aber komplett zusammen und kann nie wieder lernen.

Man kann sich das wie das Lernen einer Fremdsprache vorstellen:

Bei Basis 24 ist die Grammatik der Aufgabe so einfach, dass man sie fast intuitiv spricht.
Bei Basis 2 ist die Grammatik so kompliziert, dass man sich die Zunge verwickelt, egal wie gut man die Regeln im Kopf hat.

Was bedeutet das für uns?

Diese Studie zeigt uns etwas Wichtiges über künstliche Intelligenz (und vielleicht auch über uns Menschen):

Verstehen kommt vor Können: Ein System kann das Prinzip einer Aufgabe schon längst verstanden haben, bevor es in der Lage ist, es fehlerfrei anzuwenden.
Der Flaschenhals ist oft die Ausgabe: Manchmal ist das Problem nicht, dass wir nicht genug wissen, sondern dass wir nicht wissen, wie wir unser Wissen „herausholen" oder ausdrücken sollen.
Die Darstellung ist entscheidend: Wie wir Informationen präsentieren (z. B. wie wir Zahlen schreiben), bestimmt maßgeblich, ob eine KI (oder ein Mensch) die Aufgabe überhaupt lösen kann.

Kurz gesagt: Die KI hat den „Aha-Moment" schon lange hinter sich, sie brauchte nur noch jemanden, der ihr hilft, die Antwort laut auszusprechen. Und je besser die Sprache passt, desto schneller geht das.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper untersucht das Phänomen des „Grokking" (plötzliche Generalisierung nach langer Trainingszeit) in Transformer-Modellen, die auf algorithmischen arithmetischen Aufgaben trainiert werden. Obwohl Encoder-Decoder-Modelle oft lange Plateaus in der Testgenauigkeit zeigen, bevor sie plötzlich generalisieren, ist die Ursache für diese Verzögerung unklar.
Die zentrale Forschungsfrage lautet: Reflektiert dieses Plateau einen Mangel an gelernter innerer Struktur (das Modell hat die Mathematik noch nicht verstanden) oder einen Mangel beim Abrufen dieser Struktur (das Modell hat die Struktur bereits gelernt, kann sie aber noch nicht in korrekte Ausgaben umwandeln)?

Die Autoren nutzen die Ein-Schritt-Collatz-Vorhersage als Testumgebung. Das Modell muss für eine gegebene ganze Zahl $n$ die Ziffernfolge von $T(n)$ vorhersagen, wobei $T(n) = n/2$ (falls $n$ gerade) und $T(n) = 3n+1$ (falls $n$ ungerade) gilt. Diese Aufgabe kombiniert Verzweigungen, Restklasseninformationen und Ziffern-transformationen, deren Schwierigkeit stark von der gewählten Zahlendarstellung (Basis) abhängt.

2. Methodik

Die Autoren verwenden Encoder-Decoder-Transformer-Architekturen und setzen verschiedene experimentelle Techniken ein, um die Bottlenecks zu lokalisieren:

Probing (Abtastung): Es werden lineare Klassifikatoren (Probes) auf den versteckten Zuständen des Encoders trainiert, um zu messen, wann arithmetische Eigenschaften (wie Parität oder Restklassen modulo $2^k$ ) linear decodierbar werden, noch bevor die Gesamtgenauigkeit des Modells steigt.
Kausale Interventionen (Transplantation & Rewind):
- Encoder-Transplant: Ein trainierter Encoder wird eingefroren und mit einem zufällig initialisierten Decoder kombiniert.
- Decoder-Transplant: Ein trainierter Decoder wird eingefroren und mit einem zufällig initialisierten Encoder kombiniert.
- Decoder-Rewind: Ein trainierter Encoder wird eingefroren, der Decoder wird auf einen frühen Checkpoint (z. B. Schritt 2.000) zurückgesetzt und nur der Decoder wird weitertrainiert.
Paritäts-Erasure (Auslöschung): Die gelernte lineare Paritätsrichtung wird aus den Encoder-Zuständen während der Inferenz projiziert, um den Einfluss dieser Information auf die Ausgabe zu testen.
Basis-Sweep (Zahlensystem-Variation): Modelle werden in 15 verschiedenen Zahlensystemen (Basis 2 bis 48) trainiert, um zu untersuchen, wie die lokale Ziffernstruktur und die Länge der Sequenz die Lernbarkeit beeinflussen.
Cross-Task Transfer: Untersuchung der Übertragbarkeit von Encodern zwischen Collatz-Vorhersage und GGT (Größter gemeinsamer Teiler)-Berechnung.

3. Wichtige Ergebnisse

A. Der Encoder lernt Struktur lange vor der Ausgabe

Die Analyse zeigt eine massive Diskrepanz zwischen internem Wissen und externem Verhalten:

Ein linearer Probe für die Parität ( $n \mod 2$ ) erreicht bereits nach 2.000 Schritten eine Genauigkeit von 99,7 %.
Zu diesem Zeitpunkt liegt die sequenzielle Ausgabe-Genauigkeit des Modells jedoch noch bei nur ca. 38 %.
Auch feinere Restklassen-Strukturen (mod 4, 8, 16) werden im Encoder frühzeitig (innerhalb der ersten 2.000–10.000 Schritte) decodierbar, während das Modell noch lange Zeit auf einem Plateau verharrt.
Dies widerlegt die Annahme, dass das Plateau durch das Fehlen von gelernter Struktur verursacht wird.

B. Der Decoder ist das dominante Bottleneck

Die kausalen Interventionen bestätigen, dass die Verzögerung primär ein Problem des Readouts (Decoder) ist:

Encoder-Transplant: Wenn ein trainierter Encoder mit einem frischen Decoder kombiniert wird, beschleunigt sich das „Grokking" um den Faktor 2,75. Das Modell erreicht 70 % Genauigkeit viel früher als beim Training von Null.
Decoder-Rewind: Wenn ein konvergierter Encoder eingefroren und der Decoder zurückgesetzt wird, verschwindet das Plateau fast vollständig. Das Modell verbessert sich sofort und erreicht eine Endgenauigkeit von 97,6 % (im Vergleich zu 86,1 % beim gemeinsamen Training).
Decoder-Transplant: Das Umgekehrte (fester Decoder, neuer Encoder) hilft nicht und führt zu einem Leistungsabfall.
Paritäts-Erasure: Das Entfernen der Paritätsinformation aus dem Encoder schadet der Leistung am stärksten während des Plateaus, was darauf hindeutet, dass der Decoder in dieser Phase stark von einfachen linearen Hinweisen abhängt, die er noch nicht robust nutzen kann.

C. Die Zahlbasis als induktive Verzerrung

Die Wahl der Zahlbasis (Numeral Base) hat einen entscheidenden Einfluss darauf, wie leicht der Decoder die Struktur nutzen kann:

Basis 2 (Binär): Das Modell scheitert komplett. Es lernt kurzzeitig auswendig, kollabiert dann aber auf 0 % Genauigkeit, da die Repräsentationen im Encoder kollabieren (Partizipationsverhältnis fällt auf 1,0) und der Decoder keine lokalen arithmetischen Hinweise findet.
Basis 8, 10, 24: Diese Basen erreichen hohe Genauigkeiten (bis zu 99,8 %).
Strukturelle Erklärung: In geraden Basen ist die $n/2$ -Operation lokal berechenbar (Lookahead von einer Ziffer). Die $3n+1$ -Operation erfordert jedoch Carry-Propagation. Basen, die sowohl durch 2 als auch durch 3 teilbar sind (z. B. 24, 36), erleichtern die Carry-Auflösung und führen zu besseren Ergebnissen.
Die Basis wirkt als induktive Verzerrung, die bestimmt, wie viel lokale Ziffernstruktur dem Decoder zur Verfügung steht.

D. Geringe Übertragbarkeit auf andere Aufgaben

Encodern, die auf Collatz trainiert wurden, helfen nicht bei der GGT-Vorhersage (und umgekehrt). Dies deutet darauf hin, dass die gelernten Repräsentationen stark an das spezifische Eingabeformat und die Aufgabe gebunden sind und keine universellen arithmetischen Primitiven darstellen.

4. Signifikanz und Schlussfolgerung

Das Paper liefert starke Evidenz dafür, dass verzögerte Generalisierung („Grokking") in Encoder-Decoder-Architekturen nicht durch das Fehlen von internem Lernen verursacht wird, sondern durch eine Lücke zwischen Repräsentation und Nutzung.

Hauptthese: Nützliche arithmetische Strukturen werden im Encoder sehr früh gelernt, aber der Decoder benötigt viel länger, um diese Struktur effizient in korrekte Ausgaben zu übersetzen.
Implikation: Das Problem ist ein Zugangsproblem (Access Problem), kein Wissensproblem. Der Decoder ist der Flaschenhals.
Einfluss der Darstellung: Die Wahl der Eingabedarstellung (Zahlbasis) ist kritisch. Sie bestimmt, ob lokale arithmetische Muster für den Decoder überhaupt nutzbar sind. Eine ungünstige Basis (wie Binär bei dieser spezifischen Aufgabe) kann dazu führen, dass das Modell trotz vorhandener Encoder-Struktur scheitert.

Diese Erkenntnisse helfen, die Dynamik des Lernens in Transformer-Modellen besser zu verstehen und deuten darauf hin, dass Verbesserungen im Decoder-Design oder in der Eingabedarstellung (Induktive Verzerrung) effektiver sein könnten als das bloße Verlängern des Trainings, um Generalisierung zu erreichen.