Spectral Edge Dynamics Reveal Functional Modes of Learning

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie beobachten einen Schüler, der lernt, eine sehr schwierige mathemische Aufgabe zu lösen. Anfangs rät er nur wild herum, macht Fehler und scheint nichts zu verstehen. Dann passiert plötzlich etwas Magisches: Er „knackt" den Code. Plötzlich versteht er das Muster und löst die Aufgabe perfekt. In der KI-Forschung nennt man dieses Phänomen „Grokking" (ein Begriff, der so viel bedeutet wie „plötzliches tiefes Verstehen").

Dieser Artikel von Yongzhong Xu untersucht genau diesen Moment des Durchbruchs. Aber er schaut nicht auf die Antworten des Schülers, sondern auf die Bewegungen, die im Gehirn des KI-Modells passieren, während es lernt.

Hier ist die Erklärung der wichtigsten Erkenntnisse, übersetzt in einfache Sprache mit ein paar bildhaften Vergleichen:

1. Das Problem: Wir schauen auf das Falsche

Normalerweise versuchen Forscher zu verstehen, wie eine KI lernt, indem sie sich die einzelnen „Neuronen" (die Zellen im KI-Gehirn) oder die Verbindungen zwischen ihnen ansehen. Das ist, als würde man versuchen zu verstehen, wie ein Orchester spielt, indem man nur die einzelnen Instrumente zählt.

Die Forscher haben jedoch entdeckt, dass die wichtigsten Veränderungen nicht in den einzelnen Instrumenten liegen. Wenn man die KI genau betrachtet, sieht man, dass sich Tausende von Verbindungen gleichzeitig leicht bewegen. Es sieht chaotisch aus. Wenn man versucht, diese Bewegung mit herkömmlichen Werkzeugen zu analysieren, findet man nichts Sinnvolles. Es ist, als würde man versuchen, ein Lied zu verstehen, indem man nur auf die Farbe der Notenblätter schaut, statt auf die Melodie.

2. Die Lösung: Der „Spektrale Rand" (Spectral Edge)

Die Forscher haben eine neue Methode entwickelt, die sie „Spektraler Rand" nennen. Stellen Sie sich vor, Sie werfen einen Stein in einen ruhigen See.

Die meisten Wellen sind kleine, unbedeutende Kräuselungen (das ist der „Bulk" oder das „Volumen").
Aber es gibt ein paar ganz große, klare Wellen, die sich deutlich von den kleinen abheben. Diese großen Wellen nennen sie den „Rand".

Diese großen Wellen sind die wichtigen Lernbewegungen. Sie zeigen genau die Richtungen an, in denen das Gehirn des Modells sich verändert, um die Aufgabe zu lösen.

3. Die Entdeckung: Es geht um Funktionen, nicht um Teile

Das Spannendste ist: Diese großen Wellen lassen sich nicht als einzelne „Teile" des Gehirns beschreiben. Stattdessen beschreiben sie Funktionen – also Muster, wie das Modell auf Eingaben reagiert.

Hier kommt die Magie der Mathematik ins Spiel, aber wir machen es einfach:

Bei Addition (Plusrechnen): Die große Welle ist wie ein perfekter, einfacher Takt. Wenn man die Bewegung in die richtige Sprache übersetzt (eine Art „Fourier-Sprache", die für Addition gemacht ist), sieht man, dass das Modell nur eine einzige Frequenz nutzt. Es ist wie ein einzelner, reiner Ton.
Bei Multiplikation (Malrechnen): Hier ist es komplizierter. In der normalen Sprache sieht es chaotisch aus. Aber wenn man die Sprache wechselt (man nutzt einen „diskreten Logarithmus", eine Art Umrechnungstabelle für Multiplikation), dann sieht man plötzlich wieder diesen perfekten, einzelnen Ton. Das Modell hat also gelernt, die Aufgabe in eine Sprache zu übersetzen, in der sie einfach ist.
Bei Subtraktion (Minusrechnen): Hier ist es nicht nur ein Ton, sondern eine kleine Gruppe von Tönen, die zusammen ein harmonisches Stück ergeben.
Bei komplexen Aufgaben (wie $x^2 + y^2$ ): Hier gibt es keinen einzelnen Ton. Stattdessen ist es wie ein Akkoord aus verschiedenen Tönen, die miteinander vermischt sind. Das Modell kombiniert die einfachen Muster von Addition und Multiplikation, um die neue, schwierigere Aufgabe zu lösen.

4. Der Clou: Wiederverwendung von Bausteinen

Das coolste Ergebnis kommt, wenn man das Modell mehrere Aufgaben gleichzeitig lernen lässt (z. B. Plus und Malrechnen).
Stellen Sie sich vor, das Modell lernt zuerst Plusrechnen. Es baut sich einen „Plus-Modus" (eine Art Werkzeugkasten). Wenn es dann lernt, eine komplizierte Aufgabe wie $x^2 + y^2$ zu lösen, leiht es sich diesen „Plus-Modus" aus.

Die Forscher haben gesehen, dass die großen Wellen bei der komplexen Aufgabe genau die gleichen Muster zeigen wie bei der einfachen Plus-Aufgabe. Das bedeutet: Das KI-Modell baut komplexe Intelligenz nicht aus dem Nichts, sondern kombiniert einfache, wiederverwendbare Bausteine.

Zusammenfassung in einem Satz

Dieser Artikel zeigt uns, dass KI nicht lernt, indem sie einfach nur ihre „Gehirnzellen" neu verdrahtet, sondern indem sie neue mathematische Muster (Funktionen) entdeckt, die perfekt zur Struktur der Aufgabe passen. Wenn die Aufgabe eine klare Symmetrie hat (wie Plusrechnen), findet die KI einen perfekten, einfachen Weg. Wenn die Aufgabe komplex ist, kombiniert sie diese einfachen Wege zu einem neuen, größeren Muster.

Die große Lehre: Um zu verstehen, wie KI lernt, sollten wir nicht auf die Hardware (die Neuronen) schauen, sondern auf die Melodie, die sie spielt. Und diese Melodie ist oft viel einfacher und eleganter, als man dachte.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Das Training neuronaler Netze verläuft trotz der enormen Dimensionalität des Parameterraums hochstrukturiert. Insbesondere bei Phänomenen wie „Grokking" (plötzliche Generalisierung nach langer Trainingsphase) konzentrieren sich die Optimierungsdynamiken auf eine kleine Anzahl dominanter Richtungen.
Die zentrale offene Frage ist jedoch: Was ist die Natur dieser dominanten Richtungen?

Sind sie lokalisierte Schaltkreise (Circuits) in bestimmten Neuronen oder Attention-Heads?
Sind sie interpretierbare Merkmale (Features) im Aktivierungsraum?
Oder repräsentieren sie etwas anderes?

Bisherige mechanistische Interpretierbarkeitsmethoden (z. B. Sparse Autoencoder, Head-Attribution) scheitern oft daran, diese Strukturen zu erfassen. Das Paper postuliert, dass ein „Kategorien-Mismatch" vorliegt: Die relevanten Strukturen existieren nicht im Raum der Parameter oder Repräsentationen, sondern als funktionale Modi über dem Eingabedomain.

2. Methodik

2.1 Experimentelles Setup

Modelle: 2-Layer Transformer ( $d_{model}=128$ , 4 Attention-Heads), trainiert auf modularen arithmetischen Aufgaben (Modulo $p=97$ ).
Aufgaben: Sechs binäre Operationen: Addition, Subtraktion, Multiplikation, $x^2+y^2$ , sowie zwei Kontrollaufgaben ( $x^2+xy+y^2$ , $x^3+xy$ ), die kein Grokking zeigen.
Multitask-Training: Gemeinsame „Trunk"-Architekturen für Aufgabenkombinationen (z. B. Addition + Multiplikation + $x^2+y^2$ ), um funktionale Wiederverwendung zu testen.

2.2 Spektrale Kante (Spectral Edge)

Die Autoren analysieren die Gewichtsupdates $\delta\theta_t$ während des Trainings.

Gram-Matrix-Analyse: Über ein gleitendes Fenster von Updates wird die Gram-Matrix $G_{ij} = \langle \delta\theta_i, \delta\theta_j \rangle$ gebildet.
Spektraler Rand: Ein „Spectral Edge" wird definiert als eine kleine Gruppe führender Eigenvektoren (Richtungen), die sich durch eine signifikante Lücke (Gap) vom Rest des Spektrums abheben.
Grokking-Indikator: Ein starker Rückgang des spektralen Gaps ( $g_{23} = \sigma_2 - \sigma_3$ ) korreliert zuverlässig mit dem Übergang vom Auswendiglernen zur Generalisierung (Grokking).

2.3 Von Parametern zu Funktionen

Um die Bedeutung dieser Richtungen zu verstehen, definieren die Autoren eine funktionale Antwort:

Für eine spektrale Kanten-Richtung $v_k$ wird eine kleine Störung des Modells entlang dieses Vektors simuliert.
Die resultierende Änderung im Residual-Stream $\Delta h_k(a,b)$ wird quadriert, um ein skalares Feld $f_k(a,b)$ über dem Eingabedomain zu erhalten.
Hypothese: Die Struktur liegt nicht in der Verteilung der Störung über Neuronen, sondern darin, welche Eingaben am stärksten betroffen sind.

2.4 Fourier-Analyse im gruppen-theoretischen Kontext

Die Autoren untersuchen die Funktion $f_k(a,b)$ in verschiedenen Basen, die an die algebraische Struktur der Aufgabe angepasst sind:

Additive Basis: Fourier-Transformation basierend auf $(a+b) \mod p$ .
Multiplikative Basis: Diskreter Logarithmus (dlog) basierend auf $(a \cdot b) \mod p$ .
Kombinierte Basen: Für komplexe Aufgaben wie $x^2+y^2$ werden Kreuzterme aus additiven und multiplikativen Merkmalen getestet.

3. Hauptergebnisse

3.1 Existenz und Diskriminierungsfähigkeit des Spectral Edge

Der Spectral Edge tritt konsistent während des Grokking auf und unterscheidet sich klar von nicht-grokkenden Regimen (12 von 12 Grokking-Läufen zeigen einen starken Gap-Rückgang, Kontrollen zeigen dies nicht).
Drei unabhängige Zerlegungsmethoden (Gram-Matrix, Displacement-PCA, SVD der Gewichtsmatrizen) bestätigen die zeitliche Stabilität dieses Phänomens.

3.2 Fehlschlagen der Repräsentations-Ebene Interpretierbarkeit

Standard-Tools können die spektrale Kante nicht erfassen:

Head-Lokalisierung: Die Parametermasse ist diffus über alle Heads verteilt (Purity $\approx 0.14$ , kaum über dem Zufallswert).
Aktivierungsraum: Die Störungen sind hochdimensional (effektiver Rang $\approx 40$ von 128).
Sparse Autoencoder (SAE): Es gibt keine signifikante Überlappung der wichtigsten SAE-Features zwischen den führenden Richtungen.
Fazit: Die Struktur ist im Parameterraum nicht lokalisiert, sondern im Funktionsraum.

3.3 Funktionale Struktur in symmetrieangepassten Basen

Die Analyse der Eingabe-abhängigen Störungsmuster zeigt eine klare Hierarchie:

Addition ( $a+b$ ): Der Spectral Edge kollabiert auf einen einzelnen dominanten Fourier-Modus ( $\omega \approx 25-26$ ) in der additiven Basis.
Multiplikation ( $a \cdot b$ ): In der additiven Basis ist das Signal diffus. Erst in der diskret-logarithmischen Basis (angepasst an die multiplikative Gruppe) kollabiert der Edge auf einen einzelnen Modus ( $\omega = 29$ ).
Subtraktion ( $a-b$ ): Der Edge erstreckt sich über eine kleine Familie von Modi (mehrere Frequenzen), statt auf einen einzigen zu kollabieren.
Quadratische Aufgabe ( $x^2+y^2$ ): Kein einfacher harmonischer Basis-Modus reicht aus. Die Struktur wird jedoch teilweise durch Kreuzterme (Produkte aus additiven und multiplikativen Merkmalen) erklärt, was der algebraischen Identität $a^2+b^2 = (a+b)^2 - 2ab$ entspricht.

3.4 Beweis der funktionalen Wiederverwendung (Multitask)

In Multitask-Modellen (geteilter Trunk) zeigt sich, dass komplexe Aufgaben funktionale Modi einfacher Aufgaben wiederverwenden:

Der Spectral Edge der $x^2+y^2$ -Aufgabe in einem Multitask-Modell passt sich stärker an die additiven Modi der Additionsaufgabe an als im Single-Task-Modell.
Dies liefert direkte Evidenz, dass neuronale Netze wiederverwendbare funktionale Primitive lernen, die durch geteilte Trainingsdynamiken komponiert werden.

4. Bedeutung und Beiträge

Paradigmenwechsel in der Interpretierbarkeit: Das Paper schlägt vor, Lernen nicht als Entdeckung lokaler Schaltkreise, sondern als Entdeckung niedrigdimensionaler funktionaler Unterräume über dem Eingabedomain zu betrachten.
Rolle der Symmetrie: Die Einfachheit der Lernstruktur (Kollaps auf einen Modus) hängt davon ab, ob die Analysebasis an die algebraische Symmetrie der Aufgabe angepasst ist. Ohne die richtige Basis (z. B. dlog für Multiplikation) bleibt die Struktur verborgen.
Dynamische Selektion: Der Spectral Edge zeigt, dass der Optimierungsalgorithmus (SGD mit Weight Decay) gezielt Richtungen auswählt, die mit den natürlichen Eigenmoden der Aufgabe (Charakteren der zugrunde liegenden Gruppe) übereinstimmen.
Kompositionelle Hierarchie: Komplexe Aufgaben bauen auf den funktionalen Modi einfacherer Aufgaben auf. Multitask-Training fördert diese Wiederverwendung und macht sie durch den Spectral Edge sichtbar.

5. Fazit

Die Arbeit etabliert den „Spectral Edge" als ein mächtiges Werkzeug, um die funktionale Essenz des Lernprozesses zu entschlüsseln. Sie zeigt, dass die dominierenden Richtungen des Trainings zwar im Parameterraum diffus erscheinen, aber im Funktionsraum eine hochstrukturierte, oft harmonische (Fourier-)Natur aufweisen, die durch die algebraische Struktur der Aufgabe bestimmt wird. Dies bietet einen neuen theoretischen Rahmen, um zu verstehen, wie neuronale Netze komplexe Berechnungen durch die Komposition einfacherer funktioneller Bausteine erlernen.