Each language version is independently generated for its own context, not a direct translation.

Die große Idee: Die „versteckten Schalter" in der KI finden

Stellen Sie sich eine riesige, komplexe Maschine vor (wie ein neuronales Netz), die gelernt hat, eine Aufgabe zu erledigen, etwa Zahlen zu addieren oder Geschichten zu schreiben. Sie können die Maschine bei der Arbeit beobachten, aber Sie können nicht sehen, wie sie denkt. Es ist, als würden Sie in eine Blackbox schauen: Sie geben eine Zahl hinein, und eine andere Zahl kommt heraus, doch die Zahnräder im Inneren sind verborgen.

Wissenschaftler wollen die Box öffnen und die spezifischen „Schalter" oder „Regler" im Inneren finden, die die Maschine verwendet, um Konzepte wie „Grammatik", „Addition" oder „Sentiment" zu verstehen. Dies nennt man mechanistische Interpretierbarkeit.

Das Problem ist, dass die Maschine Millionen von Reglern hat, die alle miteinander verwickelt sind. Einen zufällig herauszugreifen, ist wie der Versuch, eine bestimmte Nadel im Heuhaufen durch Raten zu finden.

Jennifers Lin Papier schlägt einen neuen, klugen Weg vor, um diese Nadeln zu finden. Anstatt zu raten, verwendet die Autorin ein mathematisches Werkzeug namens Empirical Neural Tangent Kernel (eNTK).

Die Analogie: Der „Echo-Kammer"-Test

Stellen Sie sich das neuronale Netz als riesige Echo-Kammer vor. Wenn Sie ein bestimmtes Wort schreien (ein Merkmal wie „Substantiv" oder „addiere 5"), hallt der Schall im Raum wider und trifft die Wände (die Parameter des Modells) in einem sehr spezifischen Muster.

Das eNTK ist wie ein hochempfindliches Mikrofon, das aufzeichnet, wie der gesamte Raum vibriert, wenn Sie schreien.

Wenn Sie „Substantiv" schreien, vibriert der Raum in einem bestimmten Rhythmus.
Wenn Sie „Verb" schreien, vibriert er in einem anderen Rhythmus.

Die Hypothese der Autorin lautet: Wenn wir die stärksten Vibrationen (die „Haupt-Eigenrichtungen") in dieser Echo-Kammer analysieren, können wir genau herausfinden, welche Wörter geschrien wurden.

In technischen Begriffen behauptet das Papier, dass wir durch die Betrachtung der „stärksten Muster", wie sich die inneren Zahnräder des Modells bewegen, wenn es lernt, die genauen Richtungen identifizieren können, die das Modell zur Erkennung von Merkmalen verwendet.

Die drei Experimente: Von einfacher Mathematik zu großen Sprachmodellen

Die Autorin testete diese „Echo-Kammer"-Idee an drei verschiedenen Maschinentypen, die zunehmend komplexer wurden.

1. Die einfache Mathematik-Maschine (MLP)

Die Aufgabe: Eine einfache Maschine lernte, Zahlen modulo einer Primzahl zu addieren (eine bestimmte Art von Mathe-Rätsel).
Die „Wahrheit": Wir wussten bereits das geheime Rezept, das die Maschine verwendete: Sie verwandelte die Zahlen in Wellen (Fourier-Features), etwa indem sie eine Zahl in eine Sinuswelle umwandelte.
Das Ergebnis: Die Autorin nutzte das eNTK, um der Maschine zuzuhören. Die stärksten Vibrationen, die das eNTK fand, stimmten perfekt mit dem „Sinuswellen"-Rezept überein.
Der „Grokking"-Moment: Es gibt ein Phänomen namens „Grokking", bei dem ein Modell nach langer Zeit des bloßen Auswendiglernens plötzlich von einem Testversagen zu einer perfekten Lösung übergeht. Das Papier fand heraus, dass in dem Moment, in dem die Maschine „grokkte" (die Mathematik verstand), die Übereinstimmung zwischen den eNTK-Vibrationen und den mathematischen Merkmalen stark anstieg. Es ist, als würde in dem Moment, in dem die Maschine es endlich „begriff", die Echo-Kammer plötzlich das richtige Lied singen.

2. Die etwas schlauere Mathematik-Maschine (Transformer)

Die Aufgabe: Eine etwas komplexere Maschine (ein Transformer) lernte dasselbe Mathe-Rätsel.
Der Unterschied: Diese Maschine verwendete nicht jede mögliche Welle; sie wählte einige zufällige, spezifische Frequenzen aus, um das Problem zu lösen.
Das Ergebnis: Obwohl die Maschine zufällige Frequenzen auswählte, fand das eNTK sie dennoch. Es identifizierte erfolgreich die spezifischen „Noten", die die Maschine zur Mathematik verwendete.

3. Das große Sprachmodell (Gemma-3-270M)

Die Aufgabe: Dies ist ein echtes, vortrainiertes Sprachmodell (wie eine Mini-Version der KI, mit der Sie chatten), das Geschichten liest.
Die Herausforderung: Wir kennen hier das „geheime Rezept" nicht. Wir wollen nur sehen, ob die Maschine Grammatik erkennen kann (wie Substantive, Verben oder die Vergangenheitsform).
Der Test: Die Autorin nahm einen kleinen Satz von Geschichten und fragte: „Können uns die eNTK-Vibrationen sagen, welche Wörter Substantive sind?"
Der Vergleich: Sie verglich die eNTK-Methode mit PCA (eine Standard-, ältere Methode, die nur die aktivsten Teile der Maschine betrachtet).
Das Ergebnis: Die eNTK-Methode war besser. Sie fand die „Grammatik-Schalter" genauer als die Standardmethode. Zum Beispiel war sie besser darin, „Verben" oder „Vergangenheitsform" zu erkennen als die alte Methode.

Die Hauptaussage

Das Papier behauptet, dass die Analyse der „Vibrationen" des Lernprozesses des Modells (über das eNTK) eine leistungsstarke neue Taschenlampe ist.

Sie funktioniert bei einfachen mathematischen Modellen, bei denen wir die Antwort kennen.
Sie funktioniert bei komplexen Sprachmodellen, bei denen wir die Antwort nicht kennen, und findet Grammatik-Merkmale besser als aktuelle Standardwerkzeuge.
Sie scheint genau dann aufleuchten, wenn ein Modell ein Konzept plötzlich versteht (der „Grokking"-Moment).

Was das Papier nicht behauptet

Es ist wichtig, bei dem zu bleiben, was das Papier tatsächlich sagt:

Es ist kein Allheilmittel: Das Papier gibt zu, dass dies „korrelative" Ergebnisse sind. Nur weil das eNTK eine Richtung findet, die wie „Grammatik" aussieht, beweist das nicht, dass das Ändern dieser Richtung das Modell repariert. Es ist ein Entdeckungswerkzeug, noch nicht unbedingt ein Bedienfeld.
Es geht nicht um zukünftige KI-Sicherheit: Das Papier erwähnt, dass dies in Zukunft für die Sicherheit nützlich sein könnte, stellt aber keine Sicherheitsanwendungen oder klinischen Uses vor. Es ist rein eine Methode, um zu verstehen, wie Modelle jetzt funktionieren.
Es ist nicht perfekt: Das Experiment mit dem Sprachmodell verwendete einen relativ kleinen Datensatz und ein spezifisches Modell. Die Autorin schlägt vor, dies an größeren Modellen und Datensätzen zu testen, um sicherzugehen.

Zusammenfassung in einem Satz

Dieses Papier schlägt vor, dass wir durch das Zuhören der „Echos" davon, wie ein neuronales Netz lernt (unter Verwendung eines Werkzeugs namens eNTK), erfolgreich die versteckten „Schalter" identifizieren können, die das Modell verwendet, um Mathematik und Grammatik zu verstehen, und diese oft klarer findet als frühere Methoden.

Each language version is independently generated for its own context, not a direct translation.

Technische Zusammenfassung: Feature-Identifikation mittels des empirischen NTK

Problemstellung

Die mechanistische Interpretierbarkeit zielt darauf ab, zu rekonstruieren, wie neuronale Netze Informationen verarbeiten, und zwar mit dem spezifischen Ziel, herauszufinden, wie Modelle gelernte Merkmale repräsentieren. Während frühere Ansätze oft davon ausgehen, dass einzelne Neuronenaktivierungen oder spärliche lineare Kombinationen derselben interpretierbare Merkmale darstellen, deuten neuere Studien darauf hin, dass diese Methoden möglicherweise unvollständige oder nicht-kanonische Wörterbücher liefern. Folglich besteht ein Bedarf an grundlegend unterschiedlichen Ansätzen, um Merkmalsrichtungen in trainierten Modellen zu identifizieren, ohne sich auf vorherige Annahmen über die spezifische Natur dieser Merkmale zu verlassen.

Dieser Beitrag untersucht, ob die top-Eigenrichtungen des empirischen Neural Tangent Kernel (eNTK) als Mechanismus dienen können, um diese gelernten Merkmale zutage zu fördern. Das eNTK ist definiert als der Kernel, der durch Kontraktion zweier Kopien der Jacobi-Matrix des Modells entlang der Parameterraum-Richtung gebildet wird:
$K_{ij}(x_1, x_2) = \sum_{\mu} \frac{df_i(x_1)}{dW_\mu} \frac{df_j(x_2)}{dW_\mu}$
wobei $f$ das neuronale Netz ist, $W_\mu$ die Gewichte darstellen und $i, j$ die Ausgabeklassen indizieren. Die Autoren hypothesieren, dass die top-Eigenräume dieses Kernels, evaluiert auf einem Datensatz, mit Ground-Truth- oder interpretierbaren Merkmalsrichtungen übereinstimmen, selbst in Modellen, die außerhalb des „faulen" (lazy) Trainingsregimes operieren, auf das sich die Standard-NTK-Theorie bezieht.

Methodik

Die Autoren schlagen einen Algorithmus vor, um die top-Eigenrichtungen des eNTK in drei verschiedenen Settings zu berechnen und zu analysieren: einem 1-Schichten-MLP, einem 1-Schichten-Transformer und einem vortrainierten Large Language Model (Gemma-3-270M).

1. Kernel-Konstruktion und Reduktion

Das eNTK, evaluiert über einen Datensatz der Größe $N$ mit $C$ Ausgabeklassen, hat die Form $(N, N, C, C)$ . Um eine Eigenzerlegung durchzuführen, wenden die Autoren zwei Reduktionsstrategien an:

Klassen-spezifisches eNTK: Analyse des Kernels $K_{cc}(x_1, x_2)$ für spezifische Klassen.
Flattened eNTK: Stapeln der klassen-spezifischen Blöcke zu einer einzigen $NC \times NC$ -Matrix.
Schichtweises eNTK: Summierung der Jacobi-Produkte nur über Parameter, die zu einer bestimmten Schicht gehören, um Merkmale spezifischen Netzwerkkomponenten zuzuordnen.

2. Skalierbarkeit via Lanczos-Iteration

Für große Modelle, bei denen die Materialisierung der vollständigen Jacobi-Matrix oder des eNTK undurchführbar ist (z. B. Sprachmodelle mit großen Vokabularen), nutzen die Autoren die Lanczos-Iteration. Sie approximieren die top $k$ Eigenrichtungen, indem sie $2k$ Schritte von Matrix-Vektor-Produkten durchführen. Entscheidend ist, dass sie $Kv = J(J^T v)$ mittels Vektor-Jacobi- und Jacobi-Vektor-Produkten über automatische Differentiation berechnen, wodurch die explizite Konstruktion der Jacobi-Matrix oder des eNTK vermieden wird.

3. Effiziente Rekonstruktion für Sprachmodelle

Für das Gemma-3-270M-Experiment macht die Vokabulargröße ( $d_{vocab}$ ) das flache eNTK an der Ausgabeschicht rechnerisch prohibitiv. Die Autoren nutzen die lineare Beziehung zwischen der Jacobi-Matrix der Ausgabeschicht und der der letzten versteckten Schicht (über die Unembedding-Matrix $U$ ). Sie leiten einen transformierten Operator $\tilde{K} = S^{1/2} K_r S^{1/2}$ ab (wobei $K_r$ das eNTK auf dem Residual-Stream ist), der dieselben Eigenwerte wie das vollständige Ausgabe-eNTK besitzt, aber im kleineren $d_{model}$ -Raum operiert. Dies ermöglicht die Rekonstruktion der top-eNTK-Eigenrichtungen ohne die Materialisierung großer, vokabulargroßer Objekte.

4. Evaluationsmetrik

Um die Hypothese zu validieren, messen die Autoren die Übereinstimmung zwischen eNTK-Eigenräumen und unabhängig spezifizierten „Ground-Truth"-Merkmalsvektoren.

Alignment-Score: Berechnet als das quadrierte Frobenius-Norm zwischen dem von den top $k$ eNTK-Eigenvektoren aufgespannten Unterraum und dem von den Ground-Truth-Merkmalen aufgespannten Unterraum.
Baseline-Vergleich: Im Setting des Sprachmodells wird der eNTK-Ansatz mit einer Principal Component Analysis (PCA)-Baseline verglichen, die auf Modellaktivierungen durchgeführt wird, unter Verwendung desselben Rechenbudgets (top 25 Richtungen).

Wichtige Ergebnisse

1. MLP auf modularer Arithmetik

In einem 1-Schichten-MLP, der auf modularer Addition ( $mod\ p$ ) trainiert wurde und „Grokking" zeigt (ein Phasenübergang von Auswendiglernen zu Generalisierung):

Spektrale Struktur: Das eNTK-Spektrum zeigt zwei distincte „Kliffs" (zusammenhängende Blöcke hoher Eigenwerte).
Merkmals-Alignment: Das erste Kliff (Größe $4\lfloor p/2 \rfloor$ ) stimmt perfekt mit den Fourier-Merkmalen der Eingabevariablen ( $a$ und $b$ ) überein. Das zweite Kliff stimmt mit den Fourier-Merkmalen „Summe" und „Differenz" ( $a+b$ und $a-b$ ) überein, die von der zweiten Schicht des Modells verwendet werden, um den Ground-Truth-Algorithmus zu implementieren.
Trainingsdynamik: Das Alignment des zweiten Kliffs mit Summen-/Differenz-Modi ist bei der Initialisierung gering, steigt jedoch glatt an, wobei die erste Ableitung der Überlappung nahe dem Beginn des Grokking-Phasenübergangs ihr Maximum erreicht.

2. Transformer auf modularer Arithmetik

In einem 1-Schichten-Transformer, der auf derselben Aufgabe trainiert wurde:

Spärliche Frequenzen: Im Gegensatz zum MLP lernt der Transformer Fourier-Modi an einer spärlichen Menge zufälliger, seed-abhängiger Frequenzen.
Schichtweises Alignment: Die top schichtweisen eNTK-Eigenräume stimmen mit den Fourier-Merkmalen bei diesen spezifischen Schlüsselfrequenzen überein.
- Der Attention-Block und die Eingangsgewichte des MLP stimmen mit der Summe der Eingabe-Fourier-Merkmale überein ( $\cos(\omega_k a) + \cos(\omega_k b)$ ).
- Der MLP-Ausgang und die Unembedding-Gewichte stimmen mit den Fourier-Merkmalen „Summe" überein ( $\cos(\omega_k(a+b))$ ).
Dynamik: Ähnlich wie beim MLP steigt das Alignment mit Summen-Modi während des Trainings an und erreicht in der Ableitung nahe dem Grokking-Übergang einen Peak.

3. Gemma-3-270M auf natürlicher Sprache

Im vortrainierten Gemma-3-270M-Modell, evaluiert auf einem Datensatz von TinyStories-Kontextfenstern:

Grammatik-Rekonstruktion: Top-eNTK-Eigenrichtungen wurden gegen automatisch generierte grammatikalische Merkmale getestet (Wortarten und morphologische Tags wie Tempus und Numerus).
Leistung: Die eNTK-Eigenrichtungen schnitten bei allen Wortarten-Merkmalen und bei allen bis auf einem morphologischen Merkmal besser ab als die PCA-Baseline auf Modellaktivierungen, gemessen an der AUROC.
Interpretierbarkeit: Eine qualitative Analyse der am stärksten aktivierenden Beispiele für spezifische Eigenrichtungen (z. B. „Infinitiv" oder „Verb im Präteritum") enthüllte kohärente semantische Interpretationen, die mit den Ziel-grammatikalischen Merkmalen übereinstimmten.

Bedeutung und Behauptungen

Der Beitrag behauptet, dass die eNTK-Eigenanalyse einen neuen, theoretisch motivierten und empirisch validierten Ansatz zur Identifikation von Merkmalen in trainierten Modellen bietet.

Jenseits des faulen Regimes: Die Arbeit zeigt, dass eNTK-spektrale Strukturen auch in Modellen, die sich nicht im „faulen" Trainingsregime befinden (wo Parameterdrift vernachlässigbar ist), informativ bleiben und mit Ground-Truth-Mechanismen übereinstimmen, ein Regime, auf das sich die Standard-NTK-Theorie nicht strikt anwendet.
Überlegenheit gegenüber Aktivierungs-PCA: Im Kontext des Sprachmodells stellt der eNTK-Ansatz grammatikalische Merkmale erfolgreicher wieder her als PCA auf Aktivierungen, was darauf hindeutet, dass die Struktur des Kernels Merkmalsinformationen erfasst, die rohe Aktivierungen (selbst wenn sie via PCA reduziert werden) möglicherweise verschleiern.
Dynamische Überwachung: Die Beobachtung, dass sich das Alignment von eNTK-Unterräumen mit Merkmalen während des Trainings entwickelt – insbesondere mit einer Spitzenrate der Änderung nahe dem Grokking –, legt nahe, dass die eNTK-Eigenanalyse als Diagnosewerkzeug dienen könnte, um zu überwachen, wann spezifische Merkmale während des Trainings erworben werden.

Die Autoren nehmen eine bescheidene Haltung ein und stellen fest, dass ihre Ergebnisse derzeit korrelational sind. Sie haben noch nicht nachgewiesen, dass eNTK-inspirierte Interventionen das Modellverhalten kausal verändern, und sie räumen Einschränkungen hinsichtlich der Skalierung des Sprachmodell-Experiments ein (Gemma-3-270M ist kleiner als State-of-the-Art-Modelle) sowie der Einfachheit des Datensatzes (TinyStories). Dennoch deutet die Konsistenz der Ergebnisse über synthetische algorithmische Aufgaben und natürliche Sprache hinweg auf ein robustes Potenzial für eNTK-basierte mechanistische Interpretierbarkeit hin.

Feature Identification via the Empirical NTK