Sparse Crosscoders for diffing MoEs and Dense models

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Zwei verschiedene Arten von "Gehirnen"

Stell dir vor, du hast zwei verschiedene Arten von Super-Computern, die beide Texte schreiben oder Code programmieren können:

Der "Dichte" Modell-Typ (Dense): Stell dir das wie einen riesigen, allgemeinen Allzweck-Bürotrupp vor. Wenn eine Aufgabe hereinkommt, arbeiten alle Mitarbeiter gleichzeitig mit. Jeder ist gut in vielen Dingen, aber niemand ist ein absoluter Spezialist für nur eine winzige Sache.
Der "MoE"-Modell-Typ (Mixture of Experts): Das ist wie ein riesiges Unternehmen mit vielen kleinen, hochspezialisierten Abteilungen. Wenn eine Aufgabe hereinkommt, schaut ein "Manager" (der Router) genau hin und schickt die Aufgabe nur an ein paar der besten Spezialisten. Der Rest des Büros macht Pause. Das spart enorm viel Energie und Zeit, macht das System aber schwerer zu verstehen.

Die Frage der Forscher: Wir wissen genau, wie der "Allzweck-Trupp" (Dense) im Inneren tickt. Aber wie funktioniert das Gehirn des "Spezialisten-Teams" (MoE)? Denken sie anders? Lernen sie andere Dinge?

Die neue Methode: Der "Übersetzer" (Crosscoder)

Um das herauszufinden, haben die Forscher eine neue Art von Werkzeug erfunden, das sie Crosscoder nennen.

Stell dir vor, du hast zwei verschiedene Sprachen (die interne Sprache des Dichte-Modells und die des MoE-Modells). Ein normaler Übersetzer würde versuchen, jede Sprache einzeln zu lernen. Der Crosscoder ist aber wie ein genialer Dolmetscher, der beide Sprachen gleichzeitig lernt.

Er sucht nach Wörtern (Features), die in beiden Sprachen vorkommen (gemeinsame Konzepte wie "Liebe" oder "Mathematik") und nach Wörtern, die nur in einer Sprache existieren (spezielle Fachbegriffe).

Das Experiment: Die Forscher haben beide Modelle mit demselben riesigen Buch (1 Milliarde Wörter aus Code, Wissenschaft und Geschichten) trainiert. Dann haben sie den "Dolmetscher" (den Crosscoder) auf die dritte Etage beider Gebäude geschickt, um zu sehen, was dort passiert.

Was haben sie entdeckt?

Die Ergebnisse waren überraschend und geben uns einen neuen Blick auf die KI:

1. Weniger Spezialisten, mehr Fokus
Das MoE-Modell (die Spezialisten) hat viel weniger einzigartige, eigene Konzepte gelernt als das Dichte-Modell.

Die Analogie: Das Dichte-Modell hat wie ein breites Netz tausender kleiner Fische gefangen. Das MoE-Modell hat wie ein scharfes Lasso nur die allerwichtigsten Fische gefangen. Es ist "sparsamer" im Denken.

2. Wie oft werden die Spezialisten aktiv?
Hier wird es interessant.

Die MoE-spezifischen Konzepte (die Dinge, die nur das Spezialisten-Modell weiß) werden sehr oft aktiviert. Sie sind wie ein Feuerwehrmann, der ständig Alarm hat.
Die Dense-spezifischen Konzepte (die Dinge, die nur das Allzweck-Modell weiß) werden eher selten aktiviert. Sie sind wie ein Archivar, der nur angerufen wird, wenn es ganz speziell wird.
Das bedeutet: Das MoE-Modell konzentriert sich intensiv auf das, was es tut, während das Dichte-Modell Informationen über ein viel breiteres, aber dünneres Spektrum verteilt.

3. Der "Gemeinsamkeits"-Trick
Am Anfang dachte das Tool, beide Modelle seien sich sehr ähnlich. Aber das war ein Trugschluss. Erst als die Forscher dem Tool eine klare Regel gaben ("Diese 100 Wörter sind wirklich in beiden Sprachen gleich, alles andere ist unterschiedlich"), funktionierte es richtig.

Die Lektion: Wenn man zwei sehr unterschiedliche Systeme vergleicht, muss man dem Vergleichstool helfen, den Unterschied zwischen "ähnlich" und "identisch" zu verstehen.

Warum ist das wichtig?

Bisher haben wir KI-Modelle oft wie eine "Blackbox" betrachtet. Wir wissen, dass sie funktionieren, aber nicht genau wie.

Diese Studie zeigt uns:

MoE-Modelle sind nicht einfach nur "kleinere Versionen" der großen Modelle. Sie organisieren ihr Wissen völlig anders: Sie werden tiefer und spezialisierter in ihren Kernbereichen, statt alles oberflächlich abzudecken.
Das hilft uns, bessere KI zu bauen. Wenn wir wissen, dass MoE-Modelle sich auf wenige, starke Spezialisten verlassen, können wir sie noch effizienter machen.

Zusammenfassend: Die Forscher haben eine neue Brille aufgesetzt, um durch die Wände der KI zu schauen. Sie haben gesehen, dass die "Spezialisten-Teams" (MoE) zwar weniger eigene Ideen haben, aber dafür ihre Ideen viel intensiver und häufiger nutzen als die "Allzweck-Teams" (Dense). Das ist ein großer Schritt, um zu verstehen, wie künstliche Intelligenz wirklich denkt.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Mixture-of-Experts (MoE)-Modelle haben sich als effiziente Architektur für Large Language Models (LLMs) etabliert, da sie durch spärliches Routing (nur eine Teilmenge von „Experten" wird pro Token aktiviert) eine hohe Kapazität bei geringeren Inferenzkosten erreichen. Trotz ihres Erfolgs ist das Verständnis ihrer internen Repräsentationen im Vergleich zu dichten (dense) Modellen begrenzt.
Die zentrale Forschungsfrage lautet: Wie unterscheiden sich die internen Merkmale (Features) und die Informationsorganisation von MoE-Modellen von denen dichter Modelle mit vergleichbarer aktiver Parameterzahl? Bestehende Interpretierbarkeitsmethoden, die für dichte Modelle entwickelt wurden (z. B. Sparse Autoencoder), lassen sich nicht direkt auf MoEs übertragen, da die spärliche Routing-Mechanik die Feature-Spezialisierung und -Diversität beeinflusst.

Methodik

Die Autoren führen einen systematischen Vergleich durch, indem sie folgende Schritte unternehmen:

Modelltraining:
- Es wurden ein 5-lagiges dichtes Modell und ein 5-lagiges MoE-Modell trainiert.
- Wichtig: Beide Modelle haben die gleiche Anzahl an aktiven Parametern, um einen fairen Vergleich zu gewährleisten.
- Das Training erfolgte auf einem Datensatz von ca. 1 Milliarde Tokens, bestehend aus Code, wissenschaftlichen Texten und englischen Geschichten.
- Das MoE-Modell nutzte zusätzlich einen Switch-Load-Balancing-Verlust (nach Fedus et al., 2022).
Crosscoder-Ansatz:
- Anstelle von isolierten Sparse Autoencodern wurde ein Crosscoder verwendet. Dies ist eine Variante, die zwei Aktivierungsräume (hier: dichte vs. MoE-Aktivierungen) gemeinsam modelliert.
- BatchTopK-Variante: Es wurde die BatchTopK-Variante mit explizit zugewiesenen geteilten Features (Shared Features) eingesetzt. Dies erzwingt harte Sparsity-Beschränkungen und verbessert die Interpretierbarkeit modellspezifischer Features.
- Ziel: Das Modell lernt eine gemeinsame Menge von spärlichen Features $f_i(x)$ , die jedoch über modellspezifische Decoder-Gewichte ( $W^{MoE}$ und $W^{Dense}$ ) rekonstruiert werden.
Analyse-Metrik ( $\Delta_{norm}$ ):
- Um zu bestimmen, ob ein Feature geteilt oder modellspezifisch ist, wurde die Metrik $\Delta_{norm}$ $Δ_{n or m}$ eingeführt. Diese misst die relative Differenz der Normen der Decoder-Vektoren:
  - $\Delta_{norm} \approx 0.5$ : Feature ist gleichmäßig geteilt.
  - $\Delta_{norm} \approx 0$ : Feature ist exklusiv für das MoE.
  - $\Delta_{norm} \approx 1$ : Feature ist exklusiv für das dichte Modell.

Herausforderungen und Anpassungen

Ein zentrales Ergebnis der Methodik-Entwicklung war die Erkenntnis, dass Standard-Crosscoder-Objektive bei stark divergierenden Aktivierungsräumen (wie bei zwei unabhängig von Grund auf trainierten Architekturen) zu viele Features fälschlicherweise als „geteilt" klassifizieren, selbst wenn ihre Decoder-Vektoren kaum Ähnlichkeit aufweisen.

Lösung: Die Autoren passten die Regularisierung an. Während frühere Arbeiten ein Verhältnis der Sparsity-Strafen ( $\lambda_s / \lambda_f$ ) von 0,1–0,2 für geteilte vs. exklusive Features empfahlen, benötigten sie hier ein Verhältnis von ca. 0,7, um die Unterschiede zwischen den Architekturen effektiv zu trennen. Dies liegt daran, dass die Divergenz zwischen den Aktivierungsräumen von MoE und Dense-Modellen größer ist als zwischen einem Basis- und einem feinabgestimmten (fine-tuned) Modell.

Ergebnisse

Die Analyse ergab signifikante Unterschiede in der internen Struktur:

Rekonstruktionsgüte: Der angepasste BatchTopK-Crosscoder erreichte eine fraktionale Varianzaufklärung von ca. 87 % über 40.000 Trainingsschritte.
Feature-Verteilung:
- Das dichte Modell lernte signifikant mehr einzigartige (modellspezifische) Features (3.226) im Vergleich zum MoE-Modell (910).
- Die Anzahl der geteilten Features war mit 18.940 am höchsten.
Aktivierungsdichte:
- MoE-spezifische Features weisen eine höhere Aktivierungsdichte auf als die geteilten Features.
- Dichte-spezifische Features weisen eine niedrigere Aktivierungsdichte auf als die geteilten Features.
- Hinweis: Dies unterscheidet sich von Vergleichen zwischen Basis- und Fine-Tune-Modellen, wo beide spezifischen Feature-Klassen oft eine höhere Dichte aufwiesen.
Struktur der Features:
- Im Gegensatz zu den typischen trimodalen Verteilungen (MoE-only, Shared, Dense-only), die bei anderen Vergleichen beobachtet wurden, zeigte sich hier keine klare Trimodalität.
- Viele als „geteilt" klassifizierte Features (im Bereich $\Delta_{norm}$ 0,3–0,7) wiesen keine hohe kosinussimilitud auf; einige hatten sogar entgegengesetzte Richtungen ( $\approx -1$ ).

Bedeutung und Schlussfolgerung

Die Studie liefert neue mechanistische Einblicke in MoE-Architekturen:

Spezialisierung durch Sparsity: MoE-Modelle entwickeln weniger, aber spezialisiertere und fokussiertere Repräsentationen. Die Sparsity scheint die lokale Spezialisierung zu fördern.
Verteilung von Information: Dichte Modelle verteilen Informationen über breitere, allgemeinere Features, während MoEs Informationen in hochaktiven, spezifischen Experten-Features konzentrieren.
Methodischer Fortschritt: Die Arbeit zeigt, dass Crosscoders über die reine Analyse von Fine-Tuning hinaus angewendet werden können, um fundamentale architektonische Unterschiede zu verstehen. Allerdings müssen die Regularisierungsparameter (insbesondere für geteilte Features) an die spezifische Divergenz der Aktivierungsräume angepasst werden.

Zukünftige Forschung sollte qualitative Analysen der entdeckten Features durchführen, um ihre semantische Bedeutung zu validieren und die Crosscoder-Methodik weiter zu verfeinern, um strukturell unterschiedliche Modelle besser zu differenzieren.

Sparse Crosscoders for diffing MoEs and Dense models

Das große Problem: Zwei verschiedene Arten von "Gehirnen"

Die neue Methode: Der "Übersetzer" (Crosscoder)

Was haben sie entdeckt?

Warum ist das wichtig?

Problemstellung

Methodik

Herausforderungen und Anpassungen

Ergebnisse

Bedeutung und Schlussfolgerung

Mehr davon

Empowering Epidemic Response: The Role of Reinforcement Learning in Infectious Disease Control

Pure and Physics-Guided Deep Learning Solutions for Spatio-Temporal Groundwater Level Prediction at Arbitrary Locations

MAGNET: Autonomous Expert Model Generation via Decentralized Autoresearch and BitNet Training

A Compression Perspective on Simplicity Bias

Incorporating contextual information into KGWAS for interpretable GWAS discovery