Ursprüngliche Autoren: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Veröffentlicht 2026-06-03✓ Author reviewed ⓘ

📖 5 Min. Lesezeit🧠 Tiefgang

CC BY 4.0

Ursprüngliche Autoren: Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

Originalarbeit lizenziert unter CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Dies ist eine KI-generierte Erklärung des untenstehenden Papers. Sie wurde nicht von den Autoren verfasst. Für technische Genauigkeit konsultieren Sie das Originalpaper. Vollständigen Haftungsausschluss lesen

Stellen Sie sich ein Large Language Model (LLM) als eine riesige, unglaublich komplexe Bibliothek vor. Im Inneren dieser Bibliothek sind Informationen nicht in Büchern gespeichert, die man lesen kann; sie sind in einem massiven, unsichtbaren Netz aus elektrischen Signalen (Aktivierungen) gespeichert, die feuern, wenn das Modell „denkt".

Lange Zeit haben Forscher versucht, hinter den Vorhang zu blicken, um zu sehen, was diese Signale bedeuten. Sie haben Werkzeuge gebaut, um diese Signale Konzepten (wie „Mathematik" oder „Höflichkeit") zuzuordnen, aber diese Werkzeuge sind launisch. Wenn man auch nur ein wenig an einem Regler dreht, fängt das Modell an, flüssigen Unsinn zu sprechen, der zwar wie eine Erklärung klingt, aber tatsächlich nicht mit dem verbunden ist, was es gerade denkt.

Dieses Paper stellt einen neuen Weg vor, um das zu beheben. Hier ist die Kernidee, aufgeschlüsselt mit einfachen Analogien:

1. Das Problem: Der „Übersetzer" ist kaputt

Stellen Sie sich vor, die internen Signale des Modells sind ein Geheimcode. Bisher haben Forscher versucht, diesen Code zu übersetzen, indem sie ihn dem Modell einfach direkt in den Mund schoben und fragten: „Was bedeutet das?"

Das Problem: Manchmal versteht das Modell es, aber oft ist es verwirrt. Es sagt vielleicht: „Dieses Signal bedeutet ‚ein kleiner Erdhügel'", obwohl es eigentlich „eine Computerfunktion" bedeutet. Es ist, als würde man versuchen, eine Fremdsprache zu übersetzen, indem man die Wörter nur errät; man bekommt die Grammatik richtig, aber die Bedeutung ist falsch.

2. Die Lösung: Das Training eines „leichtgewichtigen Adapters"

Anstatt zu versuchen, die gesamte riesige Bibliothek neu zu trainieren (was teuer ist und die Funktionsweise der Bibliothek verändert), haben die Autoren einen winzigen, spezialisierten Adapter trainiert.

Die Analogie: Betrachten Sie den Adapter als einen spezialisierten Übersetzer oder eine Brille.
- Die riesige Bibliothek (das Modell) bleibt exakt gleich; sie lernt nichts Neues.
- Der Adapter ist ein winziges Add-on (wie eine Linse), das vor den Augen des Modells sitzt.
- Die Autoren haben diese Linse mithilfe von „Interpretierbarkeits-Artefakten" trainiert. Dies sind wie Lernkarten, die die Forscher bereits erstellt haben: Eine Seite hat einen Signalvektor, die andere ein Label (z. B. „Dieses Signal = ‚Baseball'").
- Der Adapter lernt, das Signal so anzupassen, dass das Modell schließlich „sehen" kann, was es denkt, und es korrekt beschreiben kann.

3. Die magische Zutat: Der „Bias" (Die Standardeinstellung)

Die überraschendste Erkenntnis ist, dass der Adapter kein Supercomputer sein muss. Eine sehr einfache Version funktioniert am besten.

Die Analogie: Stellen Sie sich vor, der Adapter hat zwei Teile:
1. Das Signal: Das spezifische Ding, über das das Modell gerade nachdenkt (z. B. „Platon").
2. Der Bias: Eine „Standardeinstellung" oder eine mentale Gewohnheit, die der Adapter gelernt hat.
Das Paper fand heraus, dass dieser „Bias" etwa 85 % der schweren Arbeit leistet. Er lehrt dem Modell nicht die Fragen, sondern den Stil und das Format der Antwort, die das Modell selbst schreibt.
Der Beweis: Die Autoren haben dies mit einem einfachen Experiment bewiesen. Als sie die Lernkarten in GROSSBUCHSTABEN schrieben, antwortete das Modell ebenfalls in GROSSBUCHSTABEN. Da der Teil der Eingabe, der die Frage stellt (z. B. „Was bedeutet das?"), immer gleich blieb und nicht in Großbuchstaben umgewandelt wurde, musste die Information für den Stil der Antwort aus dem Bias-Vektor kommen. Der Bias sagt dem Modell also: „Schreibe deine Erklärung in diesem spezifischen Tonfall", während das eigentliche Signal nur den Inhalt (das Thema) liefert.

4. Was sie entdeckt haben

Besser als die ursprünglichen Labels: Die Adapter haben nicht nur die ursprünglichen Lernkarten kopiert; sie konnten die Signale tatsächlich besser beschreiben als die ursprünglichen Labels, die die Forscher geschrieben hatten. Es ist, als würde ein Student von einem Lehrbuch lernen und dann eine bessere Zusammenfassung schreiben als der Autor des Lehrbuchs.
Verborgene Gedanken aufdecken: Ein Modell kann manchmal ein Rätsel lösen, ohne seine Schritte laut auszusprechen (z. B. die Antwort „Athen" auf ein Rätsel über Platon geben, ohne Platon zu erwähnen). Der trainierte Adapter kann „in den Kopf des Modells lesen" und diesen verborgenen „Platon"-Gedanken offenbaren, obwohl das Modell ihn nie ausgesprochen hat.
Größere Modelle = Bessere Übersetzer: Je größer die Modelle werden (von 7 Milliarden auf 72 Milliarden Parametern), desto besser wird der Adapter beim Übersetzen dieser Gedanken. Das Modell wird nicht nur klüger darin, Fragen zu beantworten; es wird besser darin, zu erklären, wie es denkt.

5. Warum das wichtig ist (laut dem Paper)

Das Paper argumentiert, dass wir das Modell selbst nicht ändern müssen, um es zu verstehen. Indem wir einfach diesen winzigen, trainierten „Übersetzer" basierend auf existierenden Daten hinzufügen, erhalten wir ein zuverlässiges Fenster in den internen Zustand des Modells.

Der Vorteil der „Selbstinterpretation": Der entscheidende Vorteil dieses Ansatzes ist, dass das Modell sich selbst interpretiert. Da der Adapter direkt in das ursprüngliche Modell integriert ist, sind die inneren Mechanismen des Erklärers exakt kompatibel mit den Gedanken des Erklärten.
- Das ermöglicht eine rekursive Selbstprüfung: Das Modell kann eine Erklärung seiner eigenen Gedanken lesen, dann seine Gedanken über diese Erklärung analysieren und so weiter – alles innerhalb ein und desselben Modells.
- Wie der Autor Keenan es formuliert: „Kritisch ist, dass das Add-on diese Muster zurück in dasselbe Modell speist, sodass das Modell sich selbst interpretiert. Dies öffnet die Tür zu zukünftiger KI, die ihr eigenes Denken von innen heraus untersuchen kann."
- Im Gegensatz zu anderen Methoden, bei denen ein separates, trainiertes Modell als Erklärer dient, bleibt hier die Einheit gewahrt, was tiefere Einblicke in die Denkprozesse ermöglicht, ohne eine Kette unterschiedlicher Modelle zu benötigen.

Kurz gesagt: Das Paper zeigt, dass, wenn man einem Sprachmodell einen winzigen, trainierten „Übersetzer" gibt, der auf bestehenden Karten seines Gehirns basiert, es zuverlässig sagen kann, was es denkt – selbst bei komplexen oder verborgenen Gedanken –, ohne dass es neu trainiert oder verändert werden muss.

Technisches Resümee: Selbstinterpretation aus Interpretierbarkeits-Artefakten lernen

1. Problemstellung

Große Sprachmodelle (LLMs) operieren durch hochdimensionale verborgene Aktivierungen, doch das Verständnis des semantischen Inhalts dieser internen Zustände bleibt eine zentrale Herausfrage der Interpretierbarkeit. Während die mechanistische Interpretierbarkeit strukturierte Erkenntnisse hervorgebracht hat (z. B. Sparse Autoencoder (SAE)-Features und kontrastive Aktivierungsvektoren), können Modelle nicht zuverlässig über ihre eigenen internen Zustände berichten.

Bestehende Methoden zur Selbstinterpretation, wie etwa solche, die Activation Patching verwenden (z. B. SelfIE, Patchscopes), versuchen, interne Repräsentationen in Prompts zu injizieren, um sprachliche Erklärungen zu generieren. Diese Methoden sind jedoch fragil:

Hyperparameter-Sensitivität: Kleine Änderungen in der Skalierung injizierter Vektoren können zu flüssigen, aber semantisch nicht fundierten Erklärungen führen.
Fragilität: Die meisten Vektoren haben enge gültige Bereiche für die Injektionsskalierung; außerhalb dieser Bereiche generiert das Modell selbstbewusste, aber falsche Beschreibungen.
Limitierungen des Fine-Tunings: Jüngste Ansätze, die Modelle darauf feinabstimmen, Fragen zu Aktivierungen zu beantworten, verändern die Gewichte des Modells, was potenziell genau die Repräsentationen verändert, die untersucht werden sollen. Idealerweise sollte der Interpret identisch mit dem Subjektmodell bleiben.

2. Methodik

Die Autoren schlagen vor, einen leichten Adapter auf bestehenden Interpretierbarkeits-Artefakten zu trainieren, um interne Aktivierungen in Sprache abzubilden, während das zugrunde liegende Sprachmodell (LM) vollständig eingefroren bleibt.

2.1. Trainingsrahmen

Input: Die Methode nutzt „Interpretierbarkeits-Artefakte“ als Überwachungsdaten, spezifisch Vektor-Label-Paare $(h, y)$ $(h, y)$ .
- Quelle 1: SAE-Decoder-Vektoren gepaart mit auto-interpretierbaren Labels.
- Quelle 2: Kontrastive Aktivierungsvektoren (abgeleitet von Prompts wie „Erzähle mir über [Thema]“) gepaart mit synthetischen Themenbeschreibungen.
Prozess:
1. Ein Aktivierungsvektor $h$ wird aus einem Quell-Prompt extrahiert (z. B. eine spezifische Schicht des LM).
2. Eine leichte Adapterfunktion $f(h)$ transformiert diesen Vektor.
3. Der transformierte Vektor wird in einen „Ziel-Prompt“ (eine erklärungssuchende Vorlage) auf der Ebene der Token-Embeddings (Schicht 0) injiziert.
4. Das eingefrorene LM generiert eine Beschreibung autoregressiv.
5. Zielsetzung: Minimierung des Cross-Entropy-Loss zwischen den generierten Tokens und dem Ground-Truth-Label $y$ . Es werden nur die Adapter-Parameter aktualisiert; das LM bleibt eingefroren.

2.2. Adapter-Architekturen

Das Paper evaluiert Adapter mit variierender Expressivität:

Identität: $f(h) = h$ (0 Parameter)
Nur Skalierung: $f(h) = \alpha \cdot h$ (1 Parameter)
Skalar-Affin: $f(h) = \alpha \cdot h + b$ ( $d_{model} + 1$ Parameter)
Skalar-Affin + Low-Rank: Fügt einen Low-Rank-Term $UV^T h$ hinzu
Full-Rank-Affin: $f(h) = Wh + b $($ d_{model}^2 + d_{model}$ Parameter)

2.3. Inferenz

In der Inferenz bildet der trainierte Adapter einen bisher ungesehenen Aktivierungsvektor in den Token-Embedding-Raum ab. Um die Skalierungs-Sensitivität zu adressieren, evaluiert das System mehrere Injektionsskalen (aus einem logarithmischen Gitter) und wählt die am besten performende Kandidatengenerierung aus.

3. Zentrale Beiträge und Ergebnisse

3.1. Überlegenheit trainierter Adapter

Das Training leichter Adapter übertrifft signifikant ungetrainierte Baselines (SelfIE) sowie die ursprünglichen Trainings-Labels selbst.

SAE-Feature-Labeling: Auf Llama-3.3-70B erreichten trainierte Adapter eine Generation Scoring Hit Rate von 70 %, womit sie die ursprünglichen Trainings-Labels (50 %) und das ungetrainierte SelfIE (48 %) übertrafen.
Themenidentifikation: Bei kontrastiven Aktivierungsvektoren verbesserte sich der Recall@1 von ~1 % (ungetraint) auf >90 % (trainiert).
Implizites Denken: Die Methode konnte „Brückenentitäten“ in Multi-Hop-Reasoning-Aufgaben erfolgreich dekodieren (z. B. die Identifizierung von „Platon“ in einer Abfrage über den Autor von Der Staat, ohne dass das Modell den Zwischenschritt verbalisieren musste). Trainierte Adapter detektierten Brückenentitäten in 91 % der Fälle gegenüber 56 % bei ungetrainierten Baselines.

3.2. Die entscheidende Rolle des Bias-Vektors

Eine überraschende Erkenntnis ist, dass ein skalar-affiner Adapter mit nur $d_{model} + 1$ Parametern für die meisten Gewinne ausreicht.

Der gelernte Bias-Vektor ( $b$ ) allein ist für etwa 85 % der Verbesserung gegenüber untrainierten Baselines verantwortlich.
Der Bias fungt als „Interpretations-Prior“, der das Modell zu validen Beschreibungsformaten und generischen Inhaltsmustern steuert, während der skalierte Input-Vektor die instanzspezifische Semantik bereitstellt.
Generalisierung: Einfachere Adapter (Skalar-Affin) generalisieren besser über Datensätze und Schichten hinweg als expressivere Alternativen.

3.3. Architektur vs. Repräsentationsgeometrie

Die Performance der Adapter-Architekturen hängt stark von der intrinsischen Dimensionalität der Trainingsdaten ab:

Kontrastive Vektoren (Niedrige Dimensionalität): Wikipedia-Themenvektoren konzentrieren >90 % der Varianz in ~200 Dimensionen. Hier sind Full-Rank-Adapter erfolgreich und erzielen die beste Performance ohne Overfitting.
SAE-Features (Hohe Dimensionalität): SAE-Features decken nahezu den gesamten Aktivierungsraum ab. Hier führen Full-Rank-Adapter zu katastrophalem Overfitting, indem sie eine hochdimensionale Lookup-Tabelle lernen. Skalar-Affine oder Skalar-Affine + Low-Rank-Adapter sind erforderlich, um Overfitting zu verhindern und die Generalisierung zu gewährleisten.

3.4. Skalierungsverhalten

Das Paper zeigt, dass sich die Selbstinterpretation mit der Modellgröße verbessert, unabhängig von allgemeinen Kapazitätsgewinnen.

Unter Verwendung einer „Tabu“-Baseline (bei der das Modell ein Thema beschreibt, ohne es beim Namen zu nennen) als Obergrenze für das Wissen, verringert sich die Lücke zwischen dem Wissen des Modells und seiner Fähigkeit, dieses Wissen zu berichten, mit zunehmender Modellgröße (von 7B bis 72B Parametern).
Die Leistung von trainiertem SelfIE wächst schneller als die reine Fähigkeit des Modells, Themen zu beschreiben, was darauf hindeutet, dass größere Modelle über zugänglichere interne semantische Strukturen verfügen, die der Adapter erschließen kann.

3.5. Cross-Dataset- und Cross-Model-Generalisierung

Adapter, die auf einem Datensatz trainiert wurden (z. B. Wikipedia-Themen), generalisieren auf andere (z. B. SAE-Features), wobei die Performance am höchsten ist, wenn die Trainings- und Inferenz-Datenverteilungen übereinstimmen.
Der Ansatz funktioniert über Modellfamilien hinweg (Llama, Gemma, Qwen), ohne dass modellspezifische SAEs erforderlich sind, sofern kontrastive Vektoren verwendet werden.

4. Bedeutung und Behauptungen

Das Paper behauptet, dass zuverlässige Selbstinterpretation aus leichten Transformationen entstehen kann, ohne das zugrunde liegende Modell zu modifizieren.

Reframing von Artefakten: Die Kernidee ist, dass Interpretierbarkeits-Artefakte (gelabelte Vektoren), die traditionell als Endpunkte der Analyse betrachtet werden, als Trainingsdaten zweckentfremdet werden können. Dies ermöglicht es Selbstinterpretationssystemen, sich automatisch zu verbessern, wenn die Interpretationsforschung fortschreitet.
Bewahrung des privilegierten Zugriffs: Durch das Einfrieren des Basismodells bewahrt die Methode den „privilegierten Zugriff“ des Interpreters auf die internen Zustände des Subjektmodells und vermeidet Artefakte, die durch Fine-Tuning entstehen könnten.
Verifizierbarkeit: Der Ansatz ermöglicht „RL from internal rewards“, wobei die Behauptungen eines Modells über seine internen Zustände gegen Verhalten verifiziert werden können (z. B. via Generation Scoring), was einen Weg zu Modellen ebnet, die verifizierbare Beweise für ihre eigenen Interna liefern können.
Effizienz: Das Training dieser Adapter ist rechentechnisch kostengünstig (ca. ~10 GPU-Stunden auf 70B-Skala), was sie zu einer skalierbaren Lösung für das Auditing von Frontier-Modellen macht.

Die Autoren kommen zu dem Schluss, dass die Selbstinterpretation zwar eine partielle Sichtbarkeit bietet, aber einen entscheidenden Mechanismus darstellt, um zu erkennen, wann Modelle Konzepte oder Intentionen kodieren, die von ihren expliziten Outputs abweichen, was zur KI-Sicherheit und zum Alignment-Auditing beiträgt.

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs