Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Each language version is independently generated for its own context, not a direct translation.

Das große Rätsel: Wie denken KI-Modelle wirklich?

Stellen Sie sich vor, Sie haben einen riesigen, super-intelligenten Bibliothekar (das KI-Modell). Wenn Sie ihn bitten, ein Rätsel zu lösen, tut er das. Aber die Forscher aus diesem Papier wollten wissen: Versteht er das Rätsel wirklich abstrakt, oder macht er es nur, weil er die Form der Frage kennt?

Bisher dachte man: „Wenn die KI das gleiche Konzept (z. B. „Gegenteil von") in verschiedenen Sprachen oder Fragestellungen löst, dann muss sie ein universelles, abstraktes Verständnis davon haben."

Die Forscher haben jedoch herausgefunden: Das ist nicht ganz richtig. Die KI benutzt zwei völlig verschiedene „Werkzeuge" für zwei verschiedene Aufgaben.

Die zwei Werkzeuge: Der „Befehlsgeber" und der „Philosoph"

Die Forscher haben zwei Arten von „Gedächtnisspuren" im Gehirn der KI gefunden. Man kann sie sich wie zwei verschiedene Teams vorstellen:

1. Der „Befehlsgeber" (Function Vectors / FV)

Was er macht: Er ist derjenige, der die KI tatsächlich dazu bringt, die richtige Antwort zu geben. Er ist der Motor, der das Auto zum Laufen bringt.
Sein Problem: Er ist sehr oberflächlich. Er verwechselt das Was mit dem Wie.
Die Analogie: Stellen Sie sich einen Koch vor, der ein Rezept für eine Suppe kennt.
- Wenn Sie ihm sagen: „Koch mir eine Suppe" (offene Frage), denkt er an einen Topf und einen Löffel.
- Wenn Sie ihm sagen: „Wählen Sie die richtige Suppe aus dieser Liste" (Multiple Choice), denkt er plötzlich an einen Kaffeebecher und einen Löffel aus Plastik.
- Für den „Befehlsgeber" ist das Rezept (die Suppe) untrennbar mit dem Geschirr (dem Format) verbunden. Wenn Sie ihm das Rezept aus einem anderen Land geben (z. B. auf Französisch), denkt er plötzlich an französische Töpfe und nicht mehr an die Suppe selbst.
- Ergebnis: Er funktioniert super, wenn das Format stimmt. Aber wenn Sie ihn in eine neue Situation stecken (z. B. eine andere Sprache oder Frageart), versagt er oder gibt seltsame Antworten, weil er das Format mit dem Inhalt vermischt.

2. Der „Philosoph" (Concept Vectors / CV)

Was er macht: Er versteht das Konzept wirklich abstrakt. Er weiß, was eine „Suppe" ist, egal ob sie in einem Topf, einem Becher oder auf Französisch serviert wird.
Sein Vorteil: Er ist sehr stabil. Er ignoriert die Oberflächendetails (Sprache, Frageform) und fokussiert sich nur auf die Idee.
Sein Nachteil: Er ist ein bisschen faul. Er kann die KI nicht alleine zum Laufen bringen. Er ist wie ein Philosoph, der tiefgründige Gedanken hat, aber keine Hand anlegt. Er braucht den „Befehlsgeber", um die eigentliche Arbeit zu erledigen.
Die Analogie: Der Philosoph sagt: „Es geht hier um das Konzept der Gegensätze." Er kümmert sich nicht darum, ob die Frage auf Deutsch, Französisch oder als Multiple-Choice-Frage gestellt wird. Er bleibt immer bei der gleichen Idee.

Das Experiment: Der „Verwirrte Bibliothekar"

Die Forscher haben ein spannendes Experiment gemacht. Sie haben der KI eine Frage gestellt, die zwei widersprüchliche Ideen enthielt:

„Nenne das Gegenteil von 'glücklich'." (Die eigentliche Aufgabe).
„Übersetze 'glücklich' ins Französische." (Eine Ablenkung).

Normalerweise würde die KI die Übersetzung machen, weil das im Text steht. Aber die Forscher haben versucht, die KI mit ihren beiden Werkzeugen zu „steuern".

Mit dem „Befehlsgeber" (FV): Wenn sie ihn aus einem englischen Text nahmen, konnte er die KI gut steuern, wenn die neue Frage auch auf Englisch war. Aber sobald sie die Frage auf Französisch stellten, verwirrte sich der Befehlsgeber. Er dachte: „Aha, Französisch! Ich muss ins Französische übersetzen!" und ignorierte die eigentliche Aufgabe. Er verwechselte die Sprache mit der Aufgabe.
Mit dem „Philosophen" (CV): Wenn sie ihn nutzten, passierte etwas Magisches. Der Philosoph sagte: „Nein, es geht um das Gegenteil!" Und die KI hörte auf, die Übersetzung zu machen, und gab stattdessen das richtige Gegenteil – und zwar auf Französisch, weil der Kontext es so verlangte. Der Philosoph verstand: „Die Aufgabe ist 'Gegenteil', die Sprache ist nur Verpackung."

Die große Erkenntnis

Die wichtigste Botschaft dieses Papers ist: Kausalität ist nicht dasselbe wie Invarianz.

Kausalität (Was passiert?): Der „Befehlsgeber" (FV) ist dafür verantwortlich, dass die KI die Antwort tatsächlich ausspuckt. Ohne ihn passiert nichts. Aber er ist an das Format gebunden.
Invarianz (Was ist wahr?): Der „Philosoph" (CV) hält das abstrakte Konzept in Schuss. Er ist stabil und universell, aber er treibt die KI nicht direkt an.

Zusammengefasst in einem Satz:
Die KI hat zwar ein tiefes, abstraktes Verständnis von Konzepten (wie ein Philosoph), aber um eine Aufgabe tatsächlich zu lösen, verlässt sie sich auf einen oberflächlichen Mechanismus (wie einen Befehlsgeber), der oft die Form der Frage mit dem Inhalt verwechselt.

Warum ist das wichtig?

Wenn wir KI-Modelle verbessern wollen, müssen wir verstehen, dass wir zwei Dinge trennen müssen:

Wie wir die KI dazu bringen, eine Aufgabe zu lösen (dafür brauchen wir den Befehlsgeber).
Wie wir sicherstellen, dass sie die Aufgabe richtig versteht, egal wie wir sie fragen (dafür brauchen wir den Philosophen).

Bisher haben wir gedacht, beides sei dasselbe. Dieses Papier zeigt uns, dass wir zwei getrennte Schaltkreise im Gehirn der KI haben, die unterschiedlich funktionieren. Das hilft uns, KI robuster zu machen, damit sie nicht verwirrt wird, wenn wir die Fragen nur ein bisschen anders formulieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Arbeit untersucht eine fundamentale Frage im Bereich der interpretierbaren KI: Repräsentieren Large Language Models (LLMs) Konzepte abstrakt, d. h. unabhängig von der Eingabeoberfläche (Surface Form)?

Bisherige Forschung (z. B. zu Function Vectors oder FVs) ging davon aus, dass kompakte Vektoren, die aus den Ausgaben bestimmter Aufmerksamkeitsköpfe (Attention Heads) gebildet werden, die zugrundeliegende Aufgabe kausal steuern und dabei formatinvariant sind. Die Autoren hinterfragen diese Annahme. Sie untersuchen, ob die Mechanismen, die für das In-Context Learning (ICL) kausal verantwortlich sind, identisch mit den Mechanismen sind, die abstrakte, formatunabhängige Konzeptrepräsentationen kodieren.

Die zentrale Hypothese ist, dass LLMs zwar abstrakte Konzepte enthalten, diese jedoch von den Komponenten getrennt sind, die das tatsächliche Modellverhalten (die Ausgabe) kausal antreiben.

2. Methodik

Die Studie vergleicht zwei verschiedene Ansätze zur Identifizierung relevanter Aufmerksamkeitsköpfe in Transformer-Modellen (Llama 3.1 8B/70B, Qwen 2.5 7B/72B) über sieben relationale Konzepte (z. B. Antonyme, Synonyme, Übersetzung) und drei Eingabeformate (offene Fragen auf Englisch/Französisch, Multiple-Choice).

A. Aktivierungs-Patching (Activation Patching - AP)

Ziel: Identifikation von Komponenten mit kausalen Effekten auf die Ausgabe.
Verfahren: Es werden „saubere" Prompts (korrekte Muster) und „korrupte" Prompts (unterbrochene Muster) erstellt. Die Aktivierungen aus den sauberen Prompts werden in die korrupten Prompts injiziert.
Metrik: Der Causal Indirect Effect (CIE) misst, wie stark die Wahrscheinlichkeit für das erwartete Token steigt, wenn die Aktivierung eines bestimmten Kopfes gepatcht wird.
Ergebnis: Die Köpfe mit den höchsten durchschnittlichen indirekten Effekten (AIE) werden zu Function Vectors (FVs) zusammengefasst. Diese steuern die ICL-Leistung.

B. Repräsentations-Ähnlichkeits-Analyse (Representational Similarity Analysis - RSA)

Ziel: Identifikation von Komponenten, die formatinvariante Struktur kodieren.
Verfahren: Für jeden Kopf wird eine Repräsentations-Ähnlichkeits-Matrix (RSM) der Ausgaben über verschiedene Prompts berechnet. Diese wird mit einer Design-Matrix verglichen, die markiert, welche Prompts dasselbe Konzept teilen (unabhängig vom Format).
Metrik: Die Spearman-Korrelation ( $\rho$ ) zwischen RSM und Design-Matrix (Concept-RSA) quantifiziert, wie stark ein Kopf das Konzept unabhängig vom Format repräsentiert.
Ergebnis: Die Köpfe mit den höchsten RSA-Werten werden zu Concept Vectors (CVs) zusammengefasst. Diese repräsentieren das abstrakte Konzept.

C. Steering-Experimente

Um die Funktionalität zu testen, werden die Vektoren (FVs und CVs) in den residualen Stream des Modells injiziert (Steering), um die Vorhersagen in einem mehrdeutigen ICL-Setup (AmbiguousICL) zu lenken. Dabei wird geprüft, ob die Vektoren auch bei Formatwechseln (Out-of-Distribution, OOD) stabil funktionieren.

3. Wichtige Beiträge und Ergebnisse

A. FVs sind nicht vollständig invariant

Die Studie zeigt, dass FVs, die für dasselbe Konzept (z. B. „Antonym") aus unterschiedlichen Formaten (offene Frage vs. Multiple-Choice) extrahiert werden, nahezu orthogonal zueinander sind.

Bedeutung: FVs vermischen das Konzept mit der Eingabeoberfläche. Sie kodieren „Antonym in Multiple-Choice-Format" statt des abstrakten Konzepts „Antonym".
Klusterung: Ähnlichkeitsmatrizen zeigen, dass FVs nach Eingabeformat clustern, nicht nach Konzept.

B. Entdeckung von Concept Vectors (CVs)

Durch RSA wurden spezifische Köpfe identifiziert, die Konzepte konsistent über Formate hinweg repräsentieren.

Stabilität: CVs clustern nach Konzept, unabhängig davon, ob die Eingabe auf Englisch, Französisch oder als Multiple-Choice vorliegt.
Abstraktionsniveau: CVs kodieren relationale Strukturen auf einem höheren Abstraktionsniveau als FVs.

C. Disjunktheit der neuronalen Schaltkreise

Ein zentrales Ergebnis ist, dass die für FVs ausgewählten Köpfe (kausal) und die für CVs ausgewählten Köpfe (invariant) überwiegend disjunkt sind.

Obwohl beide Gruppen in ähnlichen Schichten des Modells auftreten, gibt es kaum Überschneidungen in den identifizierten Köpfen (Top-K-Überlappung nahe Null).
Dies widerlegt die Hypothese eines einzigen Schaltkreises, der sowohl Invarianz als auch Kausalität für ICL übernimmt. Es gibt zwei getrennte Mechanismen.

D. Trade-off beim Steering (Lenkung)

Die Experimente zur Vektor-Injektion offenbaren einen klaren Kompromiss:

In-Distribution (ID): Wenn Extraktions- und Anwendungsformat übereinstimmen (z. B. beide Englisch, offene Fragen), erzielen FVs die stärksten Leistungssteigerungen. Sie sind die primären Treiber des Verhaltens.
Out-of-Distribution (OOD): Wenn sich das Format ändert (z. B. Extraktion aus Französisch, Anwendung auf Englisch), fallen die Leistungen von FVs drastisch ab. CVs hingegen zeigen eine viel stabilere Generalisierung über Formate und Sprachen hinweg.
Artefakte: FVs neigen dazu, Format-Artefakte zu übertragen (z. B. französische Übersetzungen oder Multiple-Choice-Klammern), während CVs rein konzeptbasiert lenken.

4. Signifikanz und Implikationen

Die Arbeit liefert eine wichtige mechanistische Differenzierung im Verständnis von LLMs:

Trennung von Kausalität und Invarianz: Die Fähigkeit eines Modells, ein Konzept abstrakt zu repräsentieren (Invarianz), ist nicht dasselbe wie der Mechanismus, der dieses Konzept kausal in eine Ausgabe umsetzt (Kausalität).
Neue Sicht auf ICL: Die bisherige Annahme, dass ein einzelner „Function Vector" die Aufgabe kausal steuert und dabei invariant ist, ist unvollständig. Stattdessen scheint das Modell format-spezifische Basins (FVs) für die Ausführung zu nutzen, während abstrakte Repräsentationen (CVs) in separaten, parallelen Schaltkreisen existieren.
Praktische Anwendung:
- Für maximale Kontrolle innerhalb bekannter Formate sind FVs überlegen.
- Für robuste Steuerung über verschiedene Sprachen und Prompt-Typen hinweg oder zum Abfragen abstrakten Wissens sind CVs besser geeignet, auch wenn die absolute Leistungssteigerung geringer ausfällt.
Theoretische Konsequenz: Dies stützt die Idee, dass Analogiebildung und abstraktes Denken in LLMs auf einer Ebene existieren, die nicht direkt mit der Ausführungsebene (Execution) gekoppelt ist. LLMs lösen ICL-Aufgaben oft über format-spezifische Mechanismen, obwohl sie abstrakte Repräsentationen besitzen.

Zusammenfassend zeigt das Paper, dass Kausalität $\neq$ Invarianz ist: Die Komponenten, die ein Modell dazu bringen, eine Aufgabe zu lösen, sind nicht unbedingt die Komponenten, die das abstrakte Konzept dieser Aufgabe repräsentieren.

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs