On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen riesigen, hochintelligenten Roboter (einen sogenannten „Large Language Model" oder LLM), der Texte schreibt. Du möchtest ihn dazu bringen, sich wie ein höflicher Professor zu verhalten oder wie ein witziger Clown.

Forscher haben eine Methode entwickelt, um das zu tun: Sie fügen dem Roboter einen kleinen, unsichtbaren „Schub" in seinem Gehirn hinzu. Dieser Schub wird Steering Vector (Lenkvektor) genannt. Man stellt sich das wie einen Hebel vor, den man umlegt, um den Roboter in eine bestimmte Richtung zu lenken.

Bisher glaubten alle: „Wenn wir diesen Hebel finden, dann haben wir das wahre Geheimnis gefunden, wie der Roboter denkt. Es gibt nur einen einzigen, perfekten Hebel für 'Höflichkeit'."

Diese neue Studie sagt jedoch: „Nein, das ist ein Trugschluss."

Hier ist die einfache Erklärung, warum das so ist, mit ein paar bildhaften Vergleichen:

1. Der unsichtbare Schatten (Das Kernproblem)

Stell dir vor, du stehst in einem dunklen Raum und hältst eine Taschenlampe (den Roboter) auf eine Wand (die Ausgabe des Textes). Du willst den Lichtstrahl auf einen bestimmten Punkt an der Wand lenken.

Die Forscher sagen: Es gibt unendlich viele verschiedene Wege, wie du die Taschenlampe halten kannst, damit das Licht genau auf denselben Punkt fällt.

Du könntest die Lampe leicht nach links neigen.
Du könntest sie leicht nach rechts neigen.
Du könntest sie sogar ein bisschen höher halten.

Solange der Lichtstrahl am Ende auf dem gleichen Fleck landet, sieht die Welt (der Text) genau gleich aus. Aber die Art und Weise, wie du die Lampe hältst (die interne Einstellung), ist völlig unterschiedlich.

In der Mathematik nennen sie das den „Nullraum". Das ist ein Bereich im Gehirn des Roboters, den wir von außen gar nicht sehen können. Wenn du etwas in diesen Bereich schiebst, passiert auf der Wand (im Text) gar nichts. Aber du hast trotzdem etwas im Inneren verändert.

2. Der „Zufalls-Hebel"

Die Forscher haben das im Labor getestet. Sie haben einen „perfekten" Hebel für Höflichkeit gefunden. Dann haben sie gesagt: „Okay, nehmen wir diesen Hebel und fügen einen völlig zufälligen, chaotischen Schub hinzu, der senkrecht dazu steht (wie wenn man den Hebel gleichzeitig nach vorne und zur Seite drückt)."

Das Ergebnis war schockierend:
Der Roboter schrieb immer noch genauso höfliche Texte! Der zufällige, chaotische Schub hatte fast keine Auswirkung auf das Endergebnis.

Die Analogie:
Stell dir vor, du fährst ein Auto nach Norden.

Der originale Hebel ist das Lenkrad, das du nach links drehst.
Der neue, zufällige Hebel ist, als würdest du gleichzeitig mit dem Fuß auf das Gaspedal treten und das Radio lauter drehen.
Wenn das Auto trotzdem genau nach Norden fährt, dann war das „Gaspedal und Radio" (der zufällige Teil) für die Richtung irrelevant.

Das bedeutet: Der Hebel, den die Forscher gefunden haben, ist nicht eindeutig. Es gibt tausende andere Hebel, die genau das Gleiche bewirken. Wir können also nicht sicher sagen: „Aha! Dieser spezifische Hebel ist die Höflichkeit." Er ist nur ein Weg, Höflichkeit zu simulieren.

3. Warum mehr Daten nicht helfen

Man könnte denken: „Wenn wir nur noch mehr Texte analysieren und noch mehr Hebel ausprobieren, finden wir dann den einen wahren Hebel?"

Die Antwort ist: Nein.

Stell dir vor, du versuchst, die Form eines unsichtbaren Objekts zu erraten, indem du nur die Schatten an der Wand betrachtest. Wenn das Objekt eine Kugel ist, sieht der Schatten immer wie ein Kreis aus, egal wie du die Lampe drehst. Du kannst die Kugel nicht rekonstruieren, nur weil du mehr Schatten hast.

Egal wie viele verschiedene Fragen du dem Roboter stellst, solange die „Maschine" (die Mathematik im Inneren) so funktioniert, gibt es immer diesen unsichtbaren Bereich, den du nicht auflösen kannst. Es ist kein Mangel an Daten, sondern ein fundamentales Problem der Geometrie.

Was bedeutet das für uns?

Keine magische Entschlüsselung: Wenn Forscher sagen „Wir haben den Hebel für 'Wahrheit' gefunden", dann ist das vielleicht nur ein Zufallstreffer. Es gibt viele andere Hebel, die auch „Wahrheit" simulieren, aber ganz anders im Inneren aussehen.
Vorsicht bei der Kontrolle: Wir können Roboter zwar gut steuern (sie schreiben das, was wir wollen), aber wir verstehen nicht wirklich wie oder warum sie es tun. Es ist wie das Bedienen eines Fernbedienungsgeräts ohne zu wissen, wie die Elektronik im Inneren funktioniert.
Die Zukunft: Um Roboter wirklich sicher und verständlich zu machen, reicht es nicht, nur auf das zu schauen, was sie sagen (die Ausgabe). Wir brauchen neue Regeln und Einschränkungen, die uns helfen, den einen wahren Hebel zu finden und nicht nur einen von vielen zufälligen.

Zusammenfassend:
Die Studie zeigt, dass wir beim Steuern von KI-Modellen oft nur einen von vielen möglichen Wegen finden. Es ist wie das Öffnen einer Tür mit einem Schlüsselbund: Es gibt viele Schlüssel, die die Tür öffnen, aber nur einer ist der „richtige" Schlüssel für das Schloss. Bisher dachten wir, wir hätten den richtigen gefunden, aber eigentlich haben wir nur irgendeinen gefunden, der funktioniert. Und das macht es schwierig, die KI wirklich zu verstehen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Zur Nicht-Identifizierbarkeit von Steuervektoren in Large Language Models (LLMs)

Autoren: Sohan Venkatesh und Ashish Mahendran Kurapath (Manipal Institute of Technology Bengaluru)

1. Problemstellung

Aktivierungs-Steering (Steuerung von Aktivierungen) ist eine weit verbreitete Methode, um das Verhalten von Large Language Models (LLMs) zu kontrollieren, indem gelernte Richtungsvektoren zu den intermediären Aktivierungen hinzugefügt werden. Diese Techniken werden oft so interpretiert, dass sie bedeutungsvolle interne Repräsentationen (z. B. „Persona"-Vektoren für Höflichkeit oder Formalität) offenlegen.

Die zugrundeliegende Annahme ist jedoch, dass diese Steuervektoren identifizierbar sind – d. h., dass es einen einzigartigen Vektor gibt, der das beobachtbare Verhalten (Input-Output) bestimmt. Das Paper stellt diese Annahme in Frage und argumentiert, dass unter den Standardbedingungen des Zugriffs auf das Modell (White-Box, Zugriff auf eine einzelne Schicht) Steuervektoren fundamental nicht identifizierbar sind. Das bedeutet, dass unendlich viele geometrisch verschiedene Richtungen exakt das gleiche beobachtbare Verhalten erzeugen können, was die Interpretierbarkeit und die kausale Zuordnung von Bedeutungen zu spezifischen Vektoren infrage stellt.

2. Methodik

Die Arbeit kombiniert eine formale theoretische Analyse mit umfangreichen empirischen Experimenten.

Theoretischer Rahmen

Modellierung: Die Autoren betrachten ein vortrainiertes Transformer-Modell $f_\theta$ . Eine Steuerung wird als Hinzufügen eines Vektors $v$ zur Aktivierung $h_\ell$ definiert: $\tilde{h}_\ell = h_\ell + \alpha v$ .
Linearisierung: Unter der Annahme lokaler Linearität (gültig für kleine $\alpha$ ) wird der Effekt auf die Ausgabe-Logits durch die Jacobi-Matrix $J_\ell$ approximiert: $o \approx o_0 + \alpha J_\ell v$ .
Identifizierbarkeits-Definition: Ein Vektor $v$ ist identifizierbar, wenn keine andere Vektorkonfiguration $v' \neq v$ (bis auf Skalierung) die gleiche Verteilung der beobachtbaren Ausgaben über alle Prompts hinweg erzeugt.
Nullraum-Analyse: Der Kern der Theorie basiert auf der Eigenschaft der Jacobi-Matrix $J_\ell$ . Wenn der Rang von $J_\ell$ kleiner als die Dimension der Aktivierung $d$ ist (was in überparametrisierten Modellen typisch ist), existiert ein nicht-trivialer Nullraum ( $\ker(J_\ell)$ ). Jeder Vektor $v_0$ in diesem Nullraum hat die Eigenschaft $J_\ell v_0 = 0$ .

Empirisches Design

Modelle: Qwen2.5-3B-Instruct und Llama-3.1-8B-Instruct.
Merkmale (Traits): Formalität, Höflichkeit und Humor.
Experimenteller Aufbau:
1. Extraktion eines Baseline-Steuervektors $v$ aus kontrastiven Prompt-Paaren.
2. Generierung zufälliger, orthogonaler Vektoren $v_\perp$ (senkrecht zu $v$ ).
3. Konstruktion gestörter Vektoren $v' = v + v_\perp$ .
4. Vergleich der semantischen Ausgaben von $v$ und $v'$ unter Verwendung von Bewertungsskalen (Lexikalische Heuristiken) und Logit-Analysen.
5. Tests unter verschiedenen Bedingungen: unterschiedliche Skalierungsfaktoren ( $\alpha$ ), verschiedene Prompt-Verteilungen (Distribution Shift) und verschiedene Seed-Größen.

3. Wichtige Beiträge

Formaler Beweis der Nicht-Identifizierbarkeit:
Die Autoren beweisen, dass unter dem Regime des White-Box-Zugriffs auf eine einzelne Schicht (ohne zusätzliche strukturelle Einschränkungen) Persona-Vektoren nicht identifizierbar sind. Es existieren unendlich viele Vektoren $v' = v + v_0$ (wobei $v_0 \in \ker(J_\ell)$ ), die das gleiche beobachtbare Verhalten erzeugen. Dies ist eine geometrische Eigenschaft des Modells, keine Folge unzureichender Daten.
Empirische Validierung der Äquivalenzklassen:
Die Experimente zeigen, dass orthogonale Störungen (die Komponenten im Nullraum hinzufügen) eine fast identische Wirksamkeit wie die originalen Vektoren haben.
- Ergebnis: Orthogonale Vektoren erreichen 95–100 % der ursprünglichen Steering-Effizienz.
- Statistik: Der Cohen's $d$ (Effektgröße) zwischen dem originalen Vektor und dem gestörten Vektor liegt nahe Null ( $d < 0.2$ ), was auf vernachlässigbare Unterschiede hindeutet.
Robustheit über Verteilungen hinweg:
Die Nicht-Identifizierbarkeit bleibt auch unter Distribution Shift (z. B. Wechsel von medizinischen zu kreativen Texten oder Sicherheits-Prompts) bestehen. Dies widerlegt die Annahme, dass eine größere Vielfalt an Prompts die Identifizierbarkeit wiederherstellen könnte. Der Nullraum wird durch die Modellgewichte bestimmt, nicht durch die Prompt-Verteilung.

4. Ergebnisse

Geometrische Äquivalenz: Sowohl für Qwen2.5-3B als auch für Llama-3.1-8B zeigen die Daten, dass die extrahierten Vektoren nur eine von vielen möglichen Richtungen sind, die das gewünschte Verhalten erzeugen.
Skaleninvarianz: Die Äquivalenz zwischen $v$ und $v + v_\perp$ bleibt über verschiedene Stärken der Steuerung ( $\alpha \in \{0.0, 0.5, 1.0, 2.0\}$ ) stabil.
Logit-Level-Analyse: Eine detaillierte Analyse der Next-Token-Logits zeigt, dass orthogonale Perturbationen systematisch kleinere Abweichungen in den Logits verursachen als zufällige Richtungen. Die Token-Übereinstimmung zwischen $v$ und $v+v_\perp$ liegt zwischen 81 % und 96 %.
Keine Lösung durch mehr Daten: Die theoretische Analyse (Appendix E) zeigt mittels der Cramér-Rao-Schranke, dass die Varianz von Schätzern für Nullraum-Komponenten unendlich ist. Mehr Daten können die Nicht-Identifizierbarkeit nicht beheben, da die Information in diesen Richtungen geometrisch nicht vorhanden ist.

5. Bedeutung und Implikationen

Grenzen der Interpretierbarkeit: Die Arbeit stellt infrage, ob behauptet werden kann, ein spezifischer Vektor „repräsentiere" ein semantisches Konzept (z. B. Ehrlichkeit). Da unendlich viele Vektoren das gleiche Ergebnis liefern, ist die Zuordnung eines Vektors zu einem kausalen Faktor oft ein Artefakt der Messmethode und nicht eine intrinsische Eigenschaft des Modells.
Unterscheidung zwischen Kontrolle und Verständnis: Methoden zur Verhaltenskontrolle (Alignment) können erfolgreich sein, ohne dass wir ein kausales Verständnis der internen Repräsentationen haben. Eine erfolgreiche Steuerung garantiert keine Interpretierbarkeit.
Notwendigkeit struktureller Einschränkungen: Um zuverlässige und interpretierbare Interventionen zu ermöglichen, reichen reine Verhaltens-Tests (Input-Output) nicht aus. Es sind zusätzliche strukturelle Annahmen oder Einschränkungen (z. B. Unabhängigkeitsannahmen wie in ICA, Sparsity-Regularisierung) notwendig, um die Symmetrien zu brechen und eindeutige Vektoren zu isolieren.
Zukunftsausblick: Die Autoren fordern, dass zukünftige Forschung sich auf die Entwicklung von Methoden konzentriert, die diese Nicht-Identifizierbarkeit adressieren, z. B. durch Multi-Environment-Learning oder strukturelle Regularisierung, um wirklich kausale Faktoren zu extrahieren.

Fazit: Das Paper zeigt auf, dass die aktuelle Praxis des LLM-Steering auf einer fundamentalen geometrischen Mehrdeutigkeit beruht. Die gefundene „Richtung" ist oft nur eine von vielen äquivalenten Lösungen, was die wissenschaftliche Grundlage für Behauptungen über die Entschlüsselung von Modell-Intentionen erschüttert.

On the Non-Identifiability of Steering Vectors in Large Language Models

1. Der unsichtbare Schatten (Das Kernproblem)

2. Der „Zufalls-Hebel"

3. Warum mehr Daten nicht helfen

Was bedeutet das für uns?

Titel: Zur Nicht-Identifizierbarkeit von Steuervektoren in Large Language Models (LLMs)

1. Problemstellung

2. Methodik

Theoretischer Rahmen

Empirisches Design

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey