On the Non-Identifiability of Steering Vectors in Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt (een "Large Language Model" of LLM) die alles kan schrijven. Je wilt deze robot een beetje "op zijn kop zetten" om hem bijvoorbeeld beleefder, grappiger of formeler te laten klinken.

Onderzoekers doen dit door een klein, onzichtbaar "stuurwiel" (een vector) toe te voegen aan de interne hersenen van de robot. Ze noemen dit steering. De gedachte is: "Als we dit specifieke stuurwiel draaien, wordt de robot beleefd."

Deze paper, geschreven door Sohan Venkatesh en Ashish Mahendran Kurapath, zegt echter iets heel verbluffends: We weten eigenlijk niet welk stuurwiel we precies hebben gedraaid.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Onzichtbare" Deuken

Stel je voor dat je een grote, zachte matras hebt. Je wilt de matras zo veranderen dat hij aan de linkerkant iets hoger wordt. Je duwt er een stokje in.

De oude gedachte: "Ah, ik heb precies op die ene plek geduwd. Die plek is nu 'beleefd'."
De nieuwe ontdekking: Het blijkt dat je op duizenden verschillende plekken op de matras had kunnen duwen, en het resultaat zou precies hetzelfde zijn.

De onderzoekers bewijzen wiskundig dat er oneindig veel verschillende richtingen zijn die je kunt kiezen om de robot "beleefd" te maken. Als je de robot een duw geeft in richting A, ziet hij er beleefd uit. Maar als je hem een duw geeft in richting B (die er heel anders uitziet), ziet hij exact hetzelfde beleefd uit.

2. De Vergelijking: Het Schaduwspeeltje

Stel je voor dat je een poppetje hebt en een lamp die een schaduw op de muur werpt.

De schaduw is wat de robot zegt (de output).
De pop is wat er in de robot gebeurt (de interne activatie).

De onderzoekers zeggen: "We kunnen de schaduw op de muur veranderen door de pop te draaien. Maar we kunnen de pop ook op een heel andere manier draaien, en de schaduw blijft precies hetzelfde!"

Er is een deel van de pop (de "null space" in de wiskunde) dat voor de lamp onzichtbaar is. Je kunt die onzichtbare delen van de pop draaien, schudden of verdraaien, en de schaduw op de muur verandert niet. Omdat we alleen naar de schaduw (de tekst die de robot schrijft) kijken, kunnen we nooit weten hoe de pop er echt uitziet.

3. Wat hebben ze bewezen?

De auteurs hebben dit getest met echte robots (modellen zoals Qwen en Llama). Ze deden het volgende experiment:

Ze maakten een "beleefd" stuurwiel (vector).
Ze namen dat stuurwiel en voegden er een willekeurige, onzichtbare "ruis" aan toe (een duw in een richting die de robot normaal gesproken niet ziet).
Het resultaat: De robot bleef precies even beleefd als daarvoor.

Het was alsof je een auto bestuurt. Je dacht dat je het stuur naar links draaide om linksaf te slaan. Maar het bleek dat je ook naar rechts had kunnen sturen, of rechtuit, en de auto zou toch precies dezelfde bocht hebben genomen.

4. Waarom is dit belangrijk?

Dit klinkt misschien als een klein probleem, maar het is eigenlijk een groot nieuws voor de manier waarop we AI begrijpen.

We denken dat we de 'waarheid' vinden: Veel onderzoekers denken: "We hebben een vector gevonden die 'eerlijkheid' betekent."
De realiteit: Die vector is misschien gewoon toeval. Het kan zijn dat er een andere, heel andere vector bestaat die ook 'eerlijkheid' doet, maar die er totaal anders uitziet. Omdat we die niet kunnen onderscheiden, kunnen we niet met zekerheid zeggen dat we een specifieke "gedachte" in de robot hebben gevonden.

Het is alsof je een taalboek leest en denkt: "Dit woord betekent 'liefde'." Maar als je het boek in een andere taal zou schrijven, zou datzelfde woord misschien "haat" betekenen, maar de zin zou er nog steeds hetzelfde uitzien. Je kunt de betekenis niet vastpinnen zonder meer regels te hebben.

5. De Conclusie: We moeten voorzichtig zijn

De paper zegt niet dat we geen stuurwiel moeten gebruiken. Je kunt de robot nog steeds beleefd maken! Maar het zegt wel:

"Wees niet te zeker dat je precies weet waarom het werkt."

We kunnen de robot gedrag laten veranderen, maar we kunnen niet met 100% zekerheid zeggen dat we een specifieke, unieke "knop" hebben gevonden. Er zijn te veel knoppen die hetzelfde effect hebben.

Kort samengevat:
Je kunt de robot wel sturen, maar je kunt niet zeggen welke van de duizend mogelijke stuurwielen je precies hebt gebruikt. Het is alsof je een raam openzet om frisse lucht te krijgen: het maakt niet uit of je het raam naar links of naar rechts duwt, de lucht komt binnen. Maar als je denkt dat je precies weet hoe het raam beweegt, heb je het misschien mis.

Dit betekent dat we voor de toekomst niet alleen moeten kijken naar wat de robot zegt, maar ook moeten kijken naar hoe de robot binnenin werkt, om echt te begrijpen wat er gebeurt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Over de Niet-Identificeerbaarheid van Stuurvectoren in Grote Taalmodellen

Auteurs: Sohan Venkatesh en Ashish Mahendran Kurapath (Manipal Institute of Technology Bengaluru)

1. Probleemstelling

Activiteitssturing (activation steering) is een populaire techniek om het gedrag van Grote Taalmodellen (LLM's) te controleren door geleerde richtingsvectoren toe te voegen aan de interne activeringen. De huidige interpretatie veronderstelt dat deze "stuurvectoren" (of persona-vectoren) unieke, betekenisvolle interne representaties onthullen die causaal verantwoordelijk zijn voor specifiek gedrag (bijv. beleefdheid, formaliteit).

Het artikel daagt deze fundamentele aanname uit. De auteurs stellen dat stuurvectoren fundamenteel niet-identificeerbaar zijn onder standaard observatievoorwaarden. Dit betekent dat er oneindig veel geometrisch verschillende vectoren bestaan die exact hetzelfde waarneembare gedrag (output) genereren. Zonder extra structurele beperkingen is het onmogelijk om te bepalen welke specifieke vector de "ware" causale factor vertegenwoordigt; elke gevonden vector is slechts één van vele equivalenten.

2. Methodologie

De auteurs combineren theoretische analyse met empirische validatie.

A. Theoretisch Kader

Model: Ze beschouwen een voorgeprogrammeerde transformer met $L$ lagen. Een stuurinterventie wordt gedefinieerd als $\tilde{h}_\ell(x) = h_\ell(x) + \alpha v$ , waarbij $v$ de stuurvector is.
Observatieruimtes: De analyse focust op Regime 2: witte-boks toegang tot één laag (waarbij interne activeringen zichtbaar zijn), maar zonder toegang tot de volledige modelarchitectuur of gewichten.
Linearisatie: Ze benaderen het effect van sturing lokaal lineair via de Jacobiaan $J_\ell(x) = \frac{\partial o}{\partial h_\ell}$ . De output verandering wordt benaderd als $\alpha J_\ell(x)v$ .
Identificeerbaarheid: Een vector $v$ is identificeerbaar als er geen andere vector $v' \neq v$ bestaat die dezelfde outputverdeling produceert voor alle prompts.

B. Empirische Opzet

Modellen: Qwen2.5-3B-Instruct en Llama-3.1-8B-Instruct.
Eigenschappen: Drie semantische dimensies: Formaliteit, Beleefdheid en Humor.
Procedure:
1. Extractie van een basisstuurvector $v$ via contrastieve promptparen (bijv. formeel vs. informeel).
2. Generatie van een willekeurige orthogonale vector $v_\perp$ (lokaal loodrecht op $v$ ).
3. Constructie van een verstoord vector $v' = v + v_\perp$ .
4. Vergelijking van de output van $v$ en $v'$ op een set van testprompts.
Metingen: Cohen's $d$ (effectgrootte) en correlatie tussen semantische scores. Ze testen ook over verschillende distributies (domeinverschuivingen) en sturingssterktes ( $\alpha$ ).

3. Belangrijkste Bijdragen

Formele Bewijsvoering van Niet-Identificeerbaarheid:
De auteurs bewijzen (Propositie 1) dat onder lokale lineaire benadering en zonder extra structurele aannames, stuurvectoren niet-identificeerbaar zijn. Dit komt door de nulpunts-ambiguïteit (null-space ambiguity). Als $v_0$ in de nulpunt van de Jacobiaan zit ( $J_\ell v_0 = 0$ ), dan is $v' = v + v_0$ observationeel equivalent aan $v$ . Omdat LLM's overgeparameteriseerd zijn en de effectieve rang van de Jacobiaan vaak lager is dan de hidden dimension, is de nulpunt-dimensie groter dan nul, wat leidt tot oneindig veel equivalente vectoren.
Empirische Validatie:
Ze tonen aan dat orthogonale verstoringen ( $v + v_\perp$ ) bijna identiek effectief zijn als de originele vector. In hun experimenten behalen orthogonale vectoren 95–100% van de oorspronkelijke sturingseffectiviteit, met verwaarloosbare effectgroottes (Cohen's $d < 0.2$ ) tussen de originele en verstoord vector.
Robuustheid over Distributies:
De niet-identificeerbaarheid is een robuust geometrisch eigenschap. Het blijft bestaan over verschillende prompt-distributies (onderwerp, genre, veiligheidsstijl). Hoewel de effectgroottes iets toenemen bij distributieveranderingen, verdwijnt de equivalentie niet; meer data of diverse prompts lossen het probleem niet op omdat de nulpunt-ruimte wordt bepaald door de modelgewichten, niet door de promptverdeling.

4. Resultaten

Verwaarloosbare Verschillen: Voor zowel Qwen2.5-3B als Llama-3.1-8B waren de verschillen in semantische scores tussen sturing met $v$ en $v + v_\perp$ statistisch verwaarloosbaar (gemiddelde Cohen's $d$ rond 0.08 - 0.10).
Schaal-invariantie: De equivalentie bleef bestaan over verschillende sturingssterktes ( $\alpha \in \{0.0, 0.5, 1.0, 2.0\}$ ).
Logit-Niveau Analyse: Een aanvullende analyse op logit-niveau (Appendix A) toonde aan dat orthogonale verstoringen systematisch kleinere afwijkingen in de token-waarschijnlijkheidsverdeling veroorzaken dan willekeurige richtingen, wat bevestigt dat de outputverdeling behouden blijft.
Geen Oplossing door Meer Data: De theorie (Cramér-Rao ondergrens) en experimenten tonen aan dat het verzamelen van meer data de ambiguïteit niet oplost, omdat de informatie over de nulpuntsrichtingen fundamenteel ontbreekt in de observaties.

5. Betekenis en Conclusie

De bevindingen hebben diepgaande gevolgen voor interpretatie en uitlijning (alignment) van AI:

Grens aan Interpretatie: Claims dat een specifieke vector "de betekenis van eerlijkheid" of "beleefdheid" vertegenwoordigt, zijn wetenschappelijk niet onderbouwd zonder extra structurele aannames. De gevonden richting is slechts één van vele mogelijke richtingen die hetzelfde gedrag produceren.
Causale vs. Heuristische Controle: Sturing kan effectief zijn als een heuristische controle (gedrag aanpassen), maar het biedt geen principiële causale inzicht in de interne representaties van het model.
Noodzaak van Structurele Beperkingen: Om betrouwbare en interpreteerbare interventies te bereiken, moeten onderzoekers verder kijken dan puur gedragstests. Er zijn structurele beperkingen nodig (zoals onafhankelijkheid, sparsiteit of invariantie-objectieven) om de symmetrieën te breken en de unieke, betekenisvolle factoren te isoleren.

Kortom, het artikel waarschuwt dat de huidige interpretatie van stuurvectoren als "ware" interne representaties een illusie is veroorzaakt door de hoge dimensie en geometrie van LLM's, en dat betrouwbaarere methoden voor uitlijning nieuwe theoretische raamwerken vereisen.