Causality $\neq$ Invariance: Function and Concept Vectors in LLMs

Each language version is independently generated for its own context, not a direct translation.

Titel: Waarom AI soms "slim" is, maar niet altijd "begrijpelijk": Een verhaal over twee soorten geheugen

Stel je voor dat een groot taalmodel (zoals een geavanceerde AI) een enorme bibliotheek is. In deze bibliotheek staan boeken over alles: hoe je woorden vertaalt, hoe je tegenwoorden vindt (zoals 'warm' en 'koud'), en hoe je zinnen maakt.

De onderzoekers van dit paper hebben ontdekt dat deze bibliotheek niet één groot, uniform geheugen heeft. In plaats daarvan heeft de AI twee verschillende soorten "denkers" die samenwerken, maar heel verschillend werken.

Hier is de uitleg, vertaald naar alledaagse taal:

1. De twee denkers: De "Actieve Werknemer" en de "Filosoof"

De onderzoekers hebben twee soorten vectoren (dat zijn wiskundige representaties van wat de AI denkt) ontdekt:

De Actieve Werknemer (Function Vectors - FV's):
- Wat doet hij? Hij zorgt ervoor dat de AI direct het juiste antwoord geeft. Hij is de "uitvoerder".
- Hoe werkt hij? Hij is heel goed in zijn werk, maar hij is ook een beetje oppervlakkig. Hij leest de vraag en kijkt naar hoe de vraag gesteld is.
- Het probleem: Als je hem vraagt om een tegenwoord te vinden in een meerkeuzevraag, denkt hij: "Ah, meerkeuze! Dan moet ik een haakje gebruiken en een letter kiezen." Als je hem dezelfde vraag stelt in het Frans, denkt hij: "Ah, Frans! Dan moet ik een Frans woord gebruiken."
- Kortom: Hij koppelt het concept (tegenwoord) direct aan de vorm (meerkeuze, Frans, Engels). Hij is niet echt abstract; hij is "format-gebonden".
De Filosoof (Concept Vectors - CV's):
- Wat doet hij? Hij begrijpt het essentiële idee achter de vraag, los van hoe de vraag eruitziet.
- Hoe werkt hij? Hij is de "abstracte denker". Als je hem vraagt om een tegenwoord, denkt hij: "Het gaat om het idee van tegenovergestelde betekenissen." Het maakt hem niet uit of de vraag in het Engels, Frans, als meerkeuze of als open vraag wordt gesteld.
- Het probleem: Hij is niet altijd de snelste in het geven van het antwoord. Hij heeft minder "kracht" om de AI direct te laten praten, maar hij is wel het meest eerlijk en consistent.

2. De creatieve analogie: De Vertaler en de Regisseur

Laten we dit vergelijken met een filmset:

De Actieve Werknemer (FV) is de Regisseur.
Hij zorgt dat de opnames vlot verlopen. Hij kijkt naar de camera, het script en de kleding. Als het script in het Frans is, zegt hij: "Acteurs, spreek Frans!" Als het een meerkeuzevraag is, zegt hij: "Acteurs, wijs naar optie A of B!" Hij is super efficiënt, maar hij verliest zich vaak in de details van de vorm van de film. Als je hem een Frans script geeft, praat hij Frans, zelfs als je eigenlijk een Engels verhaal wilde horen.
De Filosoof (CV) is de Schrijver van het verhaal.
Hij zit in een hoekje en denkt na over de boodschap: "Het gaat hier over liefde en verlies." Hij maakt zich niet druk om of het script in het Frans of Engels is, of of het een boek of een film is. Hij houdt het zuivere idee vast.
- Het interessante: De Regisseur (FV) luistert vaak niet naar de Schrijver (CV) als het om het directe antwoord gaat. De Regisseur doet het werk, maar de Schrijver bewaart de ware essentie van het verhaal.

3. Wat hebben ze ontdekt? (De "Aha!"-momenten)

De onderzoekers hebben getest wat er gebeurt als je deze twee "denkers" probeert te gebruiken om de AI te sturen (te "steeren"):

Als de vorm hetzelfde blijft (In-Distribution):
Als je de AI vraagt om een taak te doen in dezelfde vorm als waarin je haar hebt getraind (bijv. Engels, open vraag), wint de Regisseur (FV). Hij is snel, krachtig en geeft het beste antwoord.
Als de vorm verandert (Out-of-Distribution):
Als je de AI vraagt om een taak in een andere vorm te doen (bijv. van Engels naar Frans, of van open vraag naar meerkeuze), faalt de Regisseur vaak. Hij blijft de oude gewoontes (zoals het gebruik van Franse woorden of haakjes) toepassen, zelfs als dat niet past.
De Filosoof (CV) daarentegen blijft stabiel. Hij zorgt ervoor dat de AI het idee van "tegenwoord" begrijpt, ongeacht of de vraag in het Frans of Engels is. Hij is minder krachtig, maar veel betrouwbaarder als de situatie verandert.

4. Waarom is dit belangrijk?

Vroeger dachten wetenschappers dat AI's één soort "super-intelligentie" hadden die alles abstract kon begrijpen. Dit paper toont aan dat dat niet zo is.

Causaliteit (Wat doet de AI?) is niet hetzelfde als Invariantie (Wat begrijpt de AI?).
De AI kan een taak uitvoeren (door de Regisseur) zonder het concept echt abstract te begrijpen (zoals de Filosoof doet).
De AI is niet één geheel: Het heeft een deel dat goed is in het uitvoeren van taken in een specifieke vorm, en een ander deel dat het abstracte idee bewaart. Deze twee delen werken vaak niet samen; ze zijn zelfs bijna onafhankelijk van elkaar (ze zitten in verschillende delen van het brein van de AI).

Conclusie voor de gewone mens

Stel je voor dat je een robot hebt die heel goed kan rekenen als je het op een speciaal formulier invult. Maar als je hem de som mondeling vraagt, faalt hij.
Dit paper zegt: "Die robot heeft twee hersenen. Het ene hersen (de Regisseur) is super goed in het invullen van het formulier, maar begrijpt niet echt wat 'rekenen' is. Het andere hersen (de Filosoof) begrijpt wel wat rekenen is, maar is niet goed in het invullen van het formulier."

Om AI's echt slim en betrouwbaar te maken, moeten we leren omgaan met deze twee verschillende systemen: de krachtige uitvoerder voor snelle taken, en de abstracte denker voor echt begrijpen en aanpassen aan nieuwe situaties.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De kernvraag van dit onderzoek is of Large Language Models (LLMs) concepten abstract representeren, d.w.z. op een manier die stabiel is ongeacht de oppervlaktevorm van de input (bijvoorbeeld de taal of het vraagtype). Hoewel cognitieve wetenschap stelt dat abstracte representaties essentieel zijn voor menselijke generalisatie en analogisch redeneren, is het onduidelijk of deze abstracte structuren in LLMs daadwerkelijk de prestaties bij In-Context Learning (ICL) aandrijven.

Bestaande literatuur (zoals Todd et al., 2024) heeft Function Vectors (FVs) geïdentificeerd: compacte vectoren die de uitvoering van ICL-taken causaal sturen. Er wordt vaak aangenomen dat deze vectoren de onderliggende concepten abstract representeren. Dit paper betwist deze aanname en onderzoekt of er een onderscheid bestaat tussen de mechanismen die causaal verantwoordelijk zijn voor het uitvoeren van een taak en de mechanismen die abstracte, format-onafhankelijke concepten representeren.

Methodologie

De auteurs gebruiken een combinatie van causale interventie en representatieve analyse over vier modellen (Llama 3.1 8B/70B, Qwen 2.5 7B/72B) en zeven relationele concepten (bijv. antoniemen, synoniemen, vertaling, categorisatie).

Activatie Patching (AP) voor Causaliteit:
- Om de componenten te vinden die causaal verantwoordelijk zijn voor de output, gebruiken ze Activatie Patching. Ze vervangen de activeringen van specifieke attention heads in een "corrupte" prompt (waarbij de relatie in de prompt verstoord is) door activeringen uit een "schone" prompt.
- Ze berekenen de Causal Indirect Effect (CIE) en de Average Indirect Effect (AIE) voor elke attention head. De heads met de hoogste AIE-scores worden gebruikt om Function Vectors (FVs) te construeren.
Representational Similarity Analysis (RSA) voor Invariantie:
- Om heads te vinden die concepten abstract representeren (onafhankelijk van het input-formaat), gebruiken ze RSA.
- Ze berekenen een Representational Similarity Matrix (RSM) voor elke head over prompts die verschillende concepten en formaten omvatten (Open-ended Engels, Open-ended Frans, Meerkeuze).
- Ze vergelijken deze RSM met een ontwerp-matrix (Design Matrix) die aangeeft welke prompt-paren hetzelfde concept delen, ongeacht het formaat.
- De heads met de hoogste Spearman-correlatie (RSA-score) worden geselecteerd om Concept Vectors (CVs) te construeren.
Stuur-Experimenten (Steering):
- De auteurs testen de effectiviteit van FVs en CVs door deze vectoren toe te voegen aan de residual stream van het model tijdens inferentie.
- Ze evalueren prestaties in In-Distribution (ID) (zelfde formaat als extractie) en Out-of-Distribution (OOD) (verschillende taal of vraagtype).
- Een specifieke taak, AmbiguousICL, wordt gebruikt waarbij twee concepten in één prompt worden gemengd om te testen of het model de abstracte relatie kan volgen ondanks afleidende signalen.

Belangrijkste Bijdragen en Resultaten

1. Function Vectors zijn niet volledig invariant

FVs, die worden afgeleid van heads met een sterk causaal effect, blijken sterk afhankelijk te zijn van het input-formaat.
FVs voor hetzelfde concept (bijv. "antoniemen") geëxtraheerd uit verschillende formaten (open-ended vs. meerkeuze) zijn bijna orthogonaal aan elkaar.
Dit betekent dat FVs het concept mengen met de oppervlaktekenmerken van de prompt (zoals taal of het gebruik van haakjes in meerkeuzevragen).

2. Concept Vectors bestaan en zijn invariant

De RSA-methode identificeert een andere set attention heads die Concept Vectors (CVs) vormen.
Deze heads coderen concepten op een hoger niveau van abstractie: ze clusteren op basis van het concept, ongeacht of de prompt in het Engels, Frans of als meerkeuzevraag is opgesteld.
Hoewel CVs en FVs vaak in dezelfde lagen van het netwerk voorkomen, zijn de specifieke attention heads grotendeels disjunct (er is zeer weinig overlap, zelfs bij grote $K$ ).

3. Het trade-off tussen causaliteit en generalisatie

In-Distribution (ID): FVs presteren beter. Ze veroorzaken grotere stijgingen in de waarschijnlijkheid van het juiste antwoord wanneer het extractie- en toepassingstotaal overeenkomen.
Out-of-Distribution (OOD): CVs generaliseren beter. Ze behouden hun effectiviteit over verschillende talen en vraagtypes, terwijl FVs vaak falen of artefacten introduceren (bijv. het genereren van Franse vertalingen wanneer de vector uit een Franse prompt is gehaald, of het genereren van haakjes bij meerkeuzevragen).
CVs leiden tot consistentere verdelingen van de volgende token (lagere KL-divergentie tussen ID en OOD), maar met kleinere absolute prestatiewinsten dan FVs in ideale omstandigheden.

4. Mechanistisch onderscheid

De resultaten suggereren dat LLMs twee gescheiden circuits hebben:
- Een causaal circuit (FVs) dat de uitvoering van de taak aandrijft, maar gevoelig is voor de oppervlaktevorm.
- Een abstract representatie circuit (CVs) dat de relationele structuur vasthoudt, maar minder direct causaal invloed heeft op de output in standaard ICL-taken.

Betekenis en Conclusie

Dit paper biedt een fundamentele nuancering in het begrijpen van hoe LLMs redeneren:

Causaliteit is niet gelijk aan Invariantie: Het feit dat een vector een taak kan sturen (causaliteit), betekent niet dat deze vector een abstract, format-onafhankelijk concept representeert.
Abstractie vs. Uitvoering: LLMs vormen wel abstracte conceptrepresentaties (CVs), maar deze zijn niet de primaire drijvers van ICL-prestaties. De uitvoering wordt gedomineerd door format-specifieke mechanismen (FVs).
Implicaties voor Interpretability en Steering: Voor maximale controle binnen een specifiek formaat zijn FVs superieur. Voor robuuste, out-of-distribution controle of het onderzoeken van abstracte kennis zijn CVs echter betrouwbaarder.
Theoretische Impact: Dit weerlegt het idee van een enkele, universele "functieve vector" voor een taak. In plaats daarvan lijkt de taakrepresentatie te bestaan uit meerdere, format-afhankelijke "basins" (voor FVs) en een apart abstract subspace (voor CVs).

Kortom, de auteurs concluderen dat "Causaliteit ≠ Invariantie" in de context van LLMs: de mechanismen die een model laten presteren, zijn niet noodzakelijkerwijs de mechanismen die de abstracte betekenis van de taak vastleggen.

Causality ≠\neq= Invariance: Function and Concept Vectors in LLMs

1. De twee denkers: De "Actieve Werknemer" en de "Filosoof"

2. De creatieve analogie: De Vertaler en de Regisseur

3. Wat hebben ze ontdekt? (De "Aha!"-momenten)

4. Waarom is dit belangrijk?

Conclusie voor de gewone mens

Probleemstelling

Methodologie

Belangrijkste Bijdragen en Resultaten

Betekenis en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Causality $\neq$ Invariance: Function and Concept Vectors in LLMs