Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van dit onderzoek in gewoon Nederlands, met een paar creatieve vergelijkingen om het begrijpelijk te maken.

Het Grote Geheim van de AI: Wie doet er eigenlijk wat?

Stel je voor dat een groot taalmodel (zoals de AI die dit artikel schrijft) een gigantisch, complex fabrieksgebouw is. Binnenin werken duizenden kleine robots (de "neuronen" en "attention heads"). Als de AI een zin afmaakt, weten we wat het antwoord is, maar we hebben geen idee welke robots precies de knoppen hebben gedrukt om dat antwoord te kiezen.

Tot nu toe zagen onderzoekers alleen de robots die het hardst leken te bewegen (de "aandachtswaarden"), maar dat was alsof je naar de mensen kijkt die het hardst zwaaien in een menigte, terwijl je niet weet wie de daadwerkelijke beslissing heeft genomen.

Dit onderzoek probeert een betrouwbare vertaler te maken. Het wil niet alleen zeggen "deze robot deed iets", maar een verhaal vertellen dat klopt met de echte oorzaak van het gedrag.

De Drie Stappen van de "Vertaal-Machine"

De onderzoekers hebben een proces (een pijplijn) bedacht om van de interne techniek naar een begrijpelijk verhaal te gaan. Denk hierbij aan drie stappen:

1. De "Chirurgische Operatie" (Het vinden van de echte boosdoeners)

In plaats van te raden welke robots belangrijk zijn, doen ze een chirurgische ingreep.

De Analogie: Stel je voor dat je een auto hebt die niet start. Je haalt één kabeltje uit de motor en kijkt of de auto nog start. Als hij stopt, weet je: "Die kabeltje was cruciaal!"
In het onderzoek: Ze "verpesten" bewust een stukje van de AI's geheugen (bijvoorbeeld door de namen in een zin te verwisselen) en kijken welke specifieke onderdelen (de attention heads) het verschil maken. Ze vinden zo de 6 belangrijkste robots die verantwoordelijk zijn voor het juiste antwoord.

2. Het Vertalen naar Mensentaal

Nu ze weten welke 6 robots belangrijk zijn, moeten ze dit uitleggen aan een mens. Ze proberen twee manieren:

De "Invulformule" (Template): Een robot die zinnen invult met vaste gegevens.
- Voorbeeld: "De AI koos 'Mary' omdat robot L9H9 naar 'Mary' kijkt." (Saai, maar correct).
De "Slimme Vertaler" (LLM): Een andere AI die de technische gegevens krijgt en er een mooi, logisch verhaal van maakt.
- Voorbeeld: "De AI koos 'Mary' omdat de belangrijkste robot (L9H9) 66% van zijn aandacht aan Mary besteedt, terwijl hij John maar 7% geeft. Hij heeft dus duidelijk begrepen dat Mary de ontvanger is."

3. De "Waarheidscontrole" (Is het verhaal eerlijk?)

Hoe weten ze of het verhaal klopt? Ze gebruiken een test die ze "ERASER" noemen (een soort controlelijst).

Volledigheid: Als je alleen naar de robots kijkt die in het verhaal worden genoemd, werkt de AI dan nog steeds? (Ja, dit was 100% waar).
Uitputtendheid: Als je alleen die robots zou verwijderen, zou de AI dan falen? (Nee, dit was slechts 22% waar).

De Verassende Resultaten

Hier komen de interessante ontdekkingen, vertaald in alledaagse termen:

1. Het "Backup"-effect
De AI werkt als een zwakke schakel in een ketting, maar dan met reservekettingen.
De onderzoekers vonden dat de 6 belangrijkste robots 61% van het werk deden. Als je die 6 robots weghaalt, breekt de AI niet volledig, maar wordt hij wel een beetje slordig.

Conclusie: Er zijn "back-up robots" die het werk overnemen als de hoofd-robots uitvallen. Dit maakt de AI sterk, maar het maakt het heel moeilijk om in één simpel verhaal uit te leggen waarom hij iets doet, omdat er altijd een verborgen reserveplan is.

2. De "Slimme Vertaler" wint het
De verhalen die door de andere AI (de LLM) werden geschreven, waren 66% beter dan de saaie invulformules.

Waarom? De slimme vertaler kon de percentages en namen in een logische zin verwerken. De invulformule klonk als een robot die netjes maar saai een lijstje voorleest. Mensen begrijpen de slimme versie veel beter.

3. Zekerheid is bedrieglijk
Een van de belangrijkste waarschuwingen: Als de AI heel zeker lijkt van zijn antwoord, betekent dat niet dat het verhaal erachter ook klopt.

De Analogie: Stel je voor dat een student een examen haalt met een 10. Je denkt: "Hij moet het antwoord wel goed hebben begrepen." Maar misschien heeft hij het antwoord gewoon geraden en geluk gehad.
In dit onderzoek bleek dat de "zekerheid" van de AI (hoe hoog de kans is op een antwoord) niets te maken had met hoe goed het uitleg verhaal was. Je kunt dus niet op de zekerheid van de AI vertrouwen om te weten of de uitleg eerlijk is.

Wat betekent dit voor ons?

Dit onderzoek is een belangrijke stap om AI's betrouwbaarder te maken.

Het goede nieuws: We kunnen nu automatisch technische details omzetten in menselijke verhalen die de echte oorzaak van een beslissing uitleggen.
Het belangrijke nuance: We moeten oppassen. Omdat de AI zoveel "back-up systemen" heeft, is het verhaal dat we krijgen nooit 100% compleet. Het is alsof je een verhaal vertelt over een voetbalteam door alleen de doelpuntenmaker te noemen, terwijl de verdediging ook cruciaal was.

De boodschap: Gebruik deze uitleggen om te begrijpen hoe de AI denkt, maar wees je ervan bewust dat er altijd meer gebeurt dan wat in het korte verhaal staat. De AI is slimmer en complexer dan onze beste samenvattingen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations" van Ajay Pravin Mahale, in het Nederlands.

Probleemstelling

Hoewel Large Language Models (LLMs) uitstekende prestaties leveren, blijft hun interne besluitvormingsproces een "black box". Er bestaan twee gescheiden onderzoeksrichtingen om dit aan te pakken:

Mechanistische interpretabiliteit: Reverse-engineert modelcomputaties op het niveau van circuits (bijv. specifieke attention heads), maar levert technische resultaten op die voor mensen moeilijk te begrijpen zijn (bijv. "L9H9 draagt 17,4% bij").
Explainable AI (XAI): Produceert menselijk leesbare redeneringen, maar baseert deze vaak op correlaties (zoals attention weights) die niet noodzakelijk causale mechanismen weerspiegelen.

Het centrale probleem is dat er geen brug bestaat tussen deze twee domeinen: het ontbreekt aan methoden om causaal onderbouwde circuit-analyses automatisch te vertalen naar betrouwbare (faithful) natuurlijke taalverklaringen.

Methodologie

De auteur presenteert een pipeline bestaande uit drie fasen om mechanistische bevindingen om te zetten in natuurlijke taalverklaringen:

Circuit-identificatie via Activering-Patching (Activation Patching):
- Taak: Indirect Object Identification (IOI) op het model GPT-2 Small (124M parameters). De taak is om de zin "Wanneer Mary en John naar de winkel gingen, gaf John een drankje aan..." correct af te maken met "Mary".
- Techniek: Er wordt een "corrupte" versie van de prompt gegenereerd door namen te verwisselen. De causale belangrijkheid van elke attention head wordt gemeten via effect recovery: hoe groot is het herstel van het logit-verschil (tussen het correcte en het onjuiste antwoord) wanneer de activaties van een specifieke head worden "gepatched" met de schone waarden?
- Resultaat: Identificatie van de zes meest causale attention heads die samen 61,4% van het logit-verschil verklaren.
Generatie van Verklaringen:
De studie vergelijkt twee methoden om verklaringen te genereren op basis van de circuit-data:
- Sjablonen (Template-based): Vaste zinsconstructies die de head-naam en aandachtspersentages invullen.
- LLM-gegenereerd: Een LLM wordt geprompt met gestructureerde circuit-data (head-namen, percentages, voorspelling) om contextuele, 1-2 zinnen lange verklaringen te genereren die mechanistisch onderbouwd zijn.
Evaluatie van Betrouwbaarheid (Faithfulness):
De auteurs passen de ERASER-metrics (oorspronkelijk voor token-level rationales) aan voor circuit-level componenten:
- Sufficiency: Leggen de genoemde heads de volledige voorspelling uit?
- Comprehensiveness: Verandert de voorspelling als de genoemde heads worden geablateerd (uitgeschakeld)?
- Kwaliteit: Beoordeelt of de verklaring specifiek is, percentages bevat, en beknopt is.

Belangrijkste Bijdragen

Een pipeline die mechanistische circuit-bevindingen automatisch vertaalt naar natuurlijke taalverklaringen.
Een adaptatie van ERASER-metrics voor evaluatie op het niveau van circuits in plaats van tokens.
De eerste vergelijking tussen sjabloon-gebaseerde en LLM-gegenereerde verklaringen binnen mechanistische interpretabiliteit.
Een taxonomie van fouten die uitlegt wanneer en waarom verklaringen afwijken van de onderliggende mechanismen.

Resultaten

Circuit-identificatie: De zes geïdentificeerde heads (waaronder L9H9 als "Name Mover" en L8H10 als "S-Inhibition") verklaren 61,4% van het logit-verschil, wat consistent is met eerdere studies.
Betrouwbaarheid (Faithfulness):
- De circuit-gebaseerde methode bereikt 100% sufficiency (de genoemde heads zijn voldoende voor de voorspelling).
- De comprehensiveness is echter slechts 22%. Dit betekent dat het uitschakelen van deze heads de voorspelling niet volledig vernietigt; het model heeft gedistribueerde back-upmechanismen.
- De methode presteert 75% beter op de F1-score dan een baseline die puur op attention weights vertrouwt.
Kwaliteit van Verklaringen:
- LLM-gegenereerde verklaringen presteren 66% beter op kwaliteitsmetrics dan sjablonen. Ze bevatten specifieke percentages en contextuele verwijzingen, terwijl sjablonen generiek en statisch zijn.
Correlatie en Foutanalyse:
- Er is geen correlatie ( $r = 0.009$ ) tussen het vertrouwen (confidence) van het model en de betrouwbaarheid van de verklaring. Hoge zekerheid betekent niet dat de verklaring compleet is.
- Drie categorieën van falen werden geïdentificeerd:
  1. Gedistribueerde berekening: Gedrag ontstaat uit vele heads met gematigde bijdragen.
  2. Ontbrekende heads: De top-contributors voor specifieke prompts staan niet in de vaste top-6 lijst.
  3. Redundantie: Het toevoegen van extra heads verhoogt de causale dekking niet.

Significantie en Implicaties

Betrouwbaarheid vs. Volledigheid: De grote kloof tussen 100% sufficiency en 22% comprehensiveness onthult dat neurale netwerken redundante berekeningen gebruiken. Dit maakt modellen robuust tegen ablatie, maar maakt het moeilijk om ze beknopt en volledig uit te leggen.
Rol van LLMs: LLMs blijken effectief in het vertalen van complexe circuit-data naar leesbare, menselijke taal zonder de mechanistische grondslag te verliezen.
Vertrouwen in AI: Het gebrek aan correlatie tussen modelvertrouwen en verklaringkwaliteit waarschuwt gebruikers: een hoge confidence-score is geen garantie voor een volledige of juiste verklaring. Systemen moeten daarom expliciet rapporteren over de volledigheid (comprehensiveness) van hun verklaringen.
Beperkingen: Het onderzoek is beperkt tot één taak (IOI) en één model (GPT-2 Small). Toekomstig werk moet zich richten op grotere modellen, adaptieve circuits per instance en menselijke evaluaties.

Samenvattend biedt dit werk een cruciale stap voorwaarts in het sluiten van de kloof tussen technische mechanistische analyse en begrijpelijke, causaal onderbouwde uitleggen voor LLM-gedrag.

Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Het Grote Geheim van de AI: Wie doet er eigenlijk wat?

De Drie Stappen van de "Vertaal-Machine"

1. De "Chirurgische Operatie" (Het vinden van de echte boosdoeners)

2. Het Vertalen naar Mensentaal

3. De "Waarheidscontrole" (Is het verhaal eerlijk?)

De Verassende Resultaten

Wat betekent dit voor ons?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Implicaties

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models