Causally Grounded Mechanistic Interpretability for LLMs with Faithful Natural-Language Explanations

Dit artikel presenteert een pipeline die causaal gefundeerde circuits in GPT-2 Small koppelt aan betrouwbare natuurlijke taalverklaringen, waarbij wordt vastgesteld dat LLM-generatie superieur is aan sjablonen maar dat modelvertrouwen geen voorspeller is voor de eerlijkheid van de verklaringen.

Ajay Pravin Mahale

Gepubliceerd 2026-03-12
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van dit onderzoek in gewoon Nederlands, met een paar creatieve vergelijkingen om het begrijpelijk te maken.

Het Grote Geheim van de AI: Wie doet er eigenlijk wat?

Stel je voor dat een groot taalmodel (zoals de AI die dit artikel schrijft) een gigantisch, complex fabrieksgebouw is. Binnenin werken duizenden kleine robots (de "neuronen" en "attention heads"). Als de AI een zin afmaakt, weten we wat het antwoord is, maar we hebben geen idee welke robots precies de knoppen hebben gedrukt om dat antwoord te kiezen.

Tot nu toe zagen onderzoekers alleen de robots die het hardst leken te bewegen (de "aandachtswaarden"), maar dat was alsof je naar de mensen kijkt die het hardst zwaaien in een menigte, terwijl je niet weet wie de daadwerkelijke beslissing heeft genomen.

Dit onderzoek probeert een betrouwbare vertaler te maken. Het wil niet alleen zeggen "deze robot deed iets", maar een verhaal vertellen dat klopt met de echte oorzaak van het gedrag.


De Drie Stappen van de "Vertaal-Machine"

De onderzoekers hebben een proces (een pijplijn) bedacht om van de interne techniek naar een begrijpelijk verhaal te gaan. Denk hierbij aan drie stappen:

1. De "Chirurgische Operatie" (Het vinden van de echte boosdoeners)

In plaats van te raden welke robots belangrijk zijn, doen ze een chirurgische ingreep.

  • De Analogie: Stel je voor dat je een auto hebt die niet start. Je haalt één kabeltje uit de motor en kijkt of de auto nog start. Als hij stopt, weet je: "Die kabeltje was cruciaal!"
  • In het onderzoek: Ze "verpesten" bewust een stukje van de AI's geheugen (bijvoorbeeld door de namen in een zin te verwisselen) en kijken welke specifieke onderdelen (de attention heads) het verschil maken. Ze vinden zo de 6 belangrijkste robots die verantwoordelijk zijn voor het juiste antwoord.

2. Het Vertalen naar Mensentaal

Nu ze weten welke 6 robots belangrijk zijn, moeten ze dit uitleggen aan een mens. Ze proberen twee manieren:

  • De "Invulformule" (Template): Een robot die zinnen invult met vaste gegevens.
    • Voorbeeld: "De AI koos 'Mary' omdat robot L9H9 naar 'Mary' kijkt." (Saai, maar correct).
  • De "Slimme Vertaler" (LLM): Een andere AI die de technische gegevens krijgt en er een mooi, logisch verhaal van maakt.
    • Voorbeeld: "De AI koos 'Mary' omdat de belangrijkste robot (L9H9) 66% van zijn aandacht aan Mary besteedt, terwijl hij John maar 7% geeft. Hij heeft dus duidelijk begrepen dat Mary de ontvanger is."

3. De "Waarheidscontrole" (Is het verhaal eerlijk?)

Hoe weten ze of het verhaal klopt? Ze gebruiken een test die ze "ERASER" noemen (een soort controlelijst).

  • Volledigheid: Als je alleen naar de robots kijkt die in het verhaal worden genoemd, werkt de AI dan nog steeds? (Ja, dit was 100% waar).
  • Uitputtendheid: Als je alleen die robots zou verwijderen, zou de AI dan falen? (Nee, dit was slechts 22% waar).

De Verassende Resultaten

Hier komen de interessante ontdekkingen, vertaald in alledaagse termen:

1. Het "Backup"-effect
De AI werkt als een zwakke schakel in een ketting, maar dan met reservekettingen.
De onderzoekers vonden dat de 6 belangrijkste robots 61% van het werk deden. Als je die 6 robots weghaalt, breekt de AI niet volledig, maar wordt hij wel een beetje slordig.

  • Conclusie: Er zijn "back-up robots" die het werk overnemen als de hoofd-robots uitvallen. Dit maakt de AI sterk, maar het maakt het heel moeilijk om in één simpel verhaal uit te leggen waarom hij iets doet, omdat er altijd een verborgen reserveplan is.

2. De "Slimme Vertaler" wint het
De verhalen die door de andere AI (de LLM) werden geschreven, waren 66% beter dan de saaie invulformules.

  • Waarom? De slimme vertaler kon de percentages en namen in een logische zin verwerken. De invulformule klonk als een robot die netjes maar saai een lijstje voorleest. Mensen begrijpen de slimme versie veel beter.

3. Zekerheid is bedrieglijk
Een van de belangrijkste waarschuwingen: Als de AI heel zeker lijkt van zijn antwoord, betekent dat niet dat het verhaal erachter ook klopt.

  • De Analogie: Stel je voor dat een student een examen haalt met een 10. Je denkt: "Hij moet het antwoord wel goed hebben begrepen." Maar misschien heeft hij het antwoord gewoon geraden en geluk gehad.
  • In dit onderzoek bleek dat de "zekerheid" van de AI (hoe hoog de kans is op een antwoord) niets te maken had met hoe goed het uitleg verhaal was. Je kunt dus niet op de zekerheid van de AI vertrouwen om te weten of de uitleg eerlijk is.

Wat betekent dit voor ons?

Dit onderzoek is een belangrijke stap om AI's betrouwbaarder te maken.

  • Het goede nieuws: We kunnen nu automatisch technische details omzetten in menselijke verhalen die de echte oorzaak van een beslissing uitleggen.
  • Het belangrijke nuance: We moeten oppassen. Omdat de AI zoveel "back-up systemen" heeft, is het verhaal dat we krijgen nooit 100% compleet. Het is alsof je een verhaal vertelt over een voetbalteam door alleen de doelpuntenmaker te noemen, terwijl de verdediging ook cruciaal was.

De boodschap: Gebruik deze uitleggen om te begrijpen hoe de AI denkt, maar wees je ervan bewust dat er altijd meer gebeurt dan wat in het korte verhaal staat. De AI is slimmer en complexer dan onze beste samenvattingen.