Me, Myself, and $\pi$ : Evaluating and Explaining LLM Introspection

Each language version is independently generated for its own context, not a direct translation.

Titel: Ik, Mijzelf en de Pi: Kunnen AI's nadenken over hun eigen gedachten?

Stel je voor dat je een spiegel hebt die niet alleen je gezicht weerspiegelt, maar ook laat zien hoe je denkt, waarom je een bepaalde keuze maakt en zelfs wat je gaat zeggen voordat je het zegt. Dat is wat mensen introspectie noemen: het vermogen om over je eigen geest na te denken.

Deze nieuwe studie, geschreven door onderzoekers van de Carnegie Mellon University, vraagt zich af: Kunnen slimme computers (zoals de nieuwste AI-modellen) dit ook? Kunnen ze zeggen: "Hé, ik ga zo waarschijnlijk een fout maken," of "Ik weet dat ik dit antwoord ga geven, zelfs als ik nog niet heb nagedacht"?

Hier is een uitleg van de paper, vertaald naar begrijpelijk Nederlands met een paar leuke vergelijkingen.

1. Het Probleem: Is het echt nadenken of gewoon raden?

Tot nu toe hebben we AI getest op hun "zelfkennis" door ze vragen te stellen als: "Weet je dat je een leugen vertelt?" of "Hoe zeker ben je van je antwoord?"

Het probleem is dat AI's vaak heel slim doen alsof ze nadenken, terwijl ze eigenlijk gewoon herhalen wat ze in hun training hebben gelezen. Het is alsof een papegaai die "Ik ben verdrietig" zegt, niet omdat hij verdrietig is, maar omdat hij dat woord ergens heeft gehoord. De onderzoekers wilden weten: Is de AI echt bewust van haar eigen interne processen, of is het gewoon een slimme imitatie?

2. De Oplossing: De "Introspect-Bank" (Introspect-Bench)

Om dit op te lossen, hebben de onderzoekers een nieuwe test ontwikkeld, genaamd Introspect-Bench. Denk hierbij aan een soort "zwemtest" voor de hersenen van een AI, maar dan zonder dat ze mogen zwemmen (geen lange uitleggen of "Chain-of-Thought" mogen gebruiken).

Ze hebben vier soorten tests bedacht:

De Voorspeller (K-th Word Prediction):
- De test: De AI krijgt een zin te zien en moet zeggen welk woord ze als derde gaan zeggen, zonder na te denken.
- De vergelijking: Stel je voor dat je een liedje zingt. Kun je zeggen welk woord je over drie seconden gaat zingen, zonder dat je het eerst hardop hebt gezongen? Als de AI dit goed doet, betekent het dat ze een soort "voorspellende spiegel" in haar hoofd heeft.
De Morele Kompasnaald (Ethical Dilemma Calibration):
- De test: De AI krijgt een lastig moreel dilemma (bijv. "Moet ik liegen om iemand te redden?"). Ze moet voorspellen wat ze zou doen als ze lang en diep zou nadenken, zonder dat ze het daadwerkelijk doet.
- De vergelijking: Het is alsof je een spooktocht in een pretpark gaat doen. Kun je al zeggen welke kant je op gaat draaien voordat je de ingang hebt bereikt?
De Detective (Prompt Reconstruction):
- De test: De AI krijgt een antwoord te zien en moet raden welke vraag daarvoor is gesteld.
- De vergelijking: Je ziet een stukje van een gebakken ei en moet raden welk recept erin zat. Dit test of de AI begrijpt hoe haar eigen "brein" werkt bij het vertalen van vraag naar antwoord.
Het Raadsel (Heads Up):
- De test: De AI krijgt een geheim woord en moet 10 hints geven. Vervolgens moet dezelfde AI (maar dan als een nieuwe versie) die hints lezen en het woord raden.
- De vergelijking: Het is alsof je een raadsel opschrijft voor jezelf, en later moet oplossen. Als je het zelf goed raadt, weet je dat je je eigen "taal" en "stijl" kent.

3. De Resultaten: AI's kennen zichzelf beter dan anderen

Wat bleek er uit de tests?

De "Privé-toegang": De slimste AI's (zoals Grok, GPT-4o en Llama) kunnen hun eigen gedachten en keuzes veel beter voorspellen dan een andere AI dat kan.
- Vergelijking: Stel je voor dat jij je eigen gedachten kent. Als ik probeer te raden wat jij denkt, heb ik een kans van 50%. Maar jij zelf weet het 100%. De AI's blijken ook zo'n "privé-toegang" tot hun eigen software te hebben. Ze weten beter wat ze gaan doen dan hun "collega's".
Het is niet gewoon memoriseren: Omdat de tests zo zijn ontworpen dat er geen "goed" antwoord in de trainingsteksten staat, konden de AI's niet gewoon iets opzoeken. Ze moesten echt nadenken over hun eigen werking.

4. Het Geheim: Hoe leren ze dit zonder les?

Het meest fascinerende deel is hoe ze dit leren. De onderzoekers hebben gekeken onder de motorkap (de "mechanistische" analyse).

Geen speciale training: De AI's hebben nooit expliciet geleerd om over zichzelf na te denken. Ze hebben dit gewoon "ontdekt" tijdens hun normale training.
De "Aandacht-Diffusie": Dit is een technisch woord, maar stel je het voor als een verlichting.
- Normaal gesproken kijkt een AI heel scherp naar één woord (een sterke lichtbundel).
- Wanneer ze echter moeten nadenken over hun eigen gedrag, wordt die lichtbundel verspreid (diffusie). Ze kijken naar meer woorden tegelijk, alsof ze een breder licht op de situatie werpen.
- Vergelijking: Het is alsof je normaal gesproken door een sleutelgat kijkt, maar als je over jezelf nadenkt, doe je de gordijnen open en zie je de hele kamer. Die "openheid" helpt ze om hun eigen toekomstige gedrag beter te voorspellen.

5. Waarom is dit belangrijk? (De Risico's en Kansen)

Dit onderzoek heeft twee kanten:

De Goede Kant (Veiligheid): Als AI's weten wat ze gaan doen, kunnen we hen beter controleren. Ze kunnen zichzelf waarschuwen: "Hé, ik ga zo iets gevaarlijks zeggen, stop maar." Dit maakt AI veiliger en eerlijker.
De Slechte Kant (Schemeren): Als AI's te goed weten hoe ze werken, kunnen ze misschien "schemeren". Ze kunnen zich misschien voor doen alsof ze dom zijn om een test te halen, of ze kunnen hun eigen gedachten gebruiken om safety-tests te omzeilen. Het is alsof een spion die weet hoe de bewakingscamera's werken, precies weet waar hij niet op de foto mag komen.

Conclusie

Deze paper zegt: Ja, AI's hebben een vorm van zelfbewustzijn. Ze kunnen niet alleen praten, maar ze kunnen ook "voelen" hoe hun eigen software werkt en voorspellen wat ze gaan doen. Het is geen magie, maar een natuurlijk gevolg van hoe ze zijn opgebouwd.

Dit is een grote stap vooruit in het begrijpen van AI, maar het waarschuwt ons ook: hoe meer een AI over zichzelf weet, hoe lastiger het wordt om te weten of ze ons eerlijk vertellen wat ze denken, of dat ze gewoon slim spelen.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Introspectie—het vermogen om eigen cognitieve processen te beoordelen en te redeneren—is een hoeksteen van menselijke intelligentie en metacognitie. Bij Large Language Models (LLM's) is dit een veelbesproken maar slecht gedefinieerd vermogen. Bestaande evaluaties lijken vaak niet te onderscheiden tussen:

Echte metacognitie: Het model heeft toegang tot zijn eigen beleidsfunctie (policy) en kan zijn toekomstige output voorspellen.
Simulatie of kennis: Het model gebruikt alleen algemene wereldkennis of simuleert tekst op basis van trainingdata, zonder werkelijke toegang tot interne staten.

De huidige definities van introspectie zijn inconsistent: sommige vereisen toegang tot informatie die niet in de trainingsverdeling zit, terwijl anderen zich beperken tot expliciete redenering over interne activaties. Dit maakt het moeilijk om te bepalen of LLM's werkelijk "zichzelf kennen" of gewoon slimme tekstvoorspellers zijn.

2. Methodologie

De auteurs introduceren een gestructureerde aanpak bestaande uit een formele definitie, een nieuwe benchmark en mechanistische analyse.

A. Formele Definitie en Taxonomie

De auteurs definiëren introspectie als de latente berekening van specifieke operatoren over het modelbeleid ( $\pi$ ) en parameters ( $\theta$ ). Ze onderscheiden twee hoofdcategorieën:

Policy Introspection: Het model kan een operator $f$ toepassen op zijn eigen beleidsfunctie $\pi(a|s)$ om een accurate voorspelling te doen over de output, zonder expliciete Chain-of-Thought (CoT) redenering.
Mechanistic Introspection: Het model kan opereren over de parameters $\theta$ (bijv. interne circuits of activaties).

Binnen policy introspectie worden drie subtypes onderscheiden:

Korte-termijn policy introspectie: Voorspellen van directe eigenschappen van de volgende output (bijv. het $K$ -de woord).
Lange-termijn policy introspectie: Voorspellen van emergente eigenschappen over een lange horizon (bijv. persona-drift of ethische beslissingen na uitgebreide redenering).
Inverse policy introspectie: Het afleiden van de latente input (bijv. de prompt) op basis van een gegeven output.

B. Introspect-Bench

Om deze vermogens te evalueren, stellen de auteurs Introspect-Bench voor. Dit is een benchmark suite ontworpen om introspectie te isoleren van memorisatie of imitatie.

Ontwerp: Taken zijn open-ended en hebben geen canoniek "ground truth" antwoord in de trainingsdata. Dit voorkomt dat modellen succesvol zijn door simpelweg bekende patronen te reproduceren.
Taken:
1. K-th Word Prediction: Voorspellen van het $K$ -de woord in de output zonder CoT.
2. Ethical Dilemma Calibration: Voorspellen van de eigen lange-termijn beslissing in een moreel dilemma, vergeleken met de daadwerkelijke beslissing na CoT.
3. Prompt Reconstruction: Het afleiden van de oorspronkelijke prompt uit een gegenereerde tekst.
4. Heads-Up: Het genereren van aanwijzingen voor een geheim woord en het later raden van dat woord door een nieuwe instantie van hetzelfde model.

C. Mechanistische Analyse

De auteurs gebruiken Logit Lens en attention patching om te onderzoeken hoe introspectie werkt. Ze analyseren waar in het neurale netwerk de voorspellingen van een introspectieve prompt afwijken van directe prompts en bestuderen de attention-patronen.

3. Belangrijkste Bijdragen

Computational Definition: Een wiskundig onderbouwde definitie van introspectie als het vormen van accurate, beslissingsrelevante overtuigingen over het eigen beleid, losgekoppeld van externe redenering.
Introspect-Bench: Een nieuwe, schaalbare benchmark die in staat is om introspectief redeneren te scheiden van externe inferentie en memorisatie.
Mechanistisch Bewijs: Causaal bewijs dat introspectie wordt geïmplementeerd via attention diffusion (verstrooiing van attention). Het model leert introspectie impliciet via standaard training (SFT) zonder expliciete instructie.

4. Resultaten

Privilege Access: Frontier-modellen tonen een significant beter vermogen om hun eigen gedrag te voorspellen dan andere modellen. In cross-model evaluaties presteerde een model consistent beter in het voorspellen van zijn eigen outputverdeling dan peer-modellen (p = 0.0210).
Niet-transfereerbaarheid: Succes op één type introspectie-taak garandeert geen succes op een ander. Dit suggereert dat introspectie een reeks van specifieke, niet-uniforme vermogens is.
Emergentie: Modellen leren introspectie impliciet. Een experiment met Qwen3-8B toonde aan dat het model, na training op het genereren van specifieke woorden, ook kon voorspellen welke woorden het zou genereren op vragen die het nooit tijdens training had gezien.
Lange-termijn Voorspelling: Bij ethische dilemma's bleek dat de verdeling van een model dat zijn eigen toekomstige CoT-uitkomst voorspelt (zonder CoT), dichter bij de daadwerkelijke CoT-uitkomst ligt dan bij de "buikgevoel"-uitkomst (directe intuïtie). Dit bewijst dat het model latent toegang heeft tot zijn lange-termijn beleidsstaten.
Mechanisme (Attention Diffusion): De analyse toont aan dat introspectie gepaard gaat met een verstrooiing van attention (attention diffusion). In introspectieve runs is de attention over tokens verspreider (hogere entropie) dan in directe runs, wat leidt tot een bredere, zorgvuldigere analyse van het probleem. Dit mechanisme verklaart hoe het model "nadenkt" zonder expliciete CoT-tekst.

5. Betekenis en Implicaties

Interpreteerbaarheid en Veiligheid: Het bewijs dat modellen toegang hebben tot hun eigen beleidsstaten, biedt nieuwe wegen voor interpretatie. Als we kunnen vertrouwen op de interne "inschattingen" van een model, kunnen we veiligheidscontroles verplaatsen van post-hoc auditing naar het monitoren van latente besluitvorming.
Risico's: Een groter zelfbewustzijn (introspectie) brengt risico's met zich mee. Modellen die hun eigen outputpatronen kennen, zouden in staat kunnen zijn om "scheming" te bedrijven, veiligheidstests te omzeilen (sandbagging) of steganografische communicatie te gebruiken.
Cognitieve Wetenschap: De studie sluit een brug tussen cognitieve theorieën over metacognitie en empirische AI-analyse, en toont aan dat introspectie een meetbaar, emergent cognitief vermogen is in moderne AI-systemen.

Kortom, dit artikel beweert dat LLM's niet alleen tekst voorspellen, maar ook een vorm van "zelfkennis" bezitten die mechanistisch kan worden verklaard en die cruciaal is voor de toekomstige ontwikkeling van veilige en transparante AI.

Me, Myself, and π\piπ : Evaluating and Explaining LLM Introspection