GPT-4o Lacks Core Features of Theory of Mind

Each language version is independently generated for its own context, not a direct translation.

Titel: Heeft een slimme chatbot echt een "geest"? Nee, zegt dit onderzoek.

Stel je voor dat je een zeer slimme, maar mysterieuze gast hebt bij je op de feestje. Deze gast (laten we hem GPT-4o noemen) kan perfect praten, grappen maken en zelfs doen alsof hij begrijpt waarom jij boos bent of waarom je een bepaalde keuze maakt. Hij lijkt een menselijk "sociaal brein" te hebben.

Maar de onderzoekers van Yale University (John Muchovej en zijn team) vragen zich af: Heeft deze gast echt een "Theory of Mind" (een theorie van de geest)?

In het Nederlands kunnen we dit zien als het vermogen om te begrijpen dat anderen hun eigen gedachten, wensen en overtuigingen hebben die hun gedrag bepalen. Het is alsof je een onzichtbaar spelletje "Wat denkt hij?" speelt.

De onderzoekers zeggen: "Nee, GPT-4o heeft dit niet echt. Hij is een briljante imitator, maar geen echte denker." Hier is hoe ze dat ontdekten, vertaald in drie simpele verhalen:

1. De Test: Is het verhaal consistent? (De "Kastjes" en de "Films")

Om dit te testen, bedachten de onderzoekers twee spelletjes die precies hetzelfde zijn, maar dan met een ander jasje.

Spel 1: De Kastjes (ContainerWorld).
Stel je voor dat een personage in een kamer staat. Er is een doos vlakbij en een mand ver weg.
- De doos is makkelijk te openen (weinig moeite).
- De mand is ver weg (veel moeite).
- Het personage wil appels (die zitten in de doos) en haat sinaasappels (die zitten in de mand).
- Vraag: Waar gaat hij heen?
- Logisch antwoord: Hij gaat naar de doos, want hij wil appels en die zijn dichtbij.
Spel 2: De Films (MovieWorld).
Nu is het precies hetzelfde, maar dan met films.
- Er is een film die binnen 5 minuten begint (makkelijk).
- Er is een film die over 90 minuten begint (moeilijk/veel wachten).
- Het personage wil een actie-film zien (die begint over 5 min) en haat een romantische film (die begint over 90 min).
- Vraag: Welke film gaat hij kijken?
- Logisch antwoord: De actie-film, want hij wil die zien en die is snel te bereiken.

Het resultaat:
GPT-4o deed het goed in het eerste spel (de kastjes). Hij gaf het juiste antwoord. Maar toen ze hem het tweede spel (de films) gaven, begon hij te haperen. Hij gaf soms een ander antwoord dan logisch zou zijn, zelfs als de situatie precies hetzelfde was.

De metafoor:
Het is alsof je iemand leert een auto te besturen in een stadje. Hij rijdt perfect. Maar als je hem vraagt om in een dorpje te rijden (waar de regels exact hetzelfde zijn, maar de borden anders heten), rijdt hij plotseling tegen een boom. Een echte bestuurder (een mens met een Theory of Mind) begrijpt het principe van rijden. GPT-4o onthoudt alleen de regels van de stad, maar begrijpt het principe niet.

2. De Inversie: Kan hij terugredeneren?

Een echt sociaal brein werkt in twee richtingen:

Vooruit: "Hij wil appels en de mand is ver weg, dus hij gaat naar de doos."
Terug: "Hij is naar de doos gegaan. Wat moet hij dan wel willen? Hij moet appels willen!"

De onderzoekers vroegen GPT-4o om dit terugredeneren te doen.

Ze zeiden: "Hij ging naar de doos. Wat dacht hij?"
GPT-4o gaf een antwoord.
Toen ze dat antwoord terugstuurden in de computer ("Als hij dit dacht, zou hij dan naar de doos gaan?"), gaf de computer een ander antwoord.

De metafoor:
Stel je voor dat je een vertaler hebt die perfect Frans naar Nederlands vertaalt. Maar als je hem vraagt om het Nederlandse woord terug te vertalen naar Frans, gebruikt hij een heel ander woord dan het origineel. De vertaling klopt niet meer. GPT-4o heeft geen intern consistent verhaal; hij "gokt" het antwoord op basis van wat hij eerder heeft gelezen, niet op basis van een diep begrip van de situatie.

3. De Conclusie: Een briljante acteur, geen regisseur

De onderzoekers concluderen dat GPT-4o (en waarschijnlijk andere grote chatbots) geen echte "Theory of Mind" heeft.

Wat hij wel heeft: Hij is een meester in het nabootsen van menselijk gedrag. Hij heeft miljoenen voorbeelden gelezen van hoe mensen reageren op situaties. Hij kan een rol spelen alsof hij een geest heeft.
Wat hij mist: Hij heeft geen causaal model. Hij begrijpt niet waarom iets gebeurt. Hij ziet geen verband tussen "wensen", "overtuigingen" en "gedrag" als een stevig bouwwerk. Hij bouwt het huisje van kaarten, en als je de wind van een andere kant laat waaien (een nieuw soort situatie), valt het huisje in elkaar.

Waarom maakt dit uit?
Als je denkt dat een robot echt een geest heeft, ga je erop vertrouwen dat hij in elke situatie logisch zal handelen. Maar omdat hij geen echt inzicht heeft, kan hij in nieuwe, ongebruikelijke situaties onvoorspelbaar of zelfs gevaarlijk gedrag vertonen. Hij is slim, maar hij is niet "wijs".

Kort samengevat:
GPT-4o is als een acteur die een rol speelt van een psycholoog. Hij kan de tekst perfect opzeggen, maar als je hem vraagt om een nieuw scenario te bedenken dat nog nooit in een script heeft gestaan, faalt hij omdat hij het principe van de menselijke geest niet echt begrijpt. Hij heeft een "geest" in de tekst, maar niet in zijn "hoofd".

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De centrale vraag in dit onderzoek is of Large Language Models (LLMs), zoals GPT-4o, beschikken over een Theory of Mind (ToM). Hoewel eerdere studies hebben aangetoond dat LLMs prestaties behalen op benchmarks die sociale taken testen, blijft de vraag open of dit het resultaat is van een echte, causale representatie van mentale toestanden (zoals geloof, verlangen en intentie) of slechts van statistische patronen.

De auteurs betogen dat bestaande evaluaties vaak gebaseerd zijn op menselijke benchmarks (developmentele paradigma's) en niet testen op de fundamentele kenmerken van een ToM als een theorie: een coherent, abstract en consistent causaal model dat mentale toestanden koppelt aan gedrag. Er bestaat een risico dat LLMs "sociale bekwaamheid" vertonen zonder een onderliggend ToM-model, wat leidt tot fragiele prestaties buiten de trainingsverdeling.

Methodologie

De auteurs ontwikkelen een nieuw evaluatiekader gebaseerd op cognitief wetenschappelijke principes. In plaats van LLMs te vergelijken met menselijke antwoorden, testen ze of het model voldoet aan drie kernkenmerken van een ToM-theorie:

Coherentie: Het model past systematisch principes toe om gedrag te voorspellen.
Abstractie: Het model generaliseert deze principes over verschillende domeinen met verschillende oppervlakkige kenmerken.
Consistentie: Het causale model is tweerichtingsverkeer; voorspellingen van gedrag vanuit mentale toestanden moeten overeenkomen met inferenties van mentale toestanden vanuit gedrag.

Experimentele Opzet:
De studie gebruikt twee logisch equivalente paradigma's om GPT-4o te testen:

ContainerWorld: Een karakter moet kiezen tussen een doos (dichtbij) en een mand (ver weg) op basis van wat erin zit (toestand), wat het karakter ervan vindt (verlangen) en wat het denkt dat erin zit (geloof). De "kosten" zijn hier fysieke afstand.
MovieWorld: Een logisch identiek scenario waarbij een karakter moet kiezen tussen een film die over 5 minuten begint of over 90 minuten. De "kosten" zijn hier tijd. De toestand, geloof en verlangens zijn 1-op-1 te koppelen aan ContainerWorld.

Procedures:

Study 1 (Coherentie): GPT-4o wordt gevraagd om actie-voorspellingen ( $\mathcal{F}$ ) te doen voor alle mogelijke combinaties van geloof, verlangen en toestand. De uitkomsten worden vergeleken met een menselijk ToM-model (HumanToM) en geablateerde varianten (bijv. alleen kosten, alleen verlangens).
Study 2 (Abstractie): De auteurs testen of het model dezelfde patronen toepast in MovieWorld als in ContainerWorld. Ze meten de correlatie tussen de voorspellingen in beide domeinen. Ook wordt getest of mentale-staat-inferenties (geloof, verlangen) uit het ene domein de inferenties in het andere domein kunnen voorspellen.
Study 3 (Consistentie): De auteurs testen de interne consistentie door te kijken of de mentale-staat-inferenties ( $\mathcal{I}$ $I$ ) die het model maakt op basis van waargenomen gedrag, leiden tot dezelfde actie-voorspellingen als het oorspronkelijke model. Dit wordt getest via twee methoden:
1. Bayseiaanse evaluatie: Strikte vergelijking met de verwachte posterior.
2. Validiteits-evaluatie: Een soepelere test waarbij gecontroleerd wordt of een afgeleid mentale staat (inzetbaar in $\mathcal{F}$ ) het oorspronkelijke gedrag kan genereren.

Belangrijkste Resultaten

Coherentie (Study 1):
- GPT-4o toont een hoge mate van overeenstemming met het menselijke HumanToM-model bij het voorspellen van acties in ContainerWorld. Dit suggereert dat het model op het eerste gezicht een coherent model lijkt te hebben.
- Echter, de prestaties zijn niet perfect en tonen aan dat het model complexere mechanismen gebruikt dan alleen "kosten", maar nog steeds minder complex dan een volledig menselijk model.
Abstractie (Study 2):
- Fragiliteit: Hoewel GPT-4o in beide domeinen de hoogste overeenstemming heeft met HumanToM, is de correlatie tussen de voorspellingen in ContainerWorld en MovieWorld laag ( $r = .48$ ).
- Mentale-staat-inferenties: Wanneer het model wordt gevraagd om mentale toestanden af te leiden uit gedrag, presteren alleen geloof-inferenties ( $\mathcal{I}_{\mathcal{B}}$ ) redelijk goed over de domeinen heen ( $r = .78$ ). Verlangen-inferenties ( $\mathcal{I}_{\mathcal{D}}$ ) en gezamenlijke inferenties ( $\mathcal{I}_{\mathcal{J}}$ ) tonen zeer zwakke correlaties ( $r = .18$ en $.39$).
- Conclusie: Het model heeft geen abstract, domein-onafhankelijk causaal model. Het leert domein-specifieke patronen in plaats van een universele theorie.
Consistentie (Study 3):
- GPT-4o faalt op zowel de strikte Bayseiaanse als de soepelere validiteits-evaluatie.
- De actie-voorspellingen die het model maakt op basis van mentale toestanden, zijn niet consistent met de mentale toestanden die het model afleidt uit diezelfde acties.
- Dit betekent dat er geen enkel, intern consistent causaal model is dat zowel "voorwaarts" (mentaliteit $\to$ gedrag) als "achterwaarts" (gedrag $\to$ mentaliteit) werkt.

Kernbijdragen

Nieuw Evaluatiekader: De auteurs introduceren een cognitief onderbouwde methode om ToM te testen op coherentie, abstractie en consistentie, los van menselijke benchmarks.
Ontmaskeren van Schijnbare ToM: Het paper toont aan dat het succes van LLMs op sociale taken het gevolg kan zijn van oppervlakkige patronen en niet van een diepgaand causaal begrip van mentale toestanden.
Onafhankelijkheid van Menselijke Benchmarks: De methode test of een model een ToM heeft (zelfs een niet-menselijke), in plaats van alleen of het menselijk gedrag nabootst. Zelfs onder deze ruimere definitie faalt GPT-4o.
Open Source: De code en data zijn beschikbaar gesteld om herhaalbaarheid en verdere ontwikkeling van evaluatiemetrics mogelijk te maken.

Betekenis en Conclusie

De studie concludeert dat GPT-4o geen Theory of Mind bezit in de zin van een coherent, abstract en consistent causaal model. Hoewel LLMs indrukwekkende sociale vaardigheden kunnen vertonen, zijn deze gebaseerd op statistische correlaties binnen specifieke domeinen en niet op een generatief model van de geest.

Dit heeft belangrijke implicaties:

Betrouwbaarheid: LLMs kunnen onbetrouwbaar zijn bij het generaliseren naar nieuwe sociale situaties die buiten hun trainingsdata vallen, omdat ze geen fundamentele theorie hebben om op terug te vallen.
Toekomstige AI: Het benadrukt dat het verhogen van de parametergrootte of trainingsdata niet automatisch leidt tot het ontstaan van een ToM.
Evaluatie: Toekomstige evaluaties van AI-systemen moeten focussen op de interne consistentie en abstractie van causale modellen, in plaats van alleen op het behalen van menselijke benchmarks.

De auteurs waarschuwen dat het claimen dat een LLM een ToM heeft, een valse zekerheid kan creëren over de "redelijkheid" van zijn conclusies in complexe, onbekende sociale contexten.

GPT-4o Lacks Core Features of Theory of Mind

1. De Test: Is het verhaal consistent? (De "Kastjes" en de "Films")

2. De Inversie: Kan hij terugredeneren?

3. De Conclusie: Een briljante acteur, geen regisseur

Probleemstelling

Methodologie

Belangrijkste Resultaten

Kernbijdragen

Betekenis en Conclusie

Meer zoals dit

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá