Dynamic Theory of Mind as a Temporal Memory Problem: Evidence from Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je met een vriend aan het praten bent. Je weet dat hij denkt dat de trein om 14:00 uur vertrekt. Dan zegt hij plotseling: "Oh wacht, ik heb net op mijn telefoon gekeken, de trein vertrekt pas om 15:00 uur!"

Op dat moment weet jij twee dingen:

Wat hij nu denkt (15:00 uur).
Wat hij eerder dacht (14:00 uur).

Mensen zijn hier heel goed in. We kunnen onszelf en onszelf herinneren wat we dachten voordat we iets nieuws leerden. Maar wat gebeurt er als je dit test met een slimme computer (een Large Language Model of LLM)?

Dit onderzoek, getiteld "Dynamic Theory of Mind as a Temporal Memory Problem", kijkt precies naar dit probleem. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Nu" vs. "Vroeger" Valstrik

Tot nu toe hebben wetenschappers getest of computers kunnen begrijpen wat iemand nu denkt. Ze gebruikten daarvoor klassieke tests (zoals de "Sally-Anne test" uit de psychologie), waarbij je vraagt: "Waar denkt Sally dat de bal ligt?"

Maar in het echte leven verandert de wereld voortdurend. Mensen krijgen nieuwe informatie, maken fouten en corrigeren zichzelf. De onderzoekers zeggen: "Het is niet genoeg om te weten wat iemand nu denkt. Een slimme AI moet ook kunnen onthouden wat die persoon vroeger dacht, zelfs nadat het idee is veranderd."

Ze noemen dit DToM-Track (Dynamic Theory of Mind Tracking). Het is alsof je niet alleen naar de huidige foto kijkt, maar ook de hele film kunt terugspoelen om te zien hoe de gedachten van iemand zich hebben ontwikkeld.

2. De Experimenten: Een Toneelstuk met Geheime Gedachten

Om dit te testen, lieten de onderzoekers verschillende AI-modellen met elkaar praten in een toneelstuk.

De Regie: Ze gaven de acteurs (de AI's) een script. Ze moesten gedurende het gesprek hun gedachten hardop zeggen (in hun hoofd, maar niet voor de ander hoorbaar) en op een bepaald moment hun mening veranderen.
De Asymmetrie: Net als in het echte leven wist de ene AI niet wat de andere AI dacht, totdat er iets gezegd werd.
De Vragen: Na het gesprek stelden ze vragen aan de AI's.
- Vraag 1 (Huidig): "Wat denkt Alex nu over het restaurant?" (Dit was makkelijk).
- Vraag 2 (Oud): "Wat dacht Alex voordat hij de nieuwe informatie kreeg?" (Dit was moeilijk).
- Vraag 3 (Wanneer): "Op welk moment veranderde Alex' mening?"

3. De Resultaten: De "Recente Herinnering" Bias

De uitkomsten waren verrassend en duidelijk:

De AI's zijn goed in het "Nu": Ze konden perfect vertellen wat iemand nu dacht. Alsof ze een spiegel zijn die de huidige situatie weerspiegelt.
De AI's zijn slecht in het "Vroeger": Zodra er nieuwe informatie kwam, verdween de oude mening uit hun geheugen. Ze konden zich niet herinneren wat er voor de update was gebeurd.

De Metafoor: De Vergetelheid van de Supermarkt
Stel je voor dat je een AI bent die een supermarkt bezoekt.

Je ziet een bordje: "Melk kost €1,00". Je onthoudt dit.
Dan komt de manager en zegt: "Nee, de melk kost eigenlijk €2,00!"
Als je nu wordt gevraagd: "Wat kost de melk?", zeg je direct: "€2,00". (Dit gaat goed).
Maar als je wordt gevraagd: "Wat dacht je net voordat de manager kwam?", dan raken de AI's in de war. Ze zeggen vaak: "€2,00" (want dat is wat ze nu denken) of ze vergeten het helemaal.

Het lijkt erop dat de AI's een sterke "Recency Bias" (recentheidsvoorkeur) hebben. De nieuwste informatie duwt de oude informatie weg, alsof je een whiteboard schoonveegt en er direct iets nieuws op schrijft, zonder de oude tekst te bewaren.

4. Waarom is dit belangrijk?

Dit onderzoek laat zien dat het voor AI's niet alleen gaat om "slim zijn" (hoeveel kennis ze hebben), maar om hoe ze hun geheugen gebruiken.

Mensen kunnen een gesprek voeren waarbij we zeggen: "Ik dacht eerst dat je boos was, maar nu zie ik dat je alleen moe bent." We houden beide versies van de waarheid vast.
AI's lijken de oude versie te verliezen zodra de nieuwe versie binnenkomt.

Dit is een groot probleem voor de toekomst van mens-AI-interactie. Als je met een AI praat over je plannen voor een vakantie, en je zegt: "Eigenlijk wil ik naar Spanje, niet naar Italië", dan moet de AI niet alleen weten dat je nu naar Spanje wilt, maar ook begrijpen dat je eerder naar Italië wilde. Als de AI dat vergeet, voelt het gesprek onnatuurlijk en "dwaas".

Conclusie

De onderzoekers concluderen dat we AI's niet meer alleen moeten testen op of ze een momentopname van een gedachte kunnen maken. We moeten ze testen op hun vermogen om een film van gedachten te volgen.

Hun boodschap is: Het is niet dat de AI's dom zijn; het is dat hun geheugen werkt als een zeer kortetermijn-herinnering die nieuwe informatie te snel laat verdringen. Om echte sociale intelligentie te bereiken, moeten AI's leren hoe ze hun "oude ik" kunnen onthouden, zelfs als hun "nieuwe ik" iets anders denkt.

Dynamic Theory of Mind as a Temporal Memory Problem: Evidence from Large Language Models

1. Het Probleem: De "Nu" vs. "Vroeger" Valstrik

2. De Experimenten: Een Toneelstuk met Geheime Gedachten

3. De Resultaten: De "Recente Herinnering" Bias

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie: DToM-Track

Belangrijkste Resultaten

Bijdragen

Significantie en Implicaties

Dynamic Theory of Mind as a Temporal Memory Problem: Evidence from Large Language Models

1. Het Probleem: De "Nu" vs. "Vroeger" Valstrik

2. De Experimenten: Een Toneelstuk met Geheime Gedachten

3. De Resultaten: De "Recente Herinnering" Bias

4. Waarom is dit belangrijk?

Conclusie

Probleemstelling

Methodologie: DToM-Track

Belangrijkste Resultaten

Bijdragen

Significantie en Implicaties

Meer zoals dit

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers