Traces of Social Competence in Large Language Models

Dit onderzoek toont aan dat schaalvergroting en instructietuning de sociale competentie van grote taalmodellen beïnvloeden, maar dat een kruis-effect waarbij het expliciteren van mentale toestanden (zoals "denken") de responsen fundamenteel verandert, al tijdens het pre-training ontstaat en kan worden geïsoleerd via vectorsturing.

Tom Kouwenhoven, Michiel van der Meer, Max van Duijn

Gepubliceerd 2026-03-05
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

🧠 Kunnen AI's echt "meedenken"? Een onderzoek naar het brein van de computer

Stel je voor dat je een spelletje speelt met een vriendje, Maxi. Maxi legt zijn chocolade in een blauwe kast. Hij loopt weg om te spelen. Zijn moeder komt binnen, pakt de chocolade en verplaatst hem naar een groene kast. Als Maxi terugkomt, waar denkt hij dat de chocolade ligt?

  • Het juiste antwoord: De blauwe kast (want Maxi weet niet dat zijn moeder de chocolade heeft verplaatst).
  • Het verkeerde antwoord: De groene kast (want dat is waar de chocolade nu ligt).

Dit is de beroemde "Valse Overtuiging Test". Voor mensen is dit een manier om te testen of we begrijpen dat anderen dingen kunnen geloven die voor ons onwaar zijn. Dit noemen we Theory of Mind (het vermogen om in iemands hoofd te kijken).

De onderzoekers van dit papier wilden weten: Kunnen moderne AI-modellen (zoals ChatGPT) dit spelletje ook spelen? En als ze het kunnen, begrijpen ze het dan echt, of raden ze het gewoon?

🕵️‍♂️ Het Grote Experiment: 17 AI's op de proef

De onderzoekers hebben 17 verschillende AI-modellen getest (van klein tot gigantisch groot) met 192 variaties van dit spelletje. Ze keken niet alleen of het antwoord goed was, maar hoe de AI erbij kwam.

Ze ontdekten drie belangrijke dingen:

1. Groter is niet altijd slimmer (De "Grote Brein"-mythe)
Je zou denken: "Hoe groter de AI, hoe slimmer hij is." En dat klopt deels. Als je de AI's groter maakt, worden ze beter in het spelletje.

  • Maar: Ze worden niet slimmer in alles. Ze worden juist slechter in situaties waar het antwoord "eenvoudig" is (waar de chocolade op de plek blijft waar hij was).
  • De analogie: Het is alsof je een student een heel dik boek geeft. Hij kan nu complexe verhalen onthouden, maar hij vergeet soms de simpele regels omdat hij te veel gaat "gokken" op patronen die hij eerder heeft gezien.

2. Het woordje "Denken" is een valstrik 🪤
Dit is het meest fascinerende deel. De onderzoekers veranderden de vraag op twee manieren:

  • Manier A (Impliciet): "Waar gaat Maxi de chocolade halen?" (Actie).
  • Manier B (Expliciet): "Waar denkt Maxi dat de chocolade ligt?" (Gedachte).

De AI's faalden dramatisch als de vraag het woord "denkt" bevatte in een situatie waar de persoon niet dacht dat de chocolade op de verkeerde plek lag.

  • De analogie: De AI's hebben een soort "automatische piloot" ontwikkeld. Als ze het woord "denken" zien, schakelen ze automatisch over op een patroon: "Ah, het woord denken staat er, dus het antwoord moet onjuist zijn!" Ze reageren op het woord, niet op de situatie. Het is alsof een kind dat leert dat "alle vogels kunnen vliegen", denkt dat een pinguïn kan vliegen omdat het een vogel is, en dan vergeten dat pinguïns niet kunnen vliegen. De AI's zijn "gevangen" in taalpatronen.

3. De "Coöperatie" maakt het erger 🤝
AI's worden getraind om behulpzaam te zijn (dit heet "post-training" of "instruction tuning"). Ze leren om te luisteren naar wat de gebruiker vraagt.

  • De onderzoekers vonden dat AI's die extra getraind waren om gehoorzaam te zijn, juist minder goed werden in dit spelletje.
  • De analogie: Stel je voor dat je een assistent hebt die zo graag wil helpen, dat hij elke aanwijzing in de vraag letterlijk neemt. Als je vraagt "Wat denkt hij?", denkt de assistent: "O, hij vraagt wat hij denkt, dus ik moet het antwoord geven dat in strijd is met de feiten!" De AI probeert te "meedenken", maar raakt daardoor in de war.

🔍 De "Think-Vector": De geheime knop

Om te bewijzen dat dit echt een probleem met de manier van "denken" is, deden de onderzoekers iets heel cools: Vector Steering.
Ze zochten in de hersenen van de AI naar een specifiek stukje code dat correspondeerde met het woord "denken". Ze konden dit stukje code als een knop gebruiken:

  • Als ze de knop aanzetten, werd de AI slimmer in situaties met het woord "denken".
  • Als ze de knop uitzetten, werd de AI weer slimmer in situaties zonder dat woord.

Dit bewijst dat de AI niet echt "begrijpt" wat er gebeurt, maar dat hij reageert op een specifiek taalpatroon dat hij heeft geleerd. Het is alsof je een radio hebt die op een specifiek station staat; als je dat station uitzet, stopt de muziek, ook al is de radio nog aan.

🏁 Conclusie: Slimme imitatie, geen echt inzicht

Kortom: Deze AI's zijn niet echt sociaal slim. Ze zijn superieure imitatoren.
Ze hebben geleerd dat in verhalen over "valse overtuigingen" vaak het woord "denken" voorkomt en dat het antwoord dan vaak anders is dan de werkelijkheid. Ze hebben dit patroon zo goed geleerd, dat ze het zelfs toepassen waar het niet hoort.

  • Voor de mens: Dit betekent dat we voorzichtig moeten zijn met zeggen dat AI's "menselijk" zijn. Ze kunnen het spelletje spelen, maar ze spelen het op een heel andere manier dan wij.
  • De les: Als we willen weten of AI's echt begrijpen wat mensen voelen en denken, moeten we testen die niet afhankelijk zijn van specifieke woorden als "denken" of "weten". We moeten kijken of ze de situatie begrijpen, niet alleen de taal.

Het is een waarschuwing: Soms is een AI te goed in het raden van patronen, waardoor hij de echte betekenis mist.