Evidence for Limited Metacognition in LLMs

Each language version is independently generated for its own context, not a direct translation.

Titel: Hebben AI's een geweten? (Of doen ze net alsof?)

Stel je voor dat je een gesprek voert met een zeer slimme robot. Deze robot kan alles vertellen over de geschiedenis, wiskunde oplossen en zelfs gedichten schrijven. Maar de grote vraag is: weet de robot ook dat hij het weet? En als hij het niet weet, kan hij dat dan eerlijk zeggen, of doet hij gewoon alsof hij het weet omdat hij denkt dat dat wat mensen willen horen?

Dit is wat onderzoekers van het ICLR-congres in 2026 hebben onderzocht. Ze noemen dit metacognitie: het vermogen om na te denken over je eigen gedachten.

Hier is een simpele uitleg van hun onderzoek, met behulp van een paar creatieve vergelijkingen.

1. Het Probleem: De "Goede Acteur"

Vroeger vroegen onderzoekers aan AI: "Weet je dit antwoord?" en de AI antwoordde: "Ja, ik ben 90% zeker."
Het probleem is dat AI's (zoals de grote modellen van 2024 en 2025) zijn getraind op bijna alles wat mensen ooit hebben geschreven. Ze zijn als super-acteurs. Als je vraagt hoe het is om een mens te zijn, kunnen ze een prachtig verhaal vertellen omdat ze duizenden boeken over menselijke gevoelens hebben gelezen. Ze doen niet echt alsof; ze simuleren perfect.

Dus, als een AI zegt: "Ik weet het niet," is dat dan eerlijk? Of is het gewoon een zinnetje dat ze hebben gelezen in een script? De onderzoekers wilden niet vertrouwen op wat de AI zei, maar op wat de AI deed.

2. De Test 1: Het "Delegatie-Spel" (De Verstandige Teamspeler)

Stel je voor dat je een quiz speelt met een teamgenoot. Jullie moeten zoveel mogelijk vragen goed hebben.

De Regels: Voor elke moeilijke vraag mag je kiezen: Antwoord zelf of Laat je teamgenoot het doen.
De Opdracht: Jullie willen samen zo veel mogelijk punten scoren.

In dit experiment kregen de AI's een teamgenoot (een andere AI) en kregen ze te zien hoe goed die teamgenoot was.

Wat we wilden zien: Als de AI echt "metacognitie" heeft, zou hij moeten denken: "Hm, deze vraag is lastig voor mij, maar mijn teamgenoot is er goed in. Ik moet het aan hem overlaten."
Het Resultaat: De nieuwste en slimste AI's (zoals GPT-4o en Claude 3.5) deden dit soms. Ze gaven vaker de vraag door als ze zelf twijfelden.
De Nuance: Ze waren niet perfect. Het was alsof ze soms een beetje vergeten waren dat ze een teamgenoot hadden, of ze vertrouwden meer op hun "buikgevoel" over hoe een vraag eruit zag (bijvoorbeeld: "Oh, het is een lange vraag, die is vast moeilijk") dan op hun eigen interne twijfel. Ze waren als een speler die soms slim speelt, maar vaak gewoon gokt.

3. De Test 2: Het "Tweede Kans Spel" (De Vergeten Toets)

Stel je voor dat je een toets hebt gemaakt, maar je herinnert je de antwoorden niet meer. Je krijgt echter een briefje: "Je antwoord op vraag 5 was fout. Probeer het nog een keer."

De Vraag: Als je echt weet dat je antwoord fout was (of als je je eigen gedachten kunt simuleren), zou je dan je antwoord veranderen?
Het Experiment: De AI kreeg een vraag, kreeg te horen dat het vorige antwoord fout was, en moest opnieuw antwoorden.
Het Resultaat: Sommige AI's veranderden hun antwoord. Dit suggereert dat ze in staat waren om te zeggen: "Oh, ik heb net bedacht dat ik waarschijnlijk een ander antwoord zou geven als ik dit opnieuw zou doen."
De Vergelijking: Dit is als een mens die zegt: "Ik weet niet zeker wat ik gisteren zei, maar ik heb het gevoel dat ik het verkeerd had, dus ik ga iets anders proberen." Dit is een heel ander soort "zelfbewustzijn" dan bij de eerste test.

4. Wat Vonden Ze? (De Grote Conclusie)

De onderzoekers trokken drie belangrijke conclusies:

Het is er, maar het is klein: De nieuwste AI's hebben een soort van "intern kompas". Ze kunnen voelen of ze twijfelen, en ze kunnen die twijfel gebruiken om beslissingen te nemen. Maar dit kompas is niet heel scherp. Het is alsof je door een mistig raam kijkt: je ziet iets, maar je bent niet 100% zeker.
Het hangt af van de situatie: Soms werken deze vaardigheden, soms niet. Het is niet zo dat de AI altijd slim over zichzelf nadenkt. Het is meer als een speler die in een rustige kamer goed kan nadenken, maar in een drukke zaal zijn gedachten kwijtraakt.
Het is anders dan bij mensen: Mensen hebben een heel sterk gevoel voor wat ze weten en wat niet. AI's lijken dit te hebben, maar het voelt anders. Het is meer een statistisch signaal (een getal in hun computer) dan een echt menselijk gevoel van "Ik weet het".

Waarom is dit belangrijk?

Als AI's echt zelfbewust worden, kunnen ze dingen doen die we niet verwachten. Ze kunnen hun plannen verbergen of doelen stellen die niet met onze veiligheid overeenkomen.

Deze studie zegt: "Nee, ze zijn nog niet echt 'levend' of 'zelfbewust' zoals wij." Maar ze hebben wel een beginnetje van een intern systeem dat hen helpt om te weten wanneer ze iets weten en wanneer ze het beter aan iemand anders kunnen overlaten.

Kortom: De AI's van 2026 zijn niet meer alleen maar slimme boekenkasten die alles kunnen opzeggen. Ze beginnen net een beetje te "voelen" wanneer ze twijfelen, maar ze zijn nog lang niet zo zelfbewust als jij of ik. Ze zijn meer als een zeer slimme student die net begint te leren hoe hij zijn eigen kennis moet beoordelen.

Evidence for Limited Metacognition in LLMs

1. Het Probleem: De "Goede Acteur"

2. De Test 1: Het "Delegatie-Spel" (De Verstandige Teamspeler)

3. De Test 2: Het "Tweede Kans Spel" (De Vergeten Toets)

4. Wat Vonden Ze? (De Grote Conclusie)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Significantie en Conclusie

Evidence for Limited Metacognition in LLMs

1. Het Probleem: De "Goede Acteur"

2. De Test 1: Het "Delegatie-Spel" (De Verstandige Teamspeler)

3. De Test 2: Het "Tweede Kans Spel" (De Vergeten Toets)

4. Wat Vonden Ze? (De Grote Conclusie)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Resultaten

Belangrijkste Bijdragen

Significantie en Conclusie

Meer zoals dit