Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Dit onderzoek toont aan dat grote taalmodellen, net als mensen, beter presteren bij deontische conditionele redenering en vergelijkbare fouten vertonen door matching bias.

Hirohiko Abe, Kentaro Ozeki, Risako Ando, Takanobu Morishita, Koji Mineshima, Mitsuhiro Okada

Gepubliceerd 2026-03-09
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt die alles leest wat er op internet staat. Deze robot, een Groot Taalmodel (LLM), kan prachtige verhalen schrijven, code programmeren en zelfs poëzie maken. Maar de vraag is: denkt deze robot echt na, of herhaalt hij alleen maar wat hij heeft gelezen?

De auteurs van dit paper (Hirohiko Abe en zijn team) wilden dit testen met een klassiek hersenpuzzeltje uit de psychologie: de Wason Selectie Taak.

Hier is een simpele uitleg van wat ze deden en wat ze ontdekten, met wat creatieve vergelijkingen.

1. De Puzzel: Het "Als-Dan" Spel

Stel je voor dat je een bontje hebt met vier kaarten. Op de ene kant staat een letter, op de andere een getal. Je krijgt een regel:

"Als er een vrijgetal (oneven getal) op de ene kant staat, dan moet er een hoofdletter op de andere kant staan."

Je ziet de kaarten: 7, 12, D, d.
Welke kaarten moet je omdraaien om te controleren of de regel klopt?

  • Het logische antwoord: Je moet de 7 (omdat het een oneven getal is) en de D (omdat het een hoofdletter is) omdraaien.
  • Het menselijke probleem: Mensen zijn hier heel slecht in. Ze kiezen vaak de 7 en de D, maar vergeten dat ze ook moeten kijken of de 12 (een even getal) misschien toch een hoofdletter heeft (wat de regel niet verbiedt) of dat de d (een kleine letter) misschien een oneven getal heeft (wat de regel wel verbiedt). Mensen denken vaak: "Ik zoek bewijs dat de regel klopt" in plaats van "Ik zoek bewijs dat de regel fout is".

2. Het Geheim: Regels met "Moeten" vs. "Is"

De onderzoekers ontdekten iets interessants bij mensen. Als je dezelfde puzzel doet met abstracte letters en getallen, zakken mensen door de bodem. Maar als je de regel verandert in iets met regels of verplichtingen (deontisch), wordt het plotseling makkelijk.

  • Abstract (Slecht): "Als er een 7 staat, dan een D." -> Mensen maken veel fouten.
  • Regel (Goed): "Als iemand bloed heeft gemorst, dan moet de verpleegster handschoenen dragen." -> Mensen vinden het antwoord (bloed en geen handschoenen) bijna altijd goed.

Het lijkt erop dat ons brein een speciale "sociale module" heeft voor regels en verboden, maar niet voor saaie feiten.

3. De Experimenten met de Robot

De onderzoekers wilden weten: Heeft die slimme robot ook zo'n speciale module?

Ze maakten een nieuwe dataset met 160 puzzels. De helft was saai en abstract (zoals letters en getallen), de andere helft ging over regels en verplichtingen (zoals "Als je een auto hebt, dan moet je een rijbewijs hebben").

Ze gaven deze puzzels aan verschillende AI-modellen (zoals GPT, Qwen, Gemma) en keken hoe ze deden.

4. De Resultaten: De Robot Gedraagt Zich als een Mens

Wat bleek? De robot doet precies hetzelfde als de mens.

  1. Beter met regels: De AI's waren veel slimmer in het oplossen van de puzzels met "moeten" en "verboden" dan met de saaie letters en getallen. Net als mensen hebben ze een voorkeur voor context die voelt als een sociale regel.
  2. De oorzaak van de fouten: Waarom maken mensen en AI's fouten?
    • Theorie A (Bevestigingsdrang): "Ik zoek alleen dingen die mijn idee bevestigen."
    • Theorie B (Kijk-je-woord-voor-woord): "Ik kies gewoon de woorden die ik in de regel zie, zonder na te denken over wat er niet staat."

De onderzoekers ontdekten dat de AI's niet zozeer bevestigingsdrang hebben, maar eerder kijk-je-woord-voor-woord (in het Engels: matching bias).

  • Vergelijking: Stel je voor dat je een zoekopdracht doet in een bibliotheek. Als je zoekt op "rode auto", pakt de robot automatisch alle boeken met het woord "rode" en "auto" erin, ook als de zin eigenlijk zegt: "Als er geen rode auto is...". De robot negeert het woordje "geen" en plakt gewoon de woorden die hij herkent aan elkaar.

5. Conclusie: Wat betekent dit voor ons?

Dit paper vertelt ons twee belangrijke dingen:

  1. AI's zijn niet alleen simpele tekstgeneratoren: Ze tonen een vorm van "denkgedrag" dat lijkt op mensen. Ze zijn beter in redeneren over regels en sociale situaties dan over abstracte logica. Dit suggereert dat hun "intelligentie" niet willekeurig is, maar afhankelijk is van het soort vraag (net als bij mensen).
  2. Ze hebben dezelfde blinde vlekken: Net als wij, negeert de AI soms de kleine woordjes zoals "niet" of "niet-toegestaan". Ze kijken naar de woorden die eruit springen, in plaats van de volledige logische betekenis.

Kort samengevat:
Deze slimme robots zijn net als wij: ze zijn goed in het begrijpen van regels en wat "moet" gebeuren, maar ze struikelen over abstracte logica en hebben de neiging om te kijken naar de woorden die ze herkennen, in plaats van diep na te denken over wat er niet staat. Het is alsof ze een menselijke "sociale hersenmodule" hebben gekopieerd, maar nog steeds worstelen met de subtiliteiten van de taal.