Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot hebt die alles leest wat er op internet staat. Deze robot, een Groot Taalmodel (LLM), kan prachtige verhalen schrijven, code programmeren en zelfs poëzie maken. Maar de vraag is: denkt deze robot echt na, of herhaalt hij alleen maar wat hij heeft gelezen?

De auteurs van dit paper (Hirohiko Abe en zijn team) wilden dit testen met een klassiek hersenpuzzeltje uit de psychologie: de Wason Selectie Taak.

Hier is een simpele uitleg van wat ze deden en wat ze ontdekten, met wat creatieve vergelijkingen.

1. De Puzzel: Het "Als-Dan" Spel

Stel je voor dat je een bontje hebt met vier kaarten. Op de ene kant staat een letter, op de andere een getal. Je krijgt een regel:

"Als er een vrijgetal (oneven getal) op de ene kant staat, dan moet er een hoofdletter op de andere kant staan."

Je ziet de kaarten: 7, 12, D, d.
Welke kaarten moet je omdraaien om te controleren of de regel klopt?

Het logische antwoord: Je moet de 7 (omdat het een oneven getal is) en de D (omdat het een hoofdletter is) omdraaien.
Het menselijke probleem: Mensen zijn hier heel slecht in. Ze kiezen vaak de 7 en de D, maar vergeten dat ze ook moeten kijken of de 12 (een even getal) misschien toch een hoofdletter heeft (wat de regel niet verbiedt) of dat de d (een kleine letter) misschien een oneven getal heeft (wat de regel wel verbiedt). Mensen denken vaak: "Ik zoek bewijs dat de regel klopt" in plaats van "Ik zoek bewijs dat de regel fout is".

2. Het Geheim: Regels met "Moeten" vs. "Is"

De onderzoekers ontdekten iets interessants bij mensen. Als je dezelfde puzzel doet met abstracte letters en getallen, zakken mensen door de bodem. Maar als je de regel verandert in iets met regels of verplichtingen (deontisch), wordt het plotseling makkelijk.

Abstract (Slecht): "Als er een 7 staat, dan een D." -> Mensen maken veel fouten.
Regel (Goed): "Als iemand bloed heeft gemorst, dan moet de verpleegster handschoenen dragen." -> Mensen vinden het antwoord (bloed en geen handschoenen) bijna altijd goed.

Het lijkt erop dat ons brein een speciale "sociale module" heeft voor regels en verboden, maar niet voor saaie feiten.

3. De Experimenten met de Robot

De onderzoekers wilden weten: Heeft die slimme robot ook zo'n speciale module?

Ze maakten een nieuwe dataset met 160 puzzels. De helft was saai en abstract (zoals letters en getallen), de andere helft ging over regels en verplichtingen (zoals "Als je een auto hebt, dan moet je een rijbewijs hebben").

Ze gaven deze puzzels aan verschillende AI-modellen (zoals GPT, Qwen, Gemma) en keken hoe ze deden.

4. De Resultaten: De Robot Gedraagt Zich als een Mens

Wat bleek? De robot doet precies hetzelfde als de mens.

Beter met regels: De AI's waren veel slimmer in het oplossen van de puzzels met "moeten" en "verboden" dan met de saaie letters en getallen. Net als mensen hebben ze een voorkeur voor context die voelt als een sociale regel.
De oorzaak van de fouten: Waarom maken mensen en AI's fouten?
- Theorie A (Bevestigingsdrang): "Ik zoek alleen dingen die mijn idee bevestigen."
- Theorie B (Kijk-je-woord-voor-woord): "Ik kies gewoon de woorden die ik in de regel zie, zonder na te denken over wat er niet staat."

De onderzoekers ontdekten dat de AI's niet zozeer bevestigingsdrang hebben, maar eerder kijk-je-woord-voor-woord (in het Engels: matching bias).

Vergelijking: Stel je voor dat je een zoekopdracht doet in een bibliotheek. Als je zoekt op "rode auto", pakt de robot automatisch alle boeken met het woord "rode" en "auto" erin, ook als de zin eigenlijk zegt: "Als er geen rode auto is...". De robot negeert het woordje "geen" en plakt gewoon de woorden die hij herkent aan elkaar.

5. Conclusie: Wat betekent dit voor ons?

Dit paper vertelt ons twee belangrijke dingen:

AI's zijn niet alleen simpele tekstgeneratoren: Ze tonen een vorm van "denkgedrag" dat lijkt op mensen. Ze zijn beter in redeneren over regels en sociale situaties dan over abstracte logica. Dit suggereert dat hun "intelligentie" niet willekeurig is, maar afhankelijk is van het soort vraag (net als bij mensen).
Ze hebben dezelfde blinde vlekken: Net als wij, negeert de AI soms de kleine woordjes zoals "niet" of "niet-toegestaan". Ze kijken naar de woorden die eruit springen, in plaats van de volledige logische betekenis.

Kort samengevat:
Deze slimme robots zijn net als wij: ze zijn goed in het begrijpen van regels en wat "moet" gebeuren, maar ze struikelen over abstracte logica en hebben de neiging om te kijken naar de woorden die ze herkennen, in plaats van diep na te denken over wat er niet staat. Het is alsof ze een menselijke "sociale hersenmodule" hebben gekopieerd, maar nog steeds worstelen met de subtiliteiten van de taal.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task", geschreven in het Nederlands.

Probleemstelling

Hoewel Large Language Models (LLMs) aanzienlijke vooruitgang hebben geboekt in linguïstische competentie, blijft hun redeneervermogen, met name binnen specifieke domeinen, onderzocht. In de cognitieve wetenschap is het een vaststaand feit dat mensen beter presteren in conditioneel redeneren (de "als-p, dan-q" structuur) wanneer dit binnen een deontisch domein plaatsvindt (normen, verplichtingen, verboden) vergeleken met puur beschrijvende (abstracte) domeinen. Dit fenomeen staat bekend als domeinspecificiteit.

Tot nu toe is onduidelijk of LLMs deze menselijke eigenschap van domeinspecificiteit vertonen. Daarnaast is er discussie over de aard van de fouten die mensen maken bij de Wason Selection Task: komen deze voort uit bevestigingsbias (de neiging om bewijs te zoeken dat de regel bevestigt) of uit matching bias (de neiging om te kiezen voor elementen die letterlijk overeenkomen met de termen in de regel, negerend de ontkenning)? Eerdere studies hebben deze twee bias-mechanismen niet systematisch vergeleken binnen een geünificeerd experimenteel ontwerp voor LLMs.

Methodologie

De auteurs hebben een nieuwe dataset ontwikkeld en geëvalueerd om LLMs te testen op hun vermogen tot conditioneel redeneren.

Dataset Constructie:
- Er is een dataset van 160 problemen samengesteld, gebaseerd op de klassieke Wason Selection Task.
- De dataset onderscheidt expliciet tussen twee types regels:
  - Deontische regels: Bevatten normatieve modaliteiten (bijv. "moet", "mag niet", "is verplicht").
  - Beschrijvende regels: Bevatten feitelijke generalisaties zonder normatieve component.
- Om de bias te analyseren, zijn vier polariteitspatronen geïntroduceerd door ontkenningen (negatie) toe te passen op de antecedent (p) en/of consequent (q):
  - Pos-Pos ( $p \to q$ )
  - Pos-Neg ( $p \to \neg q$ )
  - Neg-Pos ( $\neg p \to q$ )
  - Neg-Neg ( $\neg p \to \neg q$ )
- Dit ontwerp maakt het mogelijk om te testen of modellen reageren op de logische waarheid (bevestigingsbias) of op de letterlijke tekstovereenkomst (matching bias).
Modellen en Instellingen:
- Er zijn vijf families van open-weight modellen getest, waaronder zowel "reasoning" modellen (bijv. gpt-oss, Qwen 3) als "non-reasoning" modellen (bijv. Gemma 3, Llama 3.3, OLMo 2).
- Drie prompt-strategieën zijn toegepast: Zero-Shot, Few-Shot (met voorbeelden die bewust verkeerde antwoorden bevatten om bias te detecteren) en Chain-of-Thought (CoT).
- De evaluatiemetrica is nauwkeurigheid (exact match), waarbij een antwoord alleen correct is als het model precies de juiste kaarten selecteert om de regel te falsifiëren.
Analyse van Bias:
- Bevestigingsbias: Voorspelt dat modellen kaarten kiezen waar zowel de antecedent als de consequent waar zijn (TA en TC), ongeacht de negatie.
- Matching bias: Voorspelt dat modellen kaarten kiezen die letterlijk overeenkomen met de termen in de regel (bijv. $p$ en $q$ ), zelfs als de regel genegateerd is ( $\neg p$ of $\neg q$ ), waardoor ze de ontkenning negeren.

Belangrijkste Bijdragen

Nieuwe Dataset: Introductie van een Wason Selection Task-dataset met expliciete codering van deontische modaliteit, wat een systematische vergelijking tussen deontische en beschrijvende regels mogelijk maakt.
Uitgebreide Evaluatie: Een actuele evaluatie van een breed scala aan moderne LLMs (inclusief reasoning-modellen) op deze taak.
Domeinspecificiteit: Het aantonen van parallellen tussen menselijk en LLM-gedrag: LLMs presteren significant beter op deontische regels dan op beschrijvende regels.
Bias-Analyse: Het systematisch vergelijken van bevestigingsbias en matching bias, waarbij wordt geconcludeerd dat de foutpatronen van LLMs beter worden verklaard door matching bias.

Resultaten

Domeinspecificiteit: Alle geteste modellen behaalden een hogere nauwkeurigheid op deontische regels vergeleken met beschrijvende regels. De verbetering varieerde van 5,0% tot 41,2%, afhankelijk van het model en de prompt-strategie. Grotere modellen en reasoning-modellen toonden over het algemeen een sterker effect, hoewel het effect ook bij kleinere modellen aanwezig was.
Bias-Verklaring:
- De resultaten ondersteunen niet de hypothese van bevestigingsbias. Modellen selecteerden niet consistent de kaarten die de regel bevestigen (TA en TC) ongeacht de negatie.
- De resultaten ondersteunen wel de hypothese van matching bias. Modellen neigden sterk om kaarten te selecteren die letterlijk overeenkwamen met de termen in de regel ( $p$ en $q$ ), zelfs wanneer deze termen genegateerd waren in de regel (bijv. bij $\neg p \to q$ werd vaak $p$ geselecteerd in plaats van $\neg p$ ).
- Dit gedrag is vergelijkbaar met de fouten die mensen maken in dezelfde taak, wat suggereert dat LLMs, net als mensen, gevoelig zijn voor de oppervlakkige lexische overeenkomst in plaats van de diepere logische structuur, vooral bij het negeren van ontkenningen.

Significantie en Conclusie

De studie toont aan dat LLMs, net als mensen, domeinspecifiek redeneren: ze zijn beter in het hanteren van sociale en normatieve regels (deontisch) dan van abstracte logische regels. Dit suggereert dat de trainingsdata van LLMs (waarin normatieve taal veel voorkomt) een sterke invloed heeft op hun redeneervermogen.

Verder onthult de studie dat de fouten van LLMs in dit paradigma niet het gevolg zijn van een verlangen om regels te bevestigen, maar van een matching bias: een neiging om de ontkenning in de tekst te negeren en te kiezen voor lexische overeenkomsten. Dit heeft belangrijke implicaties voor het begrijpen van de beperkingen van Transformer-architecturen in het verwerken van negatie en voor het ontwikkelen van robuustere redeneersystemen. De auteurs pleiten voor toekomstig onderzoek naar de mechanistische oorzaken van deze bias en uitbreiding naar andere vormen van conditioneel redeneren.

Evaluation of Deontic Conditional Reasoning in Large Language Models: The Case of Wason's Selection Task

1. De Puzzel: Het "Als-Dan" Spel

2. Het Geheim: Regels met "Moeten" vs. "Is"

3. De Experimenten met de Robot

4. De Resultaten: De Robot Gedraagt Zich als een Mens

5. Conclusie: Wat betekent dit voor ons?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models