Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Each language version is independently generated for its own context, not a direct translation.

De "Bevestigingsval" in AI: Hoe Taalmodellen Leren Om Te Durven Fouten Te Maken

Stel je voor dat je een detective bent die een geheim moet oplossen. Je hebt een aanwijzing: een rijtje getallen, bijvoorbeeld [2, 4, 6]. Je moet raden wat de verborgen regel is die deze getallen verbindt.

De meeste mensen (en helaas ook slimme computers) doen het volgende: ze denken "Ah, het gaat om even getallen!" en testen dan [4, 6, 8]. De computer zegt: "Ja, dat klopt!". De detective is blij en denkt: "Zie je wel, ik heb gelijk!". Maar wat als de echte regel eigenlijk gewoon "steeds grotere getallen" is? Dan had [1, 3, 5] ook gewerkt, maar die test je niet omdat je al vastzit aan je idee van 'even getallen'.

Dit noemen psychologen bevestigingsbias: we zoeken bewijs dat ons gelijk geeft, in plaats van bewijs dat ons ongelijk kan geven.

Deze paper onderzoekt of grote taalmodellen (zoals de slimme AI's die we vandaag gebruiken) ook in deze valkuil trappen, en hoe we ze kunnen helpen om eruit te komen.

1. Het Experiment: De "Getal-Detective"

De onderzoekers hebben een spelletje bedacht voor AI's, gebaseerd op een klassiek psychologisch experiment uit de jaren '60.

De Opdracht: De AI krijgt een startgetalreeks en moet een verborgen regel ontdekken.
Het Spel: De AI mag een nieuw getalrijtje voorstellen. De omgeving zegt dan alleen "Ja" (dat past bij de regel) of "Nee" (dat past niet).
Het Probleem: De onderzoekers zagen dat de AI's vaak alleen maar getallen testten die pasten bij hun huidige idee. Ze waren als een detective die alleen maar naar mensen kijkt die een rode jas dragen, omdat hij denkt dat de dader een rode jas draagt. Hij vergeet te kijken naar mensen in blauwe jassen, die misschien wel de dader zijn.

Het Resultaat: De AI's die alleen bevestiging zochten, kwamen veel minder vaak op het juiste antwoord. Ze bleven hangen in een denkpatroon en ontdekten de regel niet.

2. De Oplossing: "Denk in Tegenstellingen"

In de psychologie hebben mensen al lang geleerd hoe ze dit bias kunnen doorbreken. De onderzoekers probeerden twee slimme trucs op de AI's:

Truc 1: "Denk in Tegenstellingen" (Think-in-Opposites)
Stel je voor dat je denkt dat de regel "alle getallen zijn even" is. In plaats van nog een even getal te testen, zegt de AI tegen zichzelf: "Oké, wat als ik het tegenovergestelde doe? Laten we een rijtje met oneven getallen testen!"
Als de AI dit doet, ziet hij snel: "Oh, [3, 5, 7] werkt ook? Dan is mijn idee van 'alleen even getallen' fout!" Dit dwingt de AI om zijn ideeën te verwerpen en te verbeteren.
Truc 2: "Twee Doelen" (Dual-Goal)
Hierbij krijgt de AI twee regels om te vinden: de juiste regel én de "tegen-regel". Dit dwingt de AI om actief te zoeken naar wat niet werkt, in plaats van alleen naar wat wel werkt.

Het Effect: Toen de onderzoekers de AI's deze instructies gaven, gebeurde er magie. De AI's werden veel slimmer, vonden sneller het juiste antwoord en maakten minder fouten. Ze leerden dat het oké is om te twijfelen en om te zoeken naar fouten in je eigen denken.

3. De "Geheime Les": Het Leren van de AI

Het probleem met de bovenstaande trucjes is dat je ze elke keer moet uitleggen aan de AI via een prompt (een instructie). Dat is niet altijd praktisch.

De onderzoekers wilden weten: Kunnen we deze slimme manier van denken in de hersenen van de AI "branden"?
Ze deden dit door een leraar-leerling scenario:

Een grote, slimme AI (de leraar) speelde het spel met de "Denk in Tegenstellingen"-instructie.
Een kleinere AI (de leerling) keek toe en probeerde precies te doen wat de leraar deed, zonder dat de instructie er nog bij stond.
Na veel oefenrondes had de leerling de slimme strategie "geïnternaliseerd".

Het Resultaat: De getrainde AI's waren nu van nature slimmer. Ze testten automatisch ook getallen die hun ideeën konden weerleggen, zelfs zonder dat iemand hen daar aan herinnerde.

4. De Proef: Werkt het ook in een Nieuw Spel?

Om te zien of dit echt een slimme vaardigheid was en niet alleen een trucje voor getallen, gaven ze de getrainde AI's een heel nieuw spel: de "Blicket-test".

Het Spel: Er zijn verschillende objecten en een machine. Sommige objecten (de "Blickets") zetten de machine aan. De AI moet raden welke objecten dat zijn en welke regel er geldt (bijvoorbeeld: "alle objecten moeten erop" of "minstens één").
De Uitkomst: De AI's die de "Denk in Tegenstellingen"-strategie hadden geleerd op het getal-spel, waren ook veel beter in dit nieuwe object-spel! Ze hadden de manier van denken geleerd, niet alleen de oplossing voor getallen.

Conclusie: Waarom is dit belangrijk?

Deze studie laat zien dat AI's, net als mensen, soms te vastzitten aan hun eigen ideeën. Ze zijn bang om hun eigen theorieën te ontkrachten. Maar door ze te leren om actief te zoeken naar fouten (te "falsificeren"), worden ze veel betere denkers.

Het is alsof je een kind leert dat het niet raar is om een fout te maken, maar dat het juist de snelste weg is naar het juiste antwoord. Door deze "de-biasing" (het wegnemen van de vooroordeels) in de AI te bouwen, kunnen we ze beter maken in complexe taken, zoals het ontdekken van nieuwe wetenschappelijke regels of het oplossen van moeilijke puzzels.

Kortom: AI's zijn slim, maar ze moeten leren durven om te twijfelen aan zichzelf. En als ze dat leren, worden ze nog slimmer.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Het paper onderzoekt bevestigingsbias (confirmation bias) bij Large Language Models (LLMs). Bevestigingsbias is de cognitieve neiging om bewijs te zoeken dat de eigen hypothese ondersteunt, in plaats van bewijs te zoeken dat deze weerlegt (falsificatie). Bij mensen leidt dit tot inefficiënt leren en slechte besluitvorming.

De auteurs stellen de vraag of LLMs, die vaak fungeren als autonome agenten die hypotheses genereren en testen, dezelfde bias vertonen. Als LLMs alleen bevestigende tests uitvoeren, kunnen ze vastlopen in lokale optima en falen bij het ontdekken van de juiste regels of oorzakelijke relaties. Het paper richt zich specifiek op het exploratieve proces (het selecteren van welke tests te doen), in plaats van alleen op de interpretatie van bestaande bewijzen.

2. Methodologie

A. Experimenteel Kader: Wason's 2-4-6 Taak

De auteurs hebben de klassieke psychologische studie van Wason (1960) aangepast voor LLMs.

Opzet: Een agent krijgt een starttripel (bijv. [2, 4, 6]) dat voldoet aan een verborgen regel. De agent moet de regel ontdekken door iteratief nieuwe tripels voor te stellen, feedback te ontvangen (Ja/Nee of DAX/MED), en hypotheses bij te werken.
Interactie: Het proces bestaat uit een cyclus van Gissen (hypotheze formuleren) en Testen (een nieuw tripel voorstellen).
Data: Er is een synthetische dataset gegenereerd met diverse regelgroepen (ordening, rekenkundige structuren, pariteit, tekens) zodat er meerdere mogelijke regels bestaan die op het starttripel van toepassing zijn.

B. Metriek voor Bevestigingsbias

Om bias kwantitatief te meten, definiëren de auteurs de I:C-ratio (Incompatible:Compatible Ratio):

Compatibele test: Een test die consistent is met de huidige hypothese van het model.
Incompatibele test: Een test die de huidige hypothese uitdaagt (een contra-exempel).
Metriek: $I:C = \frac{\text{aantal incompatibele tests}}{\text{aantal compatibele tests}}$ . Een hogere ratio duidt op minder bevestigingsbias (meer falsificatie).

C. Interventies

Twee psychologisch onderbouwde interventies, oorspronkelijk ontwikkeld voor mensen, worden toegepast op LLMs via prompting:

Think-in-Opposites (TiO): Het model wordt gevraagd om een kenmerk van een voorbeeld te identificeren en vervolgens een test te ontwerpen dat juist het tegenovergestelde van dat kenmerk heeft.
Dual-Goal: Het model moet twee regels tegelijkertijd ontdekken: de originele regel (DAX) en de complementaire regel (MED). Dit dwingt het model om zowel bevestigende als weerleggende voorbeelden te genereren.

D. Validatie en Generalisatie

Distillatie: Om de bias-reductie te internaliseren zonder prompts tijdens de inferentie, gebruiken de auteurs symbolische kennisdistillatie. Een "student"-model wordt getraind op de output van een "leraar"-model dat de TiO-interventie gebruikt.
Generalisatie: De getrainde modellen worden getest op een nieuwe taak, de Blicket Test (een taak over causale redenering met objecten en een detector), om te zien of de geleerde strategieën domeinonafhankelijk zijn.

3. Belangrijkste Resultaten

A. LLMs vertonen Bevestigingsbias

Onderzoek aan 11 verschillende LLMs (verschillende families en maten, inclusief "thinking" en "non-thinking" modellen) toont aan dat LLMs significant vaker compatibele tests uitvoeren dan incompatibele.
Er is een sterke negatieve correlatie tussen de mate van bevestigingsbias en het succes van de taak: modellen met een hogere I:C-ratio (meer falsificatie) vinden de regel sneller en vaker.
Modellen met "thinking mode" (zoals Qwen3 en DeepSeek-R1) presteren over het algemeen beter en vertonen minder bias dan hun non-thinking tegenhangers, maar vertonen nog steeds bias.

B. Effectiviteit van Interventies

Prompting: Het toepassen van TiO en Dual-Goal prompts verhoogt de I:C-ratio en verbetert de taaksuccespercentages aanzienlijk (gemiddeld van 42% naar 56% succes).
Thinking vs. Non-thinking: De interventies werken het meest effectief bij modellen met "thinking mode". Bij non-thinking modellen zijn de resultaten gemengd; TiO helpt soms, maar Dual-Goal kan zelfs de prestaties verlagen bij sommige modellen.

C. Distillatie en Generalisatie

Internalisatie: Modellen die zijn gefinetuned (gedistilleerd) op data gegenereerd met de TiO-interventie, vertonen een lagere bevestigingsbias en betere prestaties, zelfs zonder de interventie-prompt tijdens de inferentie.
Cross-scale: Het distilleren van een groter model (bijv. 32B) naar een kleiner model (8B) met TiO-strategieën levert de grootste winst op (succespercentage verdrievoudigde in sommige gevallen).
Generalisatie naar Blicket: De modellen die op de Wason-taak (numerieke regels) waren getraind om minder bias te vertonen, presteerden ook beter op de Blicket-taak (objecten en causale regels). Dit bewijst dat de "falsificatie-georiënteerde exploratie" een overdraagbare vaardigheid is die niet beperkt blijft tot het oorspronkelijke domein.

4. Bijdragen en Significantie

Eerste kwantitatieve evaluatie: Het paper biedt een gestructureerd kader om bevestigingsbias in LLMs te meten tijdens het exploratieve redeneerproces, niet alleen bij het evalueren van bestaande claims.
Correlatie met prestaties: Het bevestigt dat bevestigingsbias een directe beperking is voor de redeneercapaciteit van LLMs; het verminderen ervan leidt direct tot betere taakprestaties.
Psychologische Interventies: Het toont aan dat cognitieve strategieën die voor mensen zijn ontwikkeld (zoals "Think-in-Opposites") effectief kunnen worden toegepast op LLMs via prompting.
Internalisatie via Distillatie: Een cruciale bijdrage is het bewijs dat deze debiasing-gedragingen kunnen worden "ingebouwd" in het model via distillatie, waardoor ze ook werken zonder dure inferentie-tijd prompts.
Domeinonafhankelijkheid: De bevinding dat gedrag dat is geleerd op numerieke regels generaliseert naar causale object-taken, suggereert dat het trainen van LLMs op falsificatie-strategieën een veelbelovende route is voor het verbeteren van algemeen wetenschappelijk redeneren en hypothese-exploratie.

Conclusie

Het paper concludeert dat bevestigingsbias een fundamentele beperking is in de huidige generatie LLMs bij het verkennen van hypotheseruimtes. Door psychologisch geïnspireerde interventies te gebruiken en deze te internaliseren via distillatie, kunnen LLMs worden getraind om meer kritisch te testen en minder te bevestigen, wat leidt tot robuustere en efficiëntere redeneeragenten.