Failing to Falsify: Evaluating and Mitigating Confirmation Bias in Language Models

Deze studie toont aan dat grote taalmodellen, net als mensen, last hebben van bevestigingsbias tijdens hypotheseonderzoek, maar dat deze beperking effectief kan worden opgeheven door menselijke interventiestrategieën toe te passen via prompting en distillatie.

Ayush Rajesh Jhaveri, Anthony GX-Chen, Ilia Sucholutsky, Eunsol Choi

Gepubliceerd 2026-04-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De "Bevestigingsval" in AI: Hoe Taalmodellen Leren Om Te Durven Fouten Te Maken

Stel je voor dat je een detective bent die een geheim moet oplossen. Je hebt een aanwijzing: een rijtje getallen, bijvoorbeeld [2, 4, 6]. Je moet raden wat de verborgen regel is die deze getallen verbindt.

De meeste mensen (en helaas ook slimme computers) doen het volgende: ze denken "Ah, het gaat om even getallen!" en testen dan [4, 6, 8]. De computer zegt: "Ja, dat klopt!". De detective is blij en denkt: "Zie je wel, ik heb gelijk!". Maar wat als de echte regel eigenlijk gewoon "steeds grotere getallen" is? Dan had [1, 3, 5] ook gewerkt, maar die test je niet omdat je al vastzit aan je idee van 'even getallen'.

Dit noemen psychologen bevestigingsbias: we zoeken bewijs dat ons gelijk geeft, in plaats van bewijs dat ons ongelijk kan geven.

Deze paper onderzoekt of grote taalmodellen (zoals de slimme AI's die we vandaag gebruiken) ook in deze valkuil trappen, en hoe we ze kunnen helpen om eruit te komen.

1. Het Experiment: De "Getal-Detective"

De onderzoekers hebben een spelletje bedacht voor AI's, gebaseerd op een klassiek psychologisch experiment uit de jaren '60.

  • De Opdracht: De AI krijgt een startgetalreeks en moet een verborgen regel ontdekken.
  • Het Spel: De AI mag een nieuw getalrijtje voorstellen. De omgeving zegt dan alleen "Ja" (dat past bij de regel) of "Nee" (dat past niet).
  • Het Probleem: De onderzoekers zagen dat de AI's vaak alleen maar getallen testten die pasten bij hun huidige idee. Ze waren als een detective die alleen maar naar mensen kijkt die een rode jas dragen, omdat hij denkt dat de dader een rode jas draagt. Hij vergeet te kijken naar mensen in blauwe jassen, die misschien wel de dader zijn.

Het Resultaat: De AI's die alleen bevestiging zochten, kwamen veel minder vaak op het juiste antwoord. Ze bleven hangen in een denkpatroon en ontdekten de regel niet.

2. De Oplossing: "Denk in Tegenstellingen"

In de psychologie hebben mensen al lang geleerd hoe ze dit bias kunnen doorbreken. De onderzoekers probeerden twee slimme trucs op de AI's:

  • Truc 1: "Denk in Tegenstellingen" (Think-in-Opposites)
    Stel je voor dat je denkt dat de regel "alle getallen zijn even" is. In plaats van nog een even getal te testen, zegt de AI tegen zichzelf: "Oké, wat als ik het tegenovergestelde doe? Laten we een rijtje met oneven getallen testen!"
    Als de AI dit doet, ziet hij snel: "Oh, [3, 5, 7] werkt ook? Dan is mijn idee van 'alleen even getallen' fout!" Dit dwingt de AI om zijn ideeën te verwerpen en te verbeteren.

  • Truc 2: "Twee Doelen" (Dual-Goal)
    Hierbij krijgt de AI twee regels om te vinden: de juiste regel én de "tegen-regel". Dit dwingt de AI om actief te zoeken naar wat niet werkt, in plaats van alleen naar wat wel werkt.

Het Effect: Toen de onderzoekers de AI's deze instructies gaven, gebeurde er magie. De AI's werden veel slimmer, vonden sneller het juiste antwoord en maakten minder fouten. Ze leerden dat het oké is om te twijfelen en om te zoeken naar fouten in je eigen denken.

3. De "Geheime Les": Het Leren van de AI

Het probleem met de bovenstaande trucjes is dat je ze elke keer moet uitleggen aan de AI via een prompt (een instructie). Dat is niet altijd praktisch.

De onderzoekers wilden weten: Kunnen we deze slimme manier van denken in de hersenen van de AI "branden"?
Ze deden dit door een leraar-leerling scenario:

  1. Een grote, slimme AI (de leraar) speelde het spel met de "Denk in Tegenstellingen"-instructie.
  2. Een kleinere AI (de leerling) keek toe en probeerde precies te doen wat de leraar deed, zonder dat de instructie er nog bij stond.
  3. Na veel oefenrondes had de leerling de slimme strategie "geïnternaliseerd".

Het Resultaat: De getrainde AI's waren nu van nature slimmer. Ze testten automatisch ook getallen die hun ideeën konden weerleggen, zelfs zonder dat iemand hen daar aan herinnerde.

4. De Proef: Werkt het ook in een Nieuw Spel?

Om te zien of dit echt een slimme vaardigheid was en niet alleen een trucje voor getallen, gaven ze de getrainde AI's een heel nieuw spel: de "Blicket-test".

  • Het Spel: Er zijn verschillende objecten en een machine. Sommige objecten (de "Blickets") zetten de machine aan. De AI moet raden welke objecten dat zijn en welke regel er geldt (bijvoorbeeld: "alle objecten moeten erop" of "minstens één").
  • De Uitkomst: De AI's die de "Denk in Tegenstellingen"-strategie hadden geleerd op het getal-spel, waren ook veel beter in dit nieuwe object-spel! Ze hadden de manier van denken geleerd, niet alleen de oplossing voor getallen.

Conclusie: Waarom is dit belangrijk?

Deze studie laat zien dat AI's, net als mensen, soms te vastzitten aan hun eigen ideeën. Ze zijn bang om hun eigen theorieën te ontkrachten. Maar door ze te leren om actief te zoeken naar fouten (te "falsificeren"), worden ze veel betere denkers.

Het is alsof je een kind leert dat het niet raar is om een fout te maken, maar dat het juist de snelste weg is naar het juiste antwoord. Door deze "de-biasing" (het wegnemen van de vooroordeels) in de AI te bouwen, kunnen we ze beter maken in complexe taken, zoals het ontdekken van nieuwe wetenschappelijke regels of het oplossen van moeilijke puzzels.

Kortom: AI's zijn slim, maar ze moeten leren durven om te twijfelen aan zichzelf. En als ze dat leren, worden ze nog slimmer.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →