Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Dit paper introduceert CausalPitfalls, een benchmark die aantoont dat huidige grote taalmodellen tekortschieten in het betrouwbaar uitvoeren van causale inferentie door veelvuldig statistische valkuilen te negeren, en biedt hiermee gestructureerde maatstaven voor de ontwikkeling van meer betrouwbare redeneersystemen.

Jin Du, Li Chen, Xun Xian, An Luo, Fangqiao Tian, Ganghua Wang, Charles Doss, Xiaotong Shen, Jie Ding

Gepubliceerd 2026-03-06
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

🍦 IJs veroorzaakt geen verdrinking: Waarom AI soms verkeerde conclusies trekt

Stel je voor dat je een super slimme robot hebt die alles over de wereld weet. Je vraagt hem: "Zorgt het eten van ijs ervoor dat mensen verdrinken?"

De robot kijkt naar de statistieken en zegt: "Ja! Als er veel ijs wordt verkocht, zijn er ook meer verdrinkingen. Dus ijs is gevaarlijk!"

Je lacht om de robot. Je weet dat het weer de echte boosdoener is. Op warme dagen eten mensen meer ijs en gaan ze meer zwemmen. De hitte is de oorzaak van beide, niet het ijs. Dit heet een verkeerde oorzaak-gevolg relatie.

Dit is precies waar dit nieuwe onderzoek over gaat. Wetenschappers hebben getest of de slimste AI-modellen (zoals die van onschatbare waarde in de geneeskunde of economie) dit soort valkuilen kunnen herkennen. Het antwoord is: Niet echt, en dat is gevaarlijk.

Hier is hoe het onderzoek werkt, vertaald naar begrijpelijke taal:

1. De "CausalPitfalls" Testbaan

De onderzoekers hebben een nieuwe testbaan gebouwd, genaamd CausalPitfalls (Valkuilen in Oorzaak-Gevolg).

  • Het idee: Stel je voor dat je een rijbewijs wilt halen. Je mag niet alleen weten hoe je het stuur vasthoudt, je moet ook weten hoe je reageert op gladde wegen, regen en andere auto's.
  • De test: De AI moet 75 verschillende situaties oplossen. Sommige zijn makkelijk, andere zijn extreem lastig. Ze moeten bijvoorbeeld uitleggen waarom een medicijn voor de hele groep goed lijkt te werken, maar voor jonge en oude mensen apart juist slecht is (dit heet het Simpson-paradox).

2. Twee Manieren om de AI te Testen

De onderzoekers hebben de AI op twee manieren getest, net als een leerling die een wiskundetoets maakt:

  • Manier A: De "Intuïtie" Test (Direct Prompting)
    De AI krijgt de cijfertabel en moet direct een antwoord geven, zonder hulpmiddelen.

    • Vergelijking: Dit is alsof je iemand vraagt een moeilijke som uit het hoofd te doen. Ze vertrouwen op hun "buikgevoel" en wat ze eerder hebben gelezen.
    • Resultaat: De AI faalt hier vaak. Ze kijken naar oppervlakkige woorden. Als een drankje "SuperGezond" heet, denkt de AI dat het gezond is, zelfs als de cijfers het tegenovergestelde bewijzen. Ze laten zich leiden door de naam, niet door de feiten.
  • Manier B: De "Rekenmachine" Test (Code-Assisted Prompting)
    De AI mag nu Python-code schrijven om de cijfers zelf uit te rekenen voordat ze een antwoord geven.

    • Vergelijking: Dit is alsof je de leerling een rekenmachine mag gebruiken. Ze moeten de som stap voor stap uitwerken.
    • Resultaat: Dit werkt veel beter! De AI's die goede code schrijven, maken minder fouten. Ze kijken niet meer alleen naar de woorden, maar naar de harde cijfers.

3. De Grote Ontdekkingen

Wat hebben ze ontdekt?

  • AI is te zelfverzekerd: De AI's geven vaak heel zeker klinkende antwoorden die volledig fout zijn. Ze zien een patroon waar geen patroon is (zoals verdrinking door ijs).
  • Kleine modellen zakken door de bodem: Sommige kleinere AI-modellen schrijven zo slechte code dat ze erger worden dan zonder hulpmiddelen. Het is alsof een leerling die slecht kan rekenen, een kapotte rekenmachine krijgt; dan maakt hij nog meer fouten.
  • De slimste modellen zijn nog steeds niet perfect: Zelfs de allerbeste AI (zoals GPT-o4-mini) scoort maar ongeveer 43% op deze test. Dat betekent dat ze in meer dan de helft van de gevallen de valkuil inlopen. In de echte wereld (bijvoorbeeld bij het kiezen van een medicijn) is dat te riskant.

4. Waarom is dit belangrijk?

Stel je voor dat een AI beslist welke medicijnen we moeten gebruiken of welke economische maatregelen we nemen. Als de AI denkt dat "ijs verdrinking veroorzaakt", kunnen ze het ijs verbieden. Dat lost het verdrinking-probleem niet op, maar kost wel iedereen het plezier van een ijsje.

De conclusie:
AI is geweldig in het vinden van patronen, maar ze zijn nog niet goed in het begrijpen van waarom die patronen bestaan. Ze zien de "ijsjes" en de "verdrinkingen" samen, maar missen de "hitte" erachter.

Om AI betrouwbaar te maken voor belangrijke beslissingen, moeten we ze leren om niet alleen te kijken naar wat er op het papier staat, maar om echt te rekenen en te twijfelen aan hun eigen eerste ideeën. De testbaan "CausalPitfalls" is daarvoor een essentieel hulpmiddel.