Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

Each language version is independently generated for its own context, not a direct translation.

Titel: Zijn AI's slimme detectives of stijve regelsvolgers? Een verhaal over oorzaken, gevolgen en menselijke fouten.

Stel je voor dat je een detective bent die moet oplossen hoe een misdaad is gebeurd. Er zijn twee mogelijke daders (C1 en C2) en één misdaad (E). Als je de misdaad ziet gebeuren, probeer je te raden: "Was het dader A, dader B, of misschien allebei?"

Dit is precies wat dit onderzoek doet, maar dan met Grote Taalmodellen (LLMs) – de slimme AI's zoals wij die nu gebruiken – en mensen. De onderzoekers wilden weten: Denken AI's net als mensen, of zijn ze heel anders?

Hier is de samenvatting in gewone taal, met een paar leuke vergelijkingen:

1. De Proef: Een Vage Verhaal

De onderzoekers gaven mensen en AI's een raadsel. Het verhaal was opzettelijk onvolledig. Ze zeiden: "Stel je voor dat X en Y kunnen leiden tot Z. We zien Z gebeuren. Hoe waarschijnlijk is het dat X de oorzaak was?"

Ze gaven geen exacte cijfers of regels. Ze wilden zien of de AI's en mensen hun eigen "buikgevoel" gebruikten of strikte regels volgden. Ze testten dit met 20 verschillende AI's en een groep studenten.

2. Het Grote Verschil: De "Open Wereld" vs. De "Sluitende Kring"

Dit is het belangrijkste punt van het onderzoek:

Mensen (De Open Wereld): Als mensen een raadsel krijgen, denken ze vaak: "Nou, er is vast nog iets anders dat ik niet zie. Misschien was er een derde dader, of het weer, of toeval." Mensen zijn voorzichtig. Ze zeggen zelden: "Het is 100% zeker dat X het was, want er zijn altijd andere dingen mogelijk." Ze laten ruimte voor onbekende factoren.
AI's (De Sluitende Kring): De meeste AI's zijn als een strenge robot die alleen kijkt naar wat er op het papier staat. Als het verhaal zegt "X en Y kunnen Z veroorzaken", dan denken de AI's: "Oké, dat is alles wat er is. Er is geen derde dader." Ze volgen de regels heel strikt. Ze vergeten niet te denken aan dingen die niet genoemd worden.

Vergelijking:

Een mens is als een detective die zegt: "Het ziet eruit als dader A, maar ik kan me voorstellen dat er een onbekende speler was die ik niet heb gezien."
Een AI is als een computer die zegt: "Volgens de wetten in dit boek is het dader A. Er staat nergens dat er een onbekende speler is, dus die bestaat niet."

3. De Menselijke Foutjes (En waarom AI's ze niet maken)

Mensen maken bekende fouten in hun redeneren:

De "Verklaring Weg" Fout: Als je weet dat dader A het gedaan heeft, denken mensen soms: "Oh, dan kan dader B het niet gedaan hebben," zelfs als dat logisch niet klopt. Mensen zijn hierin vaak verward.
De "Koppeling" Fout: Mensen denken soms dat als dader A aanwezig is, dader B ook wel aanwezig moet zijn, ook al hebben ze niets met elkaar te maken.

Het verrassende nieuws: De AI's maakten deze menselijke fouten niet!
De AI's waren juist heel logisch en volgden de wiskundige regels perfect. Ze deden precies wat je zou verwachten van een slimme rekenmachine. Mensen zijn vaak "slordig" in hun logica, maar AI's zijn "stijf" en correct.

4. Wat gebeurt er als je de AI afleidt?

De onderzoekers deden twee dingen om te testen hoe sterk de AI's waren:

Vage Woorden: Ze veranderden de woorden in het verhaal naar onzin (bijv. in plaats van "geld" en "economische crisis" gebruikten ze "X8jzP" en "Y9kLm").
Afblijven: Ze voegden heel veel onzin tekst toe aan het verhaal om de AI af te leiden.

Resultaat:

Sommige oudere of kleinere AI's raakten in de war. Ze begonnen dan net als mensen te denken of maakten fouten.
De nieuwste, sterkste AI's (zoals de nieuwste versies van Gemini) waren onvermurwbaar. Het maakte hen niets uit of de woorden onzin waren of of er veel afleiding was. Ze bleven hun logische regels volgen.

5. De Oplossing: "Denk Stap voor Stap"

De onderzoekers ontdekten iets spannends: als je de AI vraagt om eerst stap voor stap na te denken (een techniek die "Chain-of-Thought" heet), worden ze nog beter.

Zonder instructie: "Geef me het antwoord." -> Soms raakt de AI in de war door afleiding.
Met instructie: "Denk eerst stap voor stap na, en geef dan het antwoord." -> De AI wordt veel stabieler en maakt minder fouten, zelfs als het verhaal vol onzin zit.

Conclusie: Zijn AI's dan beter dan mensen?

Niet per se "beter", maar anders.

Wanneer zijn AI's geweldig? Als je een situatie hebt waar je geen fouten wilt maken en waar je strikte regels wilt volgen (bijvoorbeeld in de wet of bij medische berekeningen). Ze zijn niet vatbaar voor de "buikgevoel" fouten die mensen maken.
Wanneer zijn AI's gevaarlijk? In de echte wereld, waar dingen vaak onduidelijk zijn en waar "onbekende factoren" een rol spelen. Omdat AI's zo strikt zijn, kunnen ze in de war raken als de realiteit niet past in hun strakke regels. Ze missen het menselijke vermogen om te zeggen: "Misschien is er iets anders gaande dat we niet zien."

Kortom: AI's zijn als perfecte, stijve regelsvolgers. Mensen zijn als flexibele, maar soms slordige detectives. Voor de beste beslissingen hebben we misschien beide nodig: de AI om de regels te volgen, en de mens om te denken aan de dingen die niet op het papier staan.

Each language version is independently generated for its own context, not a direct translation.

1. Probleemstelling

Grote Taalmodellen (LLMs) worden steeds vaker ingezet in domeinen waar causaal redeneren cruciaal is (bijv. juridische en medische besluitvorming). Hoewel LLMs goed zijn in het genereren van output via patroonherkenning, is het onduidelijk of hun oordelen gebaseerd zijn op:

Normatieve causale berekening.
Menselijke heuristieken en vooroordelen (zoals "explaining away" en schendingen van de Markov-eigenschap).
Broze patroonmatching die faalt bij onzekerheid of afleiding.

De kernvraag is of LLMs, gezien hun training op menselijk gegenereerde data, dezelfde systematische fouten maken als mensen bij het interpreteren van causale structuren, en hoe robuust deze redeneerstrategieën zijn onder variabele omstandigheden (zoals abstractie en irrelevante context).

2. Methodologie

Benchmark en Taak:

Structuur: De studie gebruikt een klassiek "collider"-diagram ( $C1 \rightarrow E \leftarrow C2$ ), waarbij twee onafhankelijke oorzaken ( $C1, C2$ ) een enkel effect ( $E$ ) veroorzaken.
Taken: Er zijn 11 causale oordeelstaken gebaseerd op het werk van Rehder & Waldmann (2017). De taken vragen om waarschijnlijkheidsoordelen (0-100) voor een variabele, gegeven waarnemingen van de andere variabelen.
Onderspecifiek: In tegenstelling tot eerdere benchmarks (zoals CLADDER) worden geen exacte basispercentages of causale sterktes gegeven. Dit dwingt agenten om aannames te doen over hun wereldmodel, wat vergelijkbaar is met real-world scenario's.
Domeinen: De taken zijn verpakt in drie contexten: sociologie, weer en economie.

Experimentele Condities:
De auteurs testen 20+ LLMs (inclusief modellen van GPT-4, Claude 3/4, Gemini 2.5, en o3) tegen een menselijke baseline (N=48). Er zijn twee prompting-strategieën en twee content-manipulaties gecombineerd tot 8 experimentele condities:

Prompting: Directe prompting (één numeriek antwoord) vs. Chain-of-Thought (CoT, "denk stap voor stap").
Semantische Abstractie: Originele variabelen vs. abstracte, betekenisloze strings (om reliance op wereldkennis te verminderen).
Informatielast (Overloading): Originele prompts vs. prompts met toegevoegde irrelevante tekst (afleiding/noise).

Analyse:

Menselijke Baseline: Vergelijking met menselijke data uit Rehder & Waldmann (2017).
Interpretable Modeling: Het aanpassen van een klein, interpreteerbaar Causaal Bayesiaans Netwerk (CBN) met een "leaky noisy-OR" parameterisatie om de oordelen van de LLMs te voorspellen.
Metrieken:
- Alignment: Spearman-correlatie tussen mens en LLM.
- Rule-Following: Gemeten via "Background-Adjusted Causal Strength" (BACS). Een hoge BACS betekent dat het model strikt de gegeven regels volgt; een lage BACS betekent dat het model onbenoemde achtergrondfactoren in rekening brengt.
- Bias Signatures: Kwaliteit van "Explaining Away" (EA) en "Markov Violations" (MV).
- Robuustheid: Stabiliteit van oordelen over de 8 condities heen.

3. Belangrijkste Bijdragen

Uitgebreide Benchmark: Een evaluatie van 20+ LLMs tegen een menselijke baseline op 11 causale taken, een significant breder scala dan eerdere studies (die vaak slechts 4 modellen testten).
Ontwikkeling van CAUSAIIGN: Een softwarepakket en een LLM-vriendelijke versie van de benchmark die structureel afgestemde prompts en content-manipulaties ondersteunt.
Compressie naar CBN: Het aantonen dat de complexe redeneerstrategieën van grote neurale netwerken goed kunnen worden samengevat (gecompresserd) door kleine, interpreteerbare causale Bayesiaanse netwerken.
Systematische Vergelijking: Een gedetailleerde analyse van hoe LLMs afwijken van menselijke biases en hoe prompting (CoT) en context deze afwijkingen beïnvloeden.

4. Resultaten

Q1: Alignement en Sensitiviteit:

Zowel mensen als LLMs geven "zinnige" oordelen (hoger waarschijnlijkheid bij meer oorzaken).
Chain-of-Thought (CoT) verbetert het alignement met menselijke oordelen voor modellen die bij directe prompting minder goed presteerden.

Q2: Interpreteerbaarheid:

De oordelen van LLMs worden zeer goed voorspeld door een klein CBN-model (lage Mean Absolute Error).
CoT verhoogt de generalisatie van het CBN-model (hoger $R^2$ bij leave-one-out cross-validatie), wat suggereert dat CoT leidt tot consistentere, regelgebaseerde redenering.

Q3: Regelvolgende vs. Achtergrondfactoren:

Kernbevinding: De meeste LLMs gedragen zich als strengere regelvolgers dan mensen. Ze hebben een hoge "Background-Adjusted Causal Strength" (BACS).
Mensen neigen om onbenoemde, latente factoren in hun oordeel te betrekken (open-world interpretatie), terwijl LLMs de gegeven causale links als volledig en voldoende beschouwen (closed-world interpretatie).
CoT maakt sommige modellen nog strikter in het volgen van regels, terwijl andere modellen hier minder gevoelig voor zijn.

Q4: Menselijke Biases (Explaining Away & Markov Violations):

Explaining Away (EA): Mensen vertonen vaak een zwak "explaining away" effect (waarneming van oorzaak A vermindert niet sterk het geloof in oorzaak B). LLMs vertonen daarentegen een sterk "explaining away" effect, wat normatiever is maar afwijkt van het menselijke patroon.
Markov Violations (MV): Mensen schenden vaak de onafhankelijkheid van oorzaken (waarneming van C2 beïnvloedt het oordeel over C1 zonder E). LLMs zijn over het algemeen Markov-compliant (ze respecteren de onafhankelijkheid), tenzij ze worden blootgesteld aan zware afleiding.
Conclusie: LLMs repliceren de karakteristieke menselijke collider-biases (zwak EA + MV) doorgaans niet.

Q5: Robuustheid:

Robuustheid is sterk modelafhankelijk. Nieuwere, grotere modellen (bijv. Gemini-2.5-pro) tonen bijna invariante redenering over alle condities.
Kleinere of oudere modellen zijn gevoeliger voor abstractie en noise.
CoT verhoogt over het algemeen de robuustheid en verkleint de spreiding in oordelen bij verschillende prompts.

5. Betekenis en Conclusie

Het paper concludeert dat LLMs fundamenteel anders redeneren dan mensen in causale contexten:

Complementariteit: Omdat LLMs minder vatbaar zijn voor de specifieke cognitieve biases van mensen (zoals zwak explaining away en Markov-schendingen), kunnen ze menselijke besluitvorming aanvullen waar deze biases ongewenst zijn.
Risico's: De sterke, regelgebaseerde aanpak van LLMs kan echter een nadeel zijn in real-world scenario's waar onzekerheid inherent is en waar onbenoemde factoren (open world) cruciaal zijn. LLMs kunnen falen als ze te strikt de gegeven regels volgen zonder ruimte voor contextuele nuances.
Interpretatie: De studie bevestigt dat Bayesian modellen nuttig zijn als computatieniveau-doelen om het gedrag van complexe neurale netwerken te diagnosticeren en te interpreteren.

De auteurs benadrukken dat voor een veilige en effectieve inzet van LLMs in hoog-risico domeinen, het essentieel is om hun specifieke redeneerstrategieën (regelgebaseerd vs. heuristisch) te karakteriseren en te begrijpen wanneer ze menselijke beperkingen compenseren en wanneer ze nieuwe beperkingen introduceren.

Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

1. De Proef: Een Vage Verhaal

2. Het Grote Verschil: De "Open Wereld" vs. De "Sluitende Kring"

3. De Menselijke Foutjes (En waarom AI's ze niet maken)

4. Wat gebeurt er als je de AI afleidt?

5. De Oplossing: "Denk Stap voor Stap"

Conclusie: Zijn AI's dan beter dan mensen?

1. Probleemstelling

2. Methodologie

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks