Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

Each language version is independently generated for its own context, not a direct translation.

Titel: Denken KI wie Menschen? Ein Blick hinter die Kulissen des logischen Schließens

Stellen Sie sich vor, Sie sind ein Detektiv. Jemand hat einen Mord begangen, und Sie haben zwei Verdächtige: Herrn A und Herrn B. Beide hatten ein Motiv und die Gelegenheit. Plötzlich finden Sie heraus, dass das Opfer tot ist (das „Ereignis").

Jetzt stellt sich die Frage: Wenn Sie wissen, dass Herr A es getan hat, wie wahrscheinlich ist es dann noch, dass Herr B es war?

Ein menschlicher Detektiv würde vielleicht denken: „Na ja, Herr A hat es getan, aber vielleicht war Herr B auch noch da, oder es gab einen dritten, unbekannten Täter." Menschen neigen dazu, an Dinge zu denken, die nicht explizit erwähnt wurden. Sie sind vorsichtig und lassen Raum für das Unbekannte.

Ein KI-Modell (ein Large Language Model) hingegen ist wie ein extrem pedantischer Jurist, der nur das liest, was auf dem Papier steht. Wenn der Text sagt: „Nur A oder B können es getan haben", dann schließt die KI sofort aus, dass C oder D involviert waren. Sie folgt den Regeln des Spiels buchstäblich, ohne an „Geister" oder unbekannte Faktoren zu glauben.

Genau das untersucht diese neue Studie von Hanna Dettki und Kollegen. Sie haben über 20 verschiedene KI-Modelle getestet, um herauszufinden: Denken KIs wie Menschen, oder sind sie ganz anders?

Hier ist die einfache Zusammenfassung der Ergebnisse:

1. Der Test: Das „Kollisions-Experiment"

Die Forscher nutzten ein klassisches Denk-Experiment, das sie „Kollisions-Struktur" nennen.

Die Situation: Zwei unabhängige Ursachen (z. B. Regen und eine Sprinkleranlage) führen zu einer gemeinsamen Wirkung (nasser Rasen).
Die Falle: Wenn Sie sehen, dass der Rasen nass ist, und Sie wissen, dass es geregnet hat, was sagt das über den Sprinkler aus?
- Menschen machen hier oft Fehler. Sie denken manchmal: „Oh, es hat geregnet, also war der Sprinkler sicher aus." Aber sie vergessen manchmal, dass der Sprinkler trotzdem an sein könnte (sie ignorieren die Unabhängigkeit der Ursachen). Oder sie glauben nicht ganz fest daran, dass der eine Grund den anderen „erklärt" (sie „erklären weg" zu wenig).
- Die KIs hingegen sind hier oft überraschend logisch. Sie folgen den mathematischen Regeln fast perfekt. Wenn es geregnet hat, reduzieren sie die Wahrscheinlichkeit für den Sprinkler stark. Sie machen die typischen menschlichen „Abkürzungen" (Biases) kaum.

Die Metapher: Menschen sind wie Künstler, die das Bild mit ihrer eigenen Erfahrung und Intuition füllen. KIs sind wie Architekten, die strikt nach dem Bauplan arbeiten.

2. Sind KIs schlauer oder nur stur?

Die Studie zeigt, dass KIs oft strengere Regelbefolger sind als Menschen.

Menschen denken: „Der Text sagt, A und B verursachen C. Aber im echten Leben gibt es vielleicht noch D, das wir nicht kennen." Sie nehmen unsichtbare Faktoren mit ins Kalkül.
KIs denken: „Der Text sagt, nur A und B verursachen C. Also gibt es kein D." Sie bleiben im „geschlossenen Raum" des Textes.

Das ist ein zweischneidiges Schwert:

Vorteil: KIs sind konsistent. Sie werden nicht müde, nicht abgelenkt und machen keine emotionalen Fehler.
Nachteil: In der echten Welt, wo Dinge oft unvorhersehbar sind und unbekannte Faktoren eine Rolle spielen, könnte diese Sturheit gefährlich sein. Eine KI, die nicht an „unbekannte Täter" glaubt, könnte in komplexen Situationen (wie Medizin oder Recht) falsche Schlüsse ziehen, weil sie zu sehr auf das Vertraute fixiert ist.

3. Der „CoT"-Trick (Gedankenketten)

Die Forscher haben die KIs auch aufgefordert, erst Schritt für Schritt zu „denken" (Chain-of-Thought), bevor sie antworten.

Ergebnis: Das half den KIs enorm! Wenn sie erst ihre Gedanken ordnen, werden sie noch robuster gegen Ablenkungen.
Analogie: Stellen Sie sich vor, Sie bekommen eine schwierige Matheaufgabe. Wenn Sie sie im Kopf lösen, machen Sie vielleicht Fehler. Wenn Sie aber erst die Schritte auf ein Blatt Papier schreiben, kommen Sie viel schneller und genauer zum Ziel. Genau das passiert bei den KIs mit „CoT".

4. Ablenkung und Unsinn

Die Forscher haben den KIs auch Unsinn in die Fragen gemischt (z. B. lange, irrelevante Texte oder abstrakte, sinnlose Begriffe statt „Regen" und „Sprinkler").

Ältere oder kleinere KIs ließen sich leicht verwirren. Ihre Antworten wurden chaotisch.
Neue, große KIs (wie das sehr fortschrittliche Gemini-2.5-Pro) blieben fast völlig unbeeindruckt. Sie waren wie ein Fels in der Brandung: Egal, ob die Frage in einer anderen Sprache oder mit Unsinn formuliert war, sie lösten das logische Problem trotzdem.

Das Fazit für den Alltag

Diese Studie sagt uns etwas Wichtiges über die Zukunft der KI:

KIs sind keine perfekten Spiegelbilder von uns. Sie kopieren unsere Denkfehler nicht einfach nur. Sie haben ihre eigene, sehr regelbasierte Art zu denken.
Das ist gut und schlecht. Wenn wir eine KI brauchen, die konsequent und fair ist (z. B. bei der Bewertung von Kreditanträgen), ist ihre Regelstrenge super. Aber wenn wir eine KI brauchen, die in einer chaotischen, unvorhersehbaren Welt (wie im Notfallmanagement) Entscheidungen trifft, müssen wir vorsichtig sein. Sie könnte zu stur sein, um „unbekannte Gefahren" zu erkennen.
Wir müssen sie richtig anleiten. Durch das „Gedankenketten"-Verfahren (CoT) können wir die KI dazu bringen, robuster und zuverlässiger zu werden.

Zusammenfassend: KIs sind wie extrem disziplinierte Schüler, die die Regeln des Lehrbuchs perfekt beherrschen, aber manchmal vergessen, dass das Leben außerhalb des Lehrbuchs oft chaotischer ist als gedacht. Menschen sind dagegen wie erfahrene Abenteurer, die auch das Unbekannte mit einplanen – aber dafür manchmal zu voreilig urteilen. Die beste Lösung? Wir arbeiten zusammen, wobei die KI die Regeln prüft und der Mensch den Kontext im Auge behält.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Große Sprachmodelle (LLMs) werden zunehmend in Bereichen eingesetzt, in denen kausales Denken entscheidend ist (z. B. Medizin, Recht). Es ist jedoch unklar, ob diese Modelle normative kausale Berechnungen durchführen, menschliche Heuristiken (und damit Verzerrungen) nachahmen oder lediglich brüchige Mustererkennung betreiben.

Ein zentrales Problem ist, dass reale kausale Szenarien oft unvollständig definiert sind (fehlende Basisraten). Menschen nutzen in solchen Fällen Heuristiken und Vorannahmen, was zu systematischen Verzerrungen führt, wie z. B. dem „Explaining-Away"-Effekt (Erklärung durch andere Ursachen) und Verletzungen der Markov-Eigenschaft (Abhängigkeit zwischen Ursachen). Die Studie untersucht, ob LLMs, die auf menschlichen Texten trainiert wurden, diese spezifisch menschlichen Verzerrungen in Kollider-Strukturen ( $C1 \rightarrow E \leftarrow C2$ ) replizieren oder ob sie stattdessen strikteren, regelbasierten Mustern folgen.

2. Methodik

Benchmark und Aufgaben:

Die Studie basiert auf einem etablierten kognitionspsychologischen Paradigma (Rehder & Waldmann, 2017) mit 11 kausalen Urteilsaufgaben in einer Kollider-Graph-Struktur.
Variablen sind binär ( $0/1$ ). Die Aufgaben erfordern Wahrscheinlichkeitsurteile (Skala 0–100) für ein Zielereignis basierend auf beobachteten Werten anderer Variablen.
Da keine expliziten Prior-Wahrscheinlichkeiten oder Kausalstärken vorgegeben sind, gibt es keine „korrekte" Ground-Truth-Lösung. Der Fokus liegt auf der Konsistenz der Schlussfolgerungsstrategien und qualitativen Mustern.

Experimentelle Bedingungen:
Es wurden über 20 verschiedene LLMs gegen eine menschliche Baseline (N=48) getestet. Die Robustheit wurde unter vier Hauptbedingungen geprüft (2x2x2 Design):

Semantische Abstraktion: Originalgeschichten (z. B. Soziologie, Wetter) vs. abstrakte Versionen mit zufälligen Platzhalter-Variablen (Reduktion von Weltwissen).
Informationslast (Overloading): Original-Prompts vs. Prompts mit irrelevantem, ablenkendem Text („Noise").
Prompting-Strategie: Direkte Abfrage (nur numerische Antwort) vs. Chain-of-Thought (CoT, schrittweises Nachdenken).
Modelle: Eine breite Palette von LLMs (GPT-4/5, Claude, Gemini, o1/o3) mit unterschiedlichen Größen und Architekturen.

Analysewerkzeuge:

Kausale Bayes-Netze (CBN): Kleine, interpretierbare Modelle (Noisy-OR mit Leck-Parameter) wurden angepasst, um die Urteile der Agenten zu komprimieren und vorherzusagen.
Metriken:
- Background-Adjusted Causal Strength (BACS): Misst, wie stark sich Agenten auf die angegebenen Regeln verlassen vs. latente Faktoren einbeziehen.
- Explaining-Away (EA) Level: Misst, wie stark eine Ursache die Wahrscheinlichkeit einer alternativen Ursache reduziert.
- Markov Violation (MV): Misst die Abhängigkeit zwischen Ursachen, wenn keine Information über den Effekt vorliegt.
- Robustheit: Konsistenz der Urteile über alle experimentellen Bedingungen hinweg.

3. Wichtige Beiträge

Umfassender Benchmark: Evaluation von über 20 LLMs gegen eine menschliche Baseline in einem unvollständig definierten kausalen Setting, das reale Unsicherheit simuliert.
Interpretierbare Modellierung: Demonstration, dass die komplexen Urteile von LLMs durch kleine, interpretierbare kausale Bayes-Netze gut komprimiert und vorhergesagt werden können.
Robustheitsanalyse: Systematische Untersuchung der Auswirkungen von semantischer Abstraktion, irrelevanter Information (Noise) und Prompting-Strategien (CoT) auf das kausale Schließen.
Ressourcen: Veröffentlichung einer LLM-freundlichen Version des Benchmarks und der Software-Pakete CAUSAIIGN für strukturierte Prompt-Manipulationen.

4. Ergebnisse

Q1: Ausrichtung und Sinnhaftigkeit:

Sowohl Menschen als auch LLMs liefern sinnvolle Urteile (höhere Wahrscheinlichkeit des Effekts bei mehr Ursachen).
CoT-Prompting verbessert die Ausrichtung (Spearman-Korrelation) zwischen weniger ausgerichteten LLMs und menschlichen Urteilen signifikant.

Q2: Kompression durch CBNs:

Die Urteile der meisten LLMs lassen sich durch ein einziges, kompaktes kausales Bayes-Netz gut beschreiben (niedriger Mean Absolute Error).
CoT reduziert den Fehler und verbessert die Generalisierungsfähigkeit (Out-of-Sample $R^2$ ) der CBN-Modelle, besonders unter ablenkenden Bedingungen.

Q3: Regelbefolgung vs. latente Faktoren:

Hauptunterschied: LLMs verhalten sich als striktere „Regelbefolger" als Menschen. Sie haben eine höhere Background-Adjusted Causal Strength (BACS).
Menschen neigen dazu, latente, nicht genannte Faktoren zu berücksichtigen (offene Welt), während LLMs die angegebenen kausalen Beziehungen als ausreichend behandeln (geschlossene Welt).
CoT führt bei einigen Modellen zu noch stärkerer Regelbefolgung, bei anderen zu einer Annäherung an menschliche Muster.

Q4: Verzerrungen (Biases):

Explaining-Away (EA): Im Gegensatz zu Menschen (die oft zu wenig EA zeigen), zeigen die meisten LLMs einen starken Explaining-Away-Effekt.
Markov-Verletzungen (MV): Menschen verletzen häufig die Unabhängigkeit der Ursachen (Markov-Verletzung). Die meisten LLMs sind jedoch Markov-konform (keine Verletzung), was bedeutet, dass sie die Unabhängigkeit der Ursachen korrekt handhaben, solange keine Information über den Effekt vorliegt.
Fazit: LLMs replizieren die charakteristischen menschlichen Kollider-Verzerrungen (schwaches EA + MV) meist nicht.

Q5: Robustheit:

Die Robustheit ist stark modellabhängig.
Gemini-2.5-pro zeigt eine nahezu invariante Leistung über alle 8 Bedingungen hinweg (sehr robust).
Kleinere oder ältere Modelle sind anfälliger für Abstraktion und Noise.
CoT erhöht in der Regel die Robustheit und reduziert die Varianz der Urteile bei Störungen.

5. Bedeutung und Diskussion

Die Studie zeigt, dass LLMs in kausalen Aufgaben oft regelbasierter und weniger fehleranfällig durch menschliche Heuristiken sind als Menschen. Dies ist ein zweischneidiges Schwert:

Vorteil: LLMs können menschliche Verzerrungen in hochriskanten Szenarien kompensieren, wo konsistente, normative Schlussfolgerungen erwünscht sind.
Risiko: Ihr striktes Regelbefolgen (geschlossene Welt) kann in realen Szenarien mit intrinsischer Unsicherheit und ungenannten Faktoren zum Scheitern führen, da sie weniger flexibel auf latente Ursachen reagieren als Menschen.

Die Ergebnisse unterstreichen die Notwendigkeit, die Reasoning-Strategien von LLMs genau zu charakterisieren, um sie sicher und effektiv einzusetzen. Zudem demonstriert die Arbeit, wie Bayesianische Modelle als komplementäre Werkzeuge dienen können, um das Verhalten komplexer neuronaler Netze auf einer kognitiven Ebene zu interpretieren und zu diagnostizieren.

Limitationen: Der Fokus liegt ausschließlich auf Kollider-Strukturen (gemeinsamer Effekt). Die Ergebnisse könnten sich bei anderen Graphstrukturen unterscheiden. Zudem fehlten menschliche Daten für die abstrakten und überladenen Bedingungen, was einen direkten Vergleich in diesen spezifischen Szenarien einschränkt.

Do LLMs Share Human-Like Biases? Causal Reasoning Under Prior Knowledge, Irrelevant Context, and Varying Compute Budgets

1. Der Test: Das „Kollisions-Experiment"

2. Sind KIs schlauer oder nur stur?

3. Der „CoT"-Trick (Gedankenketten)

4. Ablenkung und Unsinn

Das Fazit für den Alltag

1. Problemstellung und Motivation

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Diskussion

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks