GPT-4o Lacks Core Features of Theory of Mind

Each language version is independently generated for its own context, not a direct translation.

Der große Test: Hat der KI-Chatbot wirklich ein "Herz" und einen "Kopf"?

Stellen Sie sich vor, Sie treffen einen neuen Nachbarn, der unglaublich gut im Smalltalk ist. Er kennt alle Witze, versteht, warum Sie traurig sind, und kann vorhersagen, was Sie als Nächstes tun werden. Klingt er nicht wie jemand, der ein Gefühl für die Psyche anderer (im Fachjargon: Theory of Mind oder ToM) hat?

Die Forscher von Yale haben genau das mit dem neuesten KI-Modell GPT-4o getestet. Die Frage war: Versteht die KI wirklich, wie Gedanken und Gefühle unser Handeln steuern, oder ist sie nur ein brillanter Schauspieler, der die richtigen Worte zufällig trifft?

Um das herauszufinden, haben die Wissenschaftler drei verschiedene Tests durchgeführt. Hier ist, was sie herausfunden – mit ein paar einfachen Vergleichen.

1. Der erste Test: Ist die KI logisch konsistent? (Der "Koch-Test")

Stellen Sie sich vor, Sie geben einer KI eine Aufgabe: "Ein Charakter will Äpfel, aber der Korb mit den Äpfeln ist weit weg. Der Kasten mit den Orangen ist nah. Was tut er?"

Das Ergebnis: Die KI antwortete fast immer richtig. Sie sagte: "Er geht zum nahen Kasten, weil er die Orangen mag."
Die Analogie: Das ist wie ein Koch, der ein Rezept perfekt nachkocht. Wenn die Zutaten (Gedanken) und der Ofen (Kosten/Anstrengung) klar sind, liefert die KI das richtige Gericht (Handlung).
Das Problem: Das war nur der einfache Test. Die KI schien hier zu funktionieren. Aber ist das echtes Verstehen oder nur Auswendiglernen von Mustern?

2. Der zweite Test: Ist die KI abstrakt fähig? (Der "Orangen-und-Filme-Test")

Hier wird es spannend. Die Forscher gaben der KI eine ganz neue Situation, die aber genau dieselbe Logik hatte wie der erste Test.

Szenario A: Ein Charakter sucht nach Äpfeln in einem Korb oder Kasten (wie oben).
Szenario B: Ein Charakter sucht nach einem Film. Ein Film startet in 5 Minuten, der andere in 90 Minuten. Er mag Romantik, hasst Action.

Die Logik ist identisch: "Nähe" im ersten Fall ist "kurze Wartezeit" im zweiten Fall. "Äpfel" sind "Romantikfilme".

Das Ergebnis: Die KI versagte! Sie konnte die Logik nicht von den Äpfeln auf die Filme übertragen. Sie behandelte die beiden Szenarien als völlig unterschiedliche Welten.
Die Analogie: Stellen Sie sich vor, Sie haben einem Kind beigebracht, wie man ein Fahrrad fährt. Wenn Sie ihm dann ein Motorrad geben, sollte es die Prinzipien (Lenken, Bremsen, Balancieren) verstehen und darauf aufbauen. Die KI hingegen verhielt sich so, als hätte sie das Radfahren nur für dieses eine Fahrrad gelernt und wüsste nicht, wie man ein Motorrad fährt. Sie hat kein abstraktes Regelwerk im Kopf, sondern nur viele einzelne, starre Rezepte.

3. Der dritte Test: Ist die KI in sich selbst widerspruchsfrei? (Der "Rückwärts-Test")

Ein echtes Verständnis der Psyche funktioniert in beide Richtungen:

Vorwärts: Ich weiß, was er denkt -> Ich sage, was er tut.
Rückwärts: Ich sehe, was er tut -> Ich sage, was er gedacht haben muss.

Die Forscher fragten die KI: "Wenn der Charakter diesen Film gewählt hat, was muss er dann gedacht haben?" Und dann: "Wenn er das gedacht hat, würde er diesen Film wählen?"

Das Ergebnis: Die KI war sich selbst nicht treu. Wenn sie eine Handlung vorhersagte, basierte das auf einer Logik. Wenn sie dann rückwärts die Gedanken daraus ableitete, passte das nicht mehr zusammen.
Die Analogie: Es ist wie ein Detektiv, der einen Täter sucht.
- Schritt 1: "Wenn der Täter einen blauen Hut trug, muss er durch die Hintertür gegangen sein." (Vorhersage).
- Schritt 2: "Ah, er ist durch die Hintertür gegangen! Also muss er einen blauen Hut getragen haben." (Rückwärts).
- Die KI machte hier Fehler. Manchmal sagte sie: "Er ging durch die Hintertür, weil er einen roten Hut trug." Das ist ein logischer Bruch. Ein echtes "Verstehen" wäre wie ein stabiles Gerüst, das in beide Richtungen hält. Das KI-Gerüst wackelte und brach.

Das Fazit: Ein brillanter Schauspieler, kein echter Denker

Die Studie kommt zu einem klaren Ergebnis: GPT-4o hat keine echte "Theory of Mind".

Es ist kein echtes Gehirn, das ein Modell der Welt baut.
Es ist eher wie ein genialer Schauspieler, der tausende Drehbücher (Trainingsdaten) auswendig gelernt hat. Wenn die Szene genau so ist wie im Drehbuch, spielt er perfekt. Sobald sich die Kulisse leicht ändert (wie beim Film-Test) oder wenn er die Logik rückwärts anwenden muss, stolpert er.

Warum ist das wichtig?
Wenn wir denken, die KI habe ein echtes Verständnis für Menschen, könnten wir ihr blind vertrauen. Aber wenn sie nur Muster nachahmt, kann sie in neuen, unvorhergesehenen sozialen Situationen völlig falsche und gefährliche Schlüsse ziehen. Sie ist nicht "klug" im menschlichen Sinne, sondern nur extrem gut im Nachahmen.

Die Forscher sagen: Wir müssen aufhören, nur zu fragen "Kann die KI den Test bestehen?" und anfangen zu fragen "Versteht die KI die Logik hinter dem Test?". Und bisher lautet die Antwort: Nein.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die Frage, ob Large Language Models (LLMs) über eine „Theory of Mind" (ToM) verfügen – also die Fähigkeit, mentale Zustände (Glauben, Wünsche) anderer zu modellieren, um deren Verhalten vorherzusagen –, ist Gegenstand intensiver Debatten. Bisherige Forschung stützte sich oft auf Benchmarks, die LLMs mit menschlichen Leistungen verglichen und dabei teilweise Erfolge zeigten. Die Autoren kritisieren jedoch, dass diese Tests oft nur oberflächliche soziale Kompetenz prüfen und nicht die zugrundeliegenden kognitiven Repräsentationen testen.

Das zentrale Problem ist die Unterscheidung zwischen sozialer Profizienz (das richtige Ergebnis liefern) und einem echten kausalen Modell (das Verstehen der Ursache-Wirkungs-Beziehung zwischen mentalen Zuständen und Verhalten). Die Autoren argumentieren, dass eine echte ToM als Theorie drei definierende Merkmale aufweisen muss:

Kohärenz (Coherence): Ein systematisches, einheitliches Regelwerk.
Abstraktheit (Abstractness): Die Fähigkeit, das Modell auf neue, logisch äquivalente Domänen zu übertragen.
Konsistenz (Consistency): Die bidirektionale Verknüpfung; Vorhersagen von Verhalten aus mentalen Zuständen müssen mit Rückschlüssen auf mentale Zustände aus beobachtetem Verhalten übereinstimmen.

Die Studie untersucht, ob GPT-4o diese Merkmale besitzt, unabhängig davon, ob das Modell menschlich aussieht.

Methodik

Die Autoren entwickelten einen neuen Evaluierungsrahmen, der auf einer kognitiv fundierten Definition von ToM basiert. Statt LLMs nur mit menschlichen Antworten zu vergleichen, testen sie die interne Struktur des Modells durch drei aufeinanderfolgende Studien.

Paradigmen:
Zwei logisch isomorphe (1:1 abbildbare) Umgebungen wurden erstellt, um Domänen-generalität zu testen:

ContainerWorld: Ein Agent muss entscheiden, ob er eine Kiste oder einen Korb öffnet, basierend auf seinen Überzeugungen (Glauben) über den Inhalt, seinen Wünschen (Liebt/Hasst) und den Kosten (Entfernung).
MovieWorld: Eine logisch äquivalente Umgebung, bei der ein Agent zwischen zwei Filmvorführungen (5 Min. vs. 90 Min. Wartezeit) wählen muss, basierend auf Genre-Überzeugungen und -Wünschen. Hier werden Kosten durch Zeit dargestellt.

Prozess:
Für jede Studie wurden alle möglichen Kombinationen von Glauben ( $\mathcal{B}$ ), Wünschen ( $\mathcal{D}$ ), Zuständen ( $\mathcal{S}$ ) und Aktionen ( $\mathcal{A}$ ) generiert. GPT-4o wurde aufgefordert:

Vorwärtsmodell ( $\mathcal{F}$ ): Vorhersage der Aktion basierend auf mentalen Zuständen.
Rückwärtsmodell (Inferenz $\mathcal{I}$ ): Inferenz von mentalen Zuständen (Glauben, Wünsche, beides) basierend auf beobachteter Aktion.

Vergleichsmodelle:
Die Ausgaben von GPT-4o wurden mit einem „HumanToM"-Modell (vollständiges rationales Planungsmodell) und mehreren „ablatierten" Modellen verglichen, die jeweils einen Aspekt (z. B. nur Kosten, nur Wünsche) entfernten, um zu sehen, welche Prinzipien das LLM tatsächlich befolgt.

Schlüsselergebnisse

Studie 1: Kohärenz (Coherence)

Ergebnis: GPT-4o zeigte in der ContainerWorld-Aufgabe eine hohe Übereinstimmung mit dem menschlichen ToM-Modell. Es scheint Prinzipien rationaler Planung (Kosten vs. Nutzen) zu befolgen.
Einschränkung: Die Aufgabe war relativ einfach und domänenspezifisch.

Studie 2: Abstraktheit (Abstractness)

Ergebnis: Als das Modell auf die logisch äquivalente MovieWorld-Domäne übertragen wurde, brach die Leistung ein.
- Die Vorhersagen für Aktionen ( $\mathcal{F}$ ) in ContainerWorld korrelierten nur schwach mit denen in MovieWorld ( $r = 0.48$ ).
- Die Inferenz von mentalen Zuständen war ebenfalls inkonsistent. Nur die Inferenz von Glauben zeigte eine starke Korrelation ( $r = 0.78$ ), während Inferenzen zu Wünschen und kombinierten Zuständen sehr schwach waren.
Schlussfolgerung: GPT-4o besitzt kein abstraktes, domänenübergreifendes kausales Modell. Es lernt eher oberflächliche Muster als tiefgreifende Prinzipien.

Studie 3: Konsistenz (Consistency)

Ergebnis: Die Autoren testeten, ob die mentalen Zustände, die das Modell aus einer Aktion inferiert, konsistent mit den Aktionen sind, die das Modell basierend auf diesen inferierten Zuständen vorhersagen würde (bidirektionale Konsistenz).
- Sowohl unter strengen bayesianischen Kriterien als auch unter einer großzügigeren „Validitäts"-Metrik (reicht die Inferenz aus, um die beobachtete Aktion zu erklären?) versagte GPT-4o.
- Die Vorwärts- und Rückwärtsmodelle waren nicht miteinander verknüpft.
Schlussfolgerung: Es fehlt die interne Konsistenz, die für eine echte Theorie notwendig ist.

Hauptbeiträge

Neuer Evaluierungsrahmen: Einführung eines Tests, der nicht auf menschliche Ähnlichkeit abzielt, sondern auf die strukturellen Eigenschaften einer Theorie (Kohärenz, Abstraktheit, Konsistenz).
Nachweis von Fragilität: Demonstration, dass die soziale Kompetenz von LLMs (hier GPT-4o) oft nur oberflächliche Korrelationen sind, die bei logisch äquivalenten, aber strukturell unterschiedlichen Domänen zusammenbrechen.
Unterscheidung von Kompetenz und Modell: Die Studie zeigt, dass ein System sozial kompetent handeln kann, ohne ein kausales Modell des Geistes zu besitzen.

Bedeutung und Implikationen

Kritik an aktuellen Benchmarks: Viele bestehende Tests für ToM bei LLMs sind unzureichend, da sie nur die Ausgabe, nicht aber die zugrundeliegende Repräsentation prüfen.
Zukunft der KI: Die Ergebnisse werfen Zweifel daran auf, ob LLMs in der Lage sind, verlässliche soziale Schlussfolgerungen in unbekannten Situationen zu treffen, da ihnen die Generalisierungsfähigkeit eines kausalen Modells fehlt.
Methodologische Verschiebung: Die Autoren plädieren dafür, bei der Bewertung von KI-Intelligenz von anthropozentrischen Benchmarks (muss es wie ein Mensch sein?) zu funktionalen Kriterien (hat es ein konsistentes kausales Modell?) überzugehen. Dies ist wichtig, um echte Fortschritte in der KI zu erkennen und Fehlschlüsse über die Fähigkeiten aktueller Modelle zu vermeiden.

Zusammenfassend schlussfolgern die Autoren, dass GPT-4o zwar beeindruckende soziale Vorhersagen treffen kann, dies jedoch nicht auf einer abstrakten, kohärenten und konsistenten Theory of Mind basiert, sondern auf statistischen Mustern, die in neuen Kontexten versagen.

GPT-4o Lacks Core Features of Theory of Mind

Der große Test: Hat der KI-Chatbot wirklich ein "Herz" und einen "Kopf"?

1. Der erste Test: Ist die KI logisch konsistent? (Der "Koch-Test")

2. Der zweite Test: Ist die KI abstrakt fähig? (Der "Orangen-und-Filme-Test")

3. Der dritte Test: Ist die KI in sich selbst widerspruchsfrei? (Der "Rückwärts-Test")

Das Fazit: Ein brillanter Schauspieler, kein echter Denker

Problemstellung

Methodik

Schlüsselergebnisse

Hauptbeiträge

Bedeutung und Implikationen

Mehr davon

Diffusion Language Models Know the Answer Before Decoding

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá