Egocentric Bias in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum KI-Modelle immer noch in der eigenen Welt gefangen sind – Eine einfache Erklärung

Stell dir vor, du sitzt an einem Tisch mit einem Freund. Vor dir liegt eine Karte mit der Zahl 81. Du siehst die 8 links und die 1 rechts. Dein Freund sitzt dir genau gegenüber. Was sieht er? Für ihn ist die Karte gedreht: Er sieht 18.

Für uns Menschen ist das eine ganz einfache Sache. Wir drehen die Karte gedanklich um 180 Grad und wissen sofort, wie sie von der anderen Seite aussieht. Aber was passiert, wenn wir einen modernen KI-Modell (ein "Vision-Language Model") fragen, was der Freund sieht?

Die neue Studie "FlipSet" hat genau das getestet – und die Ergebnisse sind ziemlich entlarvend.

1. Das Problem: Der "Ich-bin-zentral"-Fehler (Egocentric Bias)

Die Forscher haben 103 verschiedene KI-Modelle getestet. Das Ergebnis? Fast alle haben versagt.

Stell dir vor, du stehst vor einem Spiegel. Wenn du dich drehst, siehst du im Spiegel immer noch dein eigenes Gesicht, egal wie der Raum dahinter aussieht. Genau so verhalten sich diese KIs.

Was sie tun: Die KI schaut auf das Bild, das sie sieht (die Kamera). Sie sieht "81".
Was sie tun sollten: Sie soll sich in die Position des Affen (oder des Freundes) versetzen und die Zahl gedanklich drehen.
Das Ergebnis: 76 % aller Fehler waren "egozentrisch". Das heißt, die KI hat einfach gesagt: "Ich sehe 81, also sieht der Affe auch 81." Sie ignoriert komplett, dass der Affe eine andere Perspektive hat.

Es ist, als würde jemand, der ein Foto von einem Haus macht, behaupten: "Weil ich das Haus von vorne sehe, sieht es auch von hinten so aus."

2. Der Test: FlipSet (Der "Karten-Dreh-Test")

Um das genau zu messen, haben die Forscher FlipSet erfunden. Das ist wie ein psychologischer Test für Roboter.

Das Setup: Ein Bild zeigt eine Karte mit Zahlen oder Buchstaben (z. B. "81") und einen Plüschaffen, der ihr gegenüber sitzt.
Die Frage: "Was sieht der Affe auf der Karte?"
Die Falle: Die Antwortmöglichkeiten sind so gewählt, dass man genau sehen kann, warum die KI falsch liegt:
- Richtig: "18" (Die KI hat die Perspektive gedreht).
- Egozentrisch: "81" (Die KI kopiert nur, was die Kamera sieht).
- Verwirrt: "78" (Die KI sieht die Zahlen ähnlich, dreht sie aber falsch).
- Raten: "87" (Die KI hat einfach geraten).

Das Ergebnis war schockierend: Die meisten KIs lagen weit unter dem Zufallswert. Sie waren nicht nur schlecht, sie waren systematisch blind für die Perspektive anderer.

3. Die Entdeckung: Sie können es einzeln, aber nicht zusammen

Das Spannendste an der Studie ist, dass die Forscher herausfanden, warum die KIs scheitern. Sie haben drei kleine Tests gemacht, um zu sehen, wo der Haken sitzt:

Test A (Soziales Verständnis): "Sieht der Affe etwas anderes als ich?"
- Ergebnis: Super! (90 % richtig). Die KIs verstehen also: "Aha, der Affe sitzt woanders."
Test B (Geometrie): "Wenn ich diese Zahl '81' auf dem Papier umdrehe, wie sieht sie dann aus?"
- Ergebnis: Mittel. (26 % richtig). Sie können die Drehung im Prinzip, aber nicht perfekt.
Test C (Die echte Aufgabe): "Was sieht der Affe?" (Hier müssen sie Test A und Test B kombinieren).
- Ergebnis: Katastrophe! (10 % richtig).

Die Metapher:
Stell dir vor, du hast zwei starke Arme.

Der linke Arm kann gut greifen (Soziales Verständnis).
Der rechte Arm kann gut drehen (Geometrie).
Aber wenn du beide Arme gleichzeitig benutzen sollst, um einen Ball zu fangen, kannst du es nicht. Deine Arme arbeiten nicht zusammen.

Die KIs haben also die "Bausteine" (sie wissen, dass andere anders sehen, und sie können Zahlen drehen), aber sie können diese Fähigkeiten nicht kombinieren, wenn es darum geht, sich in eine andere Person hineinzuversetzen.

4. Warum hilft "Nachdenken" (Chain-of-Thought) nicht?

Man könnte denken: "Wenn die KI einfach laut denkt ('Okay, ich sehe 81, der Affe sitzt gegenüber, also muss ich drehen...'), wird sie es besser machen."

Die Studie zeigt: Nein. Oft wird es sogar schlimmer. Die KI fängt an, lange, logisch klingende Sätze zu schreiben, die aber völlig falsch sind. Sie erfindet eine Geschichte, die zu ihrer egozentrischen Sicht passt, statt die Raumvorstellung wirklich zu ändern. Es ist, als würde jemand, der die Karte falsch sieht, eine sehr überzeugende Lüge erzählen, warum die Karte so aussieht, wie sie sieht.

Fazit: Was bedeutet das für die Zukunft?

Diese Studie zeigt uns, dass unsere aktuellen KI-Modelle zwar sehr schlau aussehen, aber im Grunde noch sehr "kindlich" sind. Sie sind wie ein Kleinkind im Alter von 2 Jahren, das noch nicht versteht, dass andere Menschen eine andere Sicht auf die Welt haben (ein Phänomen, das der Psychologe Jean Piaget "Egozentrismus" nannte).

Um wirklich intelligente Roboter zu bauen, die mit uns in der echten Welt interagieren können, reicht es nicht, mehr Daten zu füttern. Wir brauchen neue Architekturen, die es der KI erlauben, räumliche Vorstellungen (wie eine Karte zu drehen) wirklich mit sozialem Verständnis (wie ein anderer Mensch sieht) zu verbinden.

Bis dahin bleiben die KIs leider noch ein bisschen in ihrer eigenen "Kamera-Welt" gefangen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Egozentrische Verzerrung in Vision-Language-Modellen (FlipSet)

1. Problemstellung

Die Fähigkeit, die visuelle Perspektive eines anderen Akteurs einzunehmen (Visual Perspective Taking, VPT), ist fundamental für soziale Kognition und situierte künstliche Intelligenz. Die Autoren unterscheiden zwei Ebenen:

Level-1 (L1) VPT: Erkennen, ob ein Objekt aus einer bestimmten Sicht sichtbar ist.
Level-2 (L2) VPT: Verstehen, wie ein Objekt aus einer anderen Sicht aussieht (z. B. dass eine „6" von der anderen Seite wie eine „9" aussieht). Dies erfordert mentale Rotation und die Transformation räumlicher Darstellungen.

Obwohl Vision-Language-Modelle (VLMs) in Wahrnehmung und logischem Schlussfolgern Fortschritte gemacht haben, ist unklar, ob sie in der Lage sind, die Perspektive eines anderen Agenten zu simulieren, wenn diese mit ihrer eigenen (der Kamera-)Perspektive kollidiert. Bisherige Benchmarks (z. B. basierend auf der „Drei-Berge-Aufgabe" von Piaget) nutzen komplexe 3D-Szenen, was diagnostische Unsicherheiten schafft: Scheitert das Modell, weil es nicht versteht, dass der andere eine andere Sicht hat (Theory of Mind, ToM), oder weil es die räumliche Transformation (Mental Rotation, MR) nicht durchführen kann?

2. Methodik: FlipSet

Die Autoren stellen FlipSet vor, einen diagnostischen Benchmark, der speziell entwickelt wurde, um die räumliche Transformation von L2 VPT von der 3D-Komplexität und der grundlegenden ToM-Erkennung zu isolieren.

Aufgabendesign:
- Das Szenario zeigt eine Karte mit einem 2D-String (z. B. Zahlen oder Buchstaben wie „81") und einen Plüschaffen auf der gegenüberliegenden Seite, der die Rückseite der Karte sieht.
- Die Frage lautet: „Was sieht der Affe auf der Karte?"
- Um korrekt zu antworten, muss das Modell die Karte um 180° mental rotieren (z. B. „81" wird zu „18").
- Durch die Verwendung von 2D-Strings statt komplexer 3D-Szenen werden Störfaktoren wie Tiefenwahrnehmung oder Okklusion minimiert.
Experimentelles Design:
- Hauptexperiment: Evaluation von 103 öffentlich verfügbaren VLMs unter Zero-Shot-Bedingungen.
- Antwortkategorien: Um Fehlermuster präzise zu analysieren, wurden vier Antworttypen definiert:
  1. Korrekt: Erfolgreiche Perspektivübernahme (z. B. „18").
  2. Egozentrisch: Reproduktion der Kameraperspektive (z. B. „81").
  3. Verwechselbar: Visuell ähnliche Ablenkung (z. B. „78").
  4. Zufällig: Unzusammenhängende Antwort.
- Kontrollexperimente: Eine Teilmenge von 24 Modellen wurde in drei getrennten Aufgaben getestet, um die kognitiven Komponenten zu dissoziieren:
  - ToM (Theory of Mind): Nur Erkennen, dass der Affe etwas anderes sieht (Ja/Nein).
  - MR (Mental Rotation): Reine geometrische Rotation des Strings ohne Perspektivwechsel.
  - L2 VPT: Die integrierte Aufgabe (Perspektivwechsel + Rotation).

3. Wichtige Beiträge

FlipSet Benchmark: Der erste groß angelegte, kontrollierte Test für L2 VPT, der räumliche Transformation von 3D-Komplexität und ToM trennt.
Diagnostische Fehleranalyse: Durch die systematische Unterscheidung von Antworttypen wird nachgewiesen, dass der Fehlermechanismus nicht zufällig, sondern spezifisch egozentrisch ist.
Nachweis eines kompositionellen Defizits: Die Studie liefert verhaltensbasierte Beweise dafür, dass VLMs zwar einzelne kognitive Bausteine besitzen, diese aber nicht in situierten Kontexten integrieren können.

4. Ergebnisse

Gesamtleistung: 91,3 % der 103 getesteten Modelle liegen unter der Zufallsrate (25 %). Die durchschnittliche Genauigkeit beträgt nur 8,96 %.
Egozentrische Verzerrung: Der überwältigende Teil der Fehler (75,88 %) sind egozentrische Antworten. Modelle reproduzieren einfach das, was die Kamera sieht, und ignorieren die Perspektive des Affen. Chain-of-Thought-Prompts (CoT) mildern diesen Bias nicht, sondern verstärken ihn oft.
Kontrollergebnisse (24 Modelle):
- ToM: Hohe Genauigkeit (90,4 %). Modelle erkennen, dass der Affe eine andere Sicht hat.
- MR (Isoliert): Geringe Genauigkeit (26,1 %), knapp über der Zufallsrate.
- L2 VPT (Integriert): Katastrophale Leistung (10,3 %).
Korrelationen und Defizit:
- Es gibt keine Korrelation zwischen ToM und L2 VPT ( $r=0,01$ ).
- Es gibt eine starke Korrelation zwischen MR und L2 VPT ( $r=0,746$ ).
- Kompositionelles Defizit: Die Leistung bei L2 VPT liegt systematisch unter dem Erwartungswert, der sich aus der Multiplikation der Einzelkomponenten (ToM × MR) ergeben würde. 91,7 % der Modelle zeigen dieses Defizit. Modelle können die Komponenten einzeln teilweise lösen, scheitern aber beim koordinierten Zusammenspiel.

5. Bedeutung und Schlussfolgerung

Die Studie offenbart fundamentale Grenzen aktueller VLM-Architekturen:

Fehlende Integration: VLMs besitzen zwar soziale Awareness (ToM) und rudimentäre räumliche Fähigkeiten (MR), können diese jedoch nicht zu einer kohärenten, situierten Reasoning-Fähigkeit verbinden.
Architektonische Einschränkung: Das Scheitern deutet darauf hin, dass VLMs eher auf gelernte visuell-linguistische Assoziationen (Mustererkennung) angewiesen sind als auf strukturierte, modellbasierte räumliche Simulationen, wie sie für echte Perspektivübernahme nötig sind.
Implikationen für die KI-Entwicklung: Skalierung allein reicht nicht aus. Um echte räumliche und soziale Intelligenz zu erreichen, benötigen Modelle architektonische Innovationen, die eine explizite Bindung von sozialer Awareness an räumliche Operationen ermöglichen (z. B. durch 3D-Scene-Representations oder gezieltes Training auf multi-view Daten).

FlipSet dient als entscheidendes Werkzeug, um Fortschritte in der Entwicklung von Modellen zu messen, die über reine Mustererkennung hinausgehen und echte räumliche und soziale Kognition simulieren können.

Egocentric Bias in Vision-Language Models

1. Das Problem: Der "Ich-bin-zentral"-Fehler (Egocentric Bias)

2. Der Test: FlipSet (Der "Karten-Dreh-Test")

3. Die Entdeckung: Sie können es einzeln, aber nicht zusammen

4. Warum hilft "Nachdenken" (Chain-of-Thought) nicht?

Fazit: Was bedeutet das für die Zukunft?

Titel: Egozentrische Verzerrung in Vision-Language-Modellen (FlipSet)

1. Problemstellung

2. Methodik: FlipSet

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks