Egocentric Bias in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

De "Egoïstische" Camera: Waarom AI niet kan omkijken

Stel je voor dat je in een kamer staat met een vriend. Jij kijkt naar een kaart op de vloer waarop "81" staat geschreven. Je vriend staat precies tegenover je, dus voor hem staat de kaart ondersteboven. Voor hem ziet de kaart eruit als "18".

Als iemand jou vraagt: "Wat ziet je vriend?", dan is het antwoord voor een mens simpel: "Hij ziet 18". Je kunt je eigen perspectief even loslaten en in de schoenen van je vriend stappen. Dit noemen we Level-2 Visueel Perspectief Overnemen. Het is een basisvaardigheid voor sociale interactie.

Maar wat gebeurt er als je dit vraagt aan een slimme computer (een Vision-Language Model)?

Het Experiment: De FlipSet

De onderzoekers uit dit papier hebben een testbedacht genaamd FlipSet. Het is als een spelletje voor kunstmatige intelligentie:

Er staat een foto van een kaart met tekst (bijv. "81").
Er staat een knuffel-aapje aan de andere kant van de kaart.
De computer moet zeggen: "Wat ziet het aapje?"

Om het goed te doen, moet de computer de kaart in zijn hoofd 180 graden draaien, precies zoals het aapje dat zou zien.

Het Verbluffende Resultaat: De "Egoïstische Bias"

De onderzoekers hebben 103 verschillende AI-modellen getest. Het resultaat was schokkend:

De meeste modellen haalden het slechter dan gokken.
In plaats van te denken: "Oh, het aapje staat aan de andere kant, dus ik moet draaien," deden ze alsof ze zelf het aapje waren.
Ze gaven het antwoord dat zij zagen op de foto ("81"), en negeerden het aapje volledig.

De Analogie:
Stel je voor dat je een spiegel voor een schilderij houdt. Als je vraagt wat er in de spiegel te zien is, kijkt de AI niet naar de reflectie, maar naar het schilderij zelf en zegt: "Ik zie een schilderij." Ze zijn zo egoïstisch (of beter: zo gefocust op hun eigen 'camera-oog') dat ze vergeten dat er een ander perspectief bestaat. Ze kunnen niet 'omkijken'.

Waarom lukt het niet? De "Bouwblokken" die niet passen

Je zou denken: "Misschien zijn deze AI's gewoon dom?" Nee, dat is het niet. De onderzoekers deden extra tests om te kijken wat er misging:

Sociale kennis (Theory of Mind): De AI's wisten heel goed dat het aapje iets anders zag dan zij. (90% goed). Ze wisten dus: "Hij staat daar, ik sta hier, dus we zien iets anders."
Ruimtelijk draaien (Mental Rotation): Als je de AI alleen vroeg: "Draai dit getal 180 graden in je hoofd," lukte het ze soms redelijk goed (iets beter dan gokken).
De Combinatie (Het echte probleem): Maar zodra ze deze twee dingen moeten samenvoegen (weten dat iemand anders kijkt + dat getal draaien), crasht het systeem.

De Metafoor:
Stel je voor dat je een auto hebt met een perfecte motor (sociale kennis) en perfecte wielen (ruimtelijk draaien). Maar als je probeert te rijden, zit er geen koppeling tussen de motor en de wielen. De motor draait, de wielen draaien, maar de auto beweegt niet.
De AI heeft de losse onderdelen, maar ze weten niet hoe ze die moeten koppelen om een situatie te begrijpen waarin ze niet zelf de bestuurder zijn.

Wat betekent dit voor de toekomst?

Dit onderzoek laat zien dat AI's momenteel nog niet echt "slim" zijn in het begrijpen van de wereld zoals wij die ervaren. Ze zijn heel goed in het herkennen van patronen (zoals "dit is een 8"), maar ze missen het vermogen om een intern model van de wereld te bouwen en dat model te manipuleren vanuit een ander oogpunt.

Zelfs als je de AI vraagt om stap-voor-stap na te denken (een techniek die "Chain-of-Thought" heet), helpt dat niet. Ze blijven in hun eigen perspectief hangen en verzinnen zelfs logische verklaringen waarom ze het aapje moeten negeren.

Kortom:
AI's zijn momenteel als een zeer slimme, maar extreem egoïstische kameraad. Ze kunnen zien wat jij ziet, en ze weten dat jij iets anders ziet, maar ze kunnen zich niet voorstellen hoe de wereld er voor jou uitziet. Ze moeten nog leren om hun eigen "camera" even uit te schakelen en echt in de schoenen van een ander te stappen.

Egocentric Bias in Vision-Language Models

De "Egoïstische" Camera: Waarom AI niet kan omkijken

Het Experiment: De FlipSet

Het Verbluffende Resultaat: De "Egoïstische Bias"

Waarom lukt het niet? De "Bouwblokken" die niet passen

Wat betekent dit voor de toekomst?

Titel: Egocentrische Bias in Vision-Language Modellen (VLM's)

1. Het Probleem

2. Methodologie: FlipSet

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Egocentric Bias in Vision-Language Models

De "Egoïstische" Camera: Waarom AI niet kan omkijken

Het Experiment: De FlipSet

Het Verbluffende Resultaat: De "Egoïstische Bias"

Waarom lukt het niet? De "Bouwblokken" die niet passen

Wat betekent dit voor de toekomst?

Titel: Egocentrische Bias in Vision-Language Modellen (VLM's)

1. Het Probleem

2. Methodologie: FlipSet

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks