Egocentric Bias in Vision-Language Models

Il paper introduce FlipSet, un benchmark diagnostico che rivela come la maggior parte dei modelli visione-linguaggio soffra di un pregiudizio egocentrico, fallendo nel compito di prendere la prospettiva visiva altrui a causa di una deficitaria capacità di integrare la consapevolezza sociale con le operazioni spaziali.

Maijunxian Wang, Yijiang Li, Bingyang Wang, Tianwei Zhao, Ran Ji, Qingying Gao, Emmy Liu, Hokin Deng, Dezhi Luo

Pubblicato 2026-02-19
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

🧠 Il Problema: "L'Orsetto che non vede il mondo come noi"

Immagina di essere in una stanza con un orsetto di peluche seduto di fronte a te.
Sul tavolo c'è un foglio di carta. Da dove sei seduto tu (la "camera"), leggi chiaramente la scritta "81".
L'orsetto, però, è seduto dall'altra parte del tavolo e guarda il foglio dall'opposto.

La domanda è: Cosa vede l'orsetto?

Se giri mentalmente il foglio di 180 gradi (come se tu ti alzassi e ti mettessi al posto dell'orsetto), la scritta "81" diventa "18".
Questa capacità di "mettersi nei panni di un altro" e vedere il mondo dal suo punto di vista si chiama presa di prospettiva visiva. È fondamentale per la nostra vita sociale: ci aiuta a capire cosa vedono gli altri, a non sbattere contro le cose e a collaborare.

🤖 Cosa hanno scoperto gli scienziati?

Gli autori di questo studio (un gruppo di ricercatori di università famose come Berkeley e Michigan) hanno creato un test chiamato FlipSet per vedere se i moderni Modelli Vision-Language (VLM) – ovvero le intelligenze artificiali che "vedono" immagini e "leggono" – sono bravi a fare questo gioco mentale.

Hanno testato 103 diversi modelli AI (come GPT-4, LLaVA, Qwen, ecc.) e la scoperta è stata sconcertante:

  1. L'AI è "Egocentrica" (come un bambino piccolo):
    Il 91% dei modelli ha fallito. Quando gli è stato chiesto cosa vedeva l'orsetto, la stragrande maggioranza ha risposto "81".

    • Cosa significa? L'AI ha ignorato completamente l'orsetto. Ha guardato l'immagine e ha detto: "Vedo '81', quindi la risposta è '81'". Non è riuscita a immaginare di girare la testa o il mondo per vedere la prospettiva dell'altro. È come se un bambino di 3 anni dicesse: "Se io vedo la luna, anche tu la vedi esattamente uguale a me".
  2. Il "Mental Block" (Il blocco mentale):
    Gli scienziati hanno fatto un esperimento ancora più intelligente per capire dove si inceppa l'AI. Hanno diviso il compito in due parti:

    • Parte A (Capire che l'altro vede diversamente): Hanno chiesto: "L'orsetto vede qualcosa di diverso da te?".
      • Risultato: L'AI ha risposto correttamente il 90% delle volte! Quindi, sa che l'orsetto è lì e guarda da un'altra parte.
    • Parte B (Ruotare mentalmente l'oggetto): Hanno chiesto: "Se giri la scritta '81' di 180 gradi, cosa diventa?".
      • Risultato: L'AI ha risposto correttamente solo il 26% delle volte (poco meglio del caso).
    • Il Problema Reale: Quando hanno chiesto di unire le due cose (Capire che l'orsetto è diverso + Ruotare mentalmente la scritta), l'AI è crollata al 10% di successo.

🧩 L'Analogia della "Cassetta degli Attrezzi"

Immagina che l'intelligenza artificiale abbia una cassetta degli attrezzi molto completa:

  • Ha un martello (sa riconoscere gli oggetti).
  • Ha un cacciavite (sa capire che gli altri hanno punti di vista diversi).
  • Ha una chiave inglese (sa ruotare le forme mentalmente).

Il problema è che quando deve costruire un mobile (risolvere il problema della prospettiva), non sa come usare tutti e tre gli attrezzi insieme.
Prende il cacciavite, lo guarda, e poi usa il martello per sbattere la chiave inglese. Sa cosa sono gli attrezzi, ma non sa come combinarli per fare il lavoro complesso.

Gli scienziati chiamano questo "deficit compositivo": l'AI ha i pezzi del puzzle, ma non sa come assemblarli in una situazione reale.

🚫 Perché le "Spiegazioni" non aiutano?

Gli scienziati hanno provato a dire all'AI: "Ragiona passo dopo passo, spiegati cosa stai facendo" (una tecnica chiamata Chain-of-Thought).
Risultato? Peggio di prima.
L'AI iniziava a scrivere discorsi molto lunghi e intelligenti su come l'orsetto vedesse diversamente, ma alla fine scriveva comunque "81". Era come un attore che recita una scena perfetta su un amore perduto, ma alla fine si dimentica di dire la battuta finale. La logica linguistica non si collega alla logica spaziale.

💡 Cosa ci dice questo per il futuro?

Questo studio ci dice che le attuali Intelligenze Artificiali sono molto brave a riconoscere pattern (vedere che c'è una scritta "81") e a parlare di concetti astratti (dire che l'orsetto vede diversamente), ma sono terribili nel "simulare" fisicamente il mondo.

Non hanno un "modello interno" del mondo 3D. Non possono davvero "girarsi" nella loro mente.
Per creare un'AI che sia davvero intelligente e sociale (capace di collaborare con gli umani in modo naturale), non basta farla diventare più grande o più veloce. Dobbiamo insegnarle a costruire modelli mentali dello spazio, proprio come fanno i bambini quando imparano a non essere più "egocentrici".

In sintesi: Le nostre AI attuali sono come dei geniali bibliotecari che conoscono ogni libro sulla prospettiva, ma se gli chiedi di guardare una stanza da un'altra angolazione, si bloccano e ti dicono quello che vedono loro, ignorando completamente il punto di vista dell'altro.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →