Culture in Action: Evaluating Text-to-Image Models through Social Activities

Il paper introduce CULTIVate, un nuovo benchmark e framework di valutazione basato su attività sociali per misurare l'allineamento culturale e i bias nei modelli testo-immagine, rivelando che questi sistemi performano meglio per i paesi del Nord globale rispetto a quelli del Sud globale.

Sina Malakouti, Boqing Gong, Adriana Kovashka

Pubblicato 2026-03-09
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cuoco robot (un'intelligenza artificiale) che ha imparato a cucinare guardando milioni di ricette e foto su internet. Se gli chiedi di preparare un "riso alla milanese", probabilmente ti farà un piatto delizioso. Ma se gli chiedi di preparare un "tè tradizionale iraniano" o di mostrare una "festa di nozze nigeriana", il robot potrebbe sbagliare tutto: potrebbe mettere elefanti al posto degli invitati, usare piatti sbagliati o vestire le persone con costumi da bagno invece che con abiti cerimoniali.

Questo è il problema che affrontano gli autori di questo paper presentato alla conferenza ICLR 2026. Hanno scoperto che le attuali intelligenze artificiali che creano immagini dal testo (chiamate Text-to-Image o T2I) sono molto brave a disegnare oggetti semplici (come un gatto o una macchina), ma falliscono miseramente quando devono rappresentare attività sociali e culturali (come ballare, salutare o mangiare insieme), perché queste attività dipendono da sfumature, interazioni e contesti che l'IA spesso non capisce.

Ecco come hanno risolto il problema, spiegato con parole semplici:

1. Il Nuovo "Libro di Ricette" Culturale (CULTIVate)

Prima, i ricercatori testavano le IA chiedendo loro di disegnare cose statiche (come "una pagoda cinese"). Ma la cultura non è fatta solo di oggetti, è fatta di azioni.
Gli autori hanno creato un nuovo banco di prova chiamato CULTIVate. Immaginalo come un enorme libro di ricette che contiene 576 attività diverse (dalla danza al saluto, dal mangiare al gioco) provenienti da 16 paesi diversi.
Hanno chiesto a 6 diverse intelligenze artificiali di generare oltre 19.000 immagini basate su queste attività. Il risultato? Molte immagini erano strane: per un gioco indonesiano chiamato "elefante, formica, uomo", l'IA disegnava letteralmente un elefante gigante, invece di capire che era solo un gioco di mani!

2. Il Nuovo "Sistema di Voto" (AHEaD)

Fino a oggi, per capire se un'immagine era culturalmente corretta, bisognava chiedere a persone reali di guardarla e votarla. Era costoso e lento. Oppure si usavano metriche automatiche che guardavano solo se l'immagine corrispondeva al testo (come un controllo ortografico), ma queste metriche venivano ingannate dalle immagini "esagerate".

Gli autori hanno inventato un nuovo sistema di valutazione chiamato AHEaD. Immagina AHEaD come un ispettore culinario molto attento che non si limita a dire "sì/no", ma analizza quattro aspetti:

  • Allineamento (Alignment): "L'IA ha messo gli ingredienti giusti?" (Es. Se chiedi un tè iraniano, ci sono le tazze giuste?)
  • Allucinazione (Hallucination): "L'IA ha inventato cose che non esistono?" (Es. Ha messo un elefante in una festa di nozze?)
  • Esagerazione (Exaggeration): "L'IA ha esagerato con gli stereotipi?" (Es. Ha vestito tutti con costumi tradizionali pesantissimi invece di mostrare la vita quotidiana moderna?)
  • Diversità (Diversity): "L'IA ha mostrato solo un modo di fare le cose o ha mostrato le varie sfumature?"

3. La Scoperta Sorprendente: Il Nord vs. Il Sud del Mondo

Analizzando i risultati, hanno scoperto una cosa triste ma importante: le IA sono molto più brave a rappresentare i paesi ricchi e occidentali (Nord Globale) rispetto a quelli in via di sviluppo (Sud Globale).
Le immagini per paesi come USA, Francia o Germania erano più accurate. Per paesi come Nigeria, India o Iran, l'IA tendeva a fare più errori, a esagerare gli stereotipi e a inventare cose strane. È come se il robot avesse studiato molto di più la cultura americana che quella africana.

4. Perché il vecchio metodo non funzionava

Hanno dimostrato che i vecchi metodi di controllo (che misuravano solo quanto l'immagine assomigliava al testo) erano ingannevoli.

  • Esempio: Se chiedi "un gioco di pietra, carta, forbici in Indonesia" e l'IA disegna un elefante (perché c'è la parola "elefante" nel nome del gioco), i vecchi sistemi dicevano: "Brava! L'immagine corrisponde al testo!".
  • Il nuovo sistema (AHEaD) invece dice: "Aspetta! Hai allucinato un elefante che non c'entra nulla con il gioco umano. La tua immagine è culturalmente sbagliata, anche se il testo corrisponde".

In sintesi

Questo lavoro è come dare agli sviluppatori di IA una lente d'ingrandimento culturale. Invece di dire "l'immagine è bella", ora possiamo dire esattamente cosa manca, cosa è sbagliato e cosa è esagerato.

L'obiettivo finale? Usare queste informazioni per correggere l'IA. Immagina di poter dire al robot: "Togli l'elefante, metti le persone in cerchio invece che in fila, e non vestile tutte con costumi da museo". In questo modo, potremo avere intelligenze artificiali che rispettano e comprendono davvero la ricchezza della cultura umana, non solo le sue cartoline turistiche.