Culture in Action: Evaluating Text-to-Image Models through Social Activities

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un cuoco robot (un'intelligenza artificiale) che ha imparato a cucinare guardando milioni di ricette e foto su internet. Se gli chiedi di preparare un "riso alla milanese", probabilmente ti farà un piatto delizioso. Ma se gli chiedi di preparare un "tè tradizionale iraniano" o di mostrare una "festa di nozze nigeriana", il robot potrebbe sbagliare tutto: potrebbe mettere elefanti al posto degli invitati, usare piatti sbagliati o vestire le persone con costumi da bagno invece che con abiti cerimoniali.

Questo è il problema che affrontano gli autori di questo paper presentato alla conferenza ICLR 2026. Hanno scoperto che le attuali intelligenze artificiali che creano immagini dal testo (chiamate Text-to-Image o T2I) sono molto brave a disegnare oggetti semplici (come un gatto o una macchina), ma falliscono miseramente quando devono rappresentare attività sociali e culturali (come ballare, salutare o mangiare insieme), perché queste attività dipendono da sfumature, interazioni e contesti che l'IA spesso non capisce.

Ecco come hanno risolto il problema, spiegato con parole semplici:

1. Il Nuovo "Libro di Ricette" Culturale (CULTIVate)

Prima, i ricercatori testavano le IA chiedendo loro di disegnare cose statiche (come "una pagoda cinese"). Ma la cultura non è fatta solo di oggetti, è fatta di azioni.
Gli autori hanno creato un nuovo banco di prova chiamato CULTIVate. Immaginalo come un enorme libro di ricette che contiene 576 attività diverse (dalla danza al saluto, dal mangiare al gioco) provenienti da 16 paesi diversi.
Hanno chiesto a 6 diverse intelligenze artificiali di generare oltre 19.000 immagini basate su queste attività. Il risultato? Molte immagini erano strane: per un gioco indonesiano chiamato "elefante, formica, uomo", l'IA disegnava letteralmente un elefante gigante, invece di capire che era solo un gioco di mani!

2. Il Nuovo "Sistema di Voto" (AHEaD)

Fino a oggi, per capire se un'immagine era culturalmente corretta, bisognava chiedere a persone reali di guardarla e votarla. Era costoso e lento. Oppure si usavano metriche automatiche che guardavano solo se l'immagine corrispondeva al testo (come un controllo ortografico), ma queste metriche venivano ingannate dalle immagini "esagerate".

Gli autori hanno inventato un nuovo sistema di valutazione chiamato AHEaD. Immagina AHEaD come un ispettore culinario molto attento che non si limita a dire "sì/no", ma analizza quattro aspetti:

Allineamento (Alignment): "L'IA ha messo gli ingredienti giusti?" (Es. Se chiedi un tè iraniano, ci sono le tazze giuste?)
Allucinazione (Hallucination): "L'IA ha inventato cose che non esistono?" (Es. Ha messo un elefante in una festa di nozze?)
Esagerazione (Exaggeration): "L'IA ha esagerato con gli stereotipi?" (Es. Ha vestito tutti con costumi tradizionali pesantissimi invece di mostrare la vita quotidiana moderna?)
Diversità (Diversity): "L'IA ha mostrato solo un modo di fare le cose o ha mostrato le varie sfumature?"

3. La Scoperta Sorprendente: Il Nord vs. Il Sud del Mondo

Analizzando i risultati, hanno scoperto una cosa triste ma importante: le IA sono molto più brave a rappresentare i paesi ricchi e occidentali (Nord Globale) rispetto a quelli in via di sviluppo (Sud Globale).
Le immagini per paesi come USA, Francia o Germania erano più accurate. Per paesi come Nigeria, India o Iran, l'IA tendeva a fare più errori, a esagerare gli stereotipi e a inventare cose strane. È come se il robot avesse studiato molto di più la cultura americana che quella africana.

4. Perché il vecchio metodo non funzionava

Hanno dimostrato che i vecchi metodi di controllo (che misuravano solo quanto l'immagine assomigliava al testo) erano ingannevoli.

Esempio: Se chiedi "un gioco di pietra, carta, forbici in Indonesia" e l'IA disegna un elefante (perché c'è la parola "elefante" nel nome del gioco), i vecchi sistemi dicevano: "Brava! L'immagine corrisponde al testo!".
Il nuovo sistema (AHEaD) invece dice: "Aspetta! Hai allucinato un elefante che non c'entra nulla con il gioco umano. La tua immagine è culturalmente sbagliata, anche se il testo corrisponde".

In sintesi

Questo lavoro è come dare agli sviluppatori di IA una lente d'ingrandimento culturale. Invece di dire "l'immagine è bella", ora possiamo dire esattamente cosa manca, cosa è sbagliato e cosa è esagerato.

L'obiettivo finale? Usare queste informazioni per correggere l'IA. Immagina di poter dire al robot: "Togli l'elefante, metti le persone in cerchio invece che in fila, e non vestile tutte con costumi da museo". In questo modo, potremo avere intelligenze artificiali che rispettano e comprendono davvero la ricchezza della cultura umana, non solo le sue cartoline turistiche.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli generativi Text-to-Image (T2I) sono addestrati su dati web che presentano forti pregiudizi "WEIRD" (Western, Educated, Industrialized, Rich, Democratic). Questo porta a rappresentazioni culturali errate o eccessivamente stereotipate.

Limitazione degli attuali benchmark: Le valutazioni esistenti si concentrano su artefatti statici e centrati sull'oggetto (es. cibo, monumenti, abbigliamento). Tuttavia, le sfumature culturali emergono spesso attraverso attività sociali (es. danze, saluti, banchetti), che sono contestuali, composizionali e coinvolgono interazioni complesse tra persone e oggetti.
Inadeguatezza delle metriche attuali: Le metriche basate sull'allineamento immagine-test (ITA), come CLIPScore, falliscono nella valutazione culturale. Tendono a premiare l'esagerazione e l'allucinazione di elementi stereotipati (es. generare elefanti per un gioco di carte indonesiano chiamato "elephant ant man") invece di valutare la fedeltà culturale reale. Le valutazioni umane, sebbene accurate, sono costose e non scalabili.

2. Metodologia

Gli autori introducono un nuovo framework e benchmark per valutare la fedeltà culturale (cultural faithfulness) attraverso le attività sociali.

A. Il Benchmark: CULTIVate

Scopo: Valutare la capacità dei modelli T2I di rappresentare attività sociali in diversi contesti culturali.
Dati: Copre 16 paesi (divisi in Global North e Global South) e 576 attività raggruppate in 9 categorie (es. mangiare, salutare, danzare, celebrare).
Volume: Generazione di oltre 19.000 immagini da 6 modelli T2I di stato dell'arte (inclusi Stable Diffusion 3.5, FLUX, DALL-E 3, GPT-Image-1) e raccolta di 3.000 immagini di riferimento reali.

B. Il Framework di Valutazione: AHEaD

AHEaD (Alignment, Hallucination, Exaggeration, and Diversity) è un framework spiegabile che non si basa su punteggi "scatola nera" ma su descrittori visivi interpretabili.

Generazione dei Descrittori di Riferimento ( $D_{ref}$ ):
- Utilizza un approccio Proposer-Refiner basato su LLM (es. GPT-4o, Gemini 2.5).
- I "Proposer" generano candidati diversificati per 5 dimensioni culturali: Sfondo, Abbigliamento, Oggetti, Interazioni/Azioni, Disposizione Spaziale.
- Il "Refiner" filtra duplicati ed errori, creando un set di riferimento robusto senza annotazione umana diretta.
Estrazione dei Descrittori Predetti ( $D_{pred}$ ):
- I modelli MLLM (Multimodal Large Language Models) analizzano le immagini generate per estrarre descrittori visivi.
Calcolo delle Metriche:
- Allineamento (Alignment): Misura la copertura degli elementi culturali attesi (quanti descrittori di riferimento sono presenti nell'immagine).
- Allucinazione (Hallucination): Quantifica gli elementi presenti nell'immagine ma assenti o errati rispetto al riferimento culturale.
- Esagerazione (Exaggeration): Rileva la sovrarappresentazione di elementi stereotipati rispetto a immagini reali (usando un punteggio di allineamento ITA su candidati stereotipati).
- Diversità: Misura la variazione semantica tra le generazioni.
- FAITH: Una metrica composita che combina Allineamento, 1-Hallucinazione e 1-Exagerazione per fornire un punteggio di fedeltà culturale.

3. Contributi Chiave

CULTIVate: Il primo benchmark focalizzato sulle attività sociali per la valutazione culturale, superando i limiti degli oggetti statici.
AHEaD: Un framework automatico, scalabile e spiegabile che fornisce feedback dettagliato (quali elementi mancano, quali sono allucinati o esagerati) per guidare il perfezionamento iterativo delle immagini.
Analisi delle Metriche: Dimostrazione che l'allineamento da solo è insufficiente e che le metriche ITA tradizionali hanno una correlazione scarsa con il giudizio umano.
Bias Sistemico: Evidenziazione di un pregiudizio sistematico a favore delle culture del "Global North" rispetto a quelle del "Global South".

4. Risultati Sperimentali

Correlazione con l'Uomo: Le metriche ITA (es. CLIPScore, ImageReward) mostrano una correlazione molto bassa o negativa con il giudizio umano sulla fedeltà culturale. Al contrario, la metrica composita FAITH raggiunge una correlazione 27% superiore rispetto ai baseline basati su MLLM-as-a-Judge.
Necessità della Metrica Composita: L'analisi mostra che l'Allineamento da solo non basta; è necessario penalizzare attivamente l'Allucinazione e l'Esagerazione per ottenere una valutazione accurata.
Bias Geografico: Tutti i modelli T2I testati generano immagini più fedeli per i paesi del Global North (USA, Europa occidentale) rispetto a quelli del Global South (es. Iran, Nigeria, India).
- I paesi del Global North ottengono punteggi di Allineamento più alti (4-8% in più) e minori tassi di allucinazione/esagerazione.
- Le attività culturalmente radicate (es. celebrazioni specifiche) sono le più difficili da rappresentare correttamente.
Feedback Utilizzabile: Il sistema AHEaD identifica errori specifici (es. "elefanti" nel gioco indonesiano, "bikini" eccessivi per il Brasile) che possono essere usati per creare prompt di editing mirati, migliorando significativamente la qualità delle immagini successive.

5. Significato e Impatto

Questo lavoro sposta il paradigma di valutazione dei modelli generativi da una visione basata su oggetti a una basata su interazioni sociali e contesto culturale.

Scalabilità: Offre un metodo automatico per valutare e migliorare la diversità culturale senza costose valutazioni umane.
Interpretabilità: Fornisce agli sviluppatori e ai ricercatori strumenti concreti per diagnosticare perché un modello fallisce culturalmente (mancanza di allineamento vs. eccesso di stereotipi).
Equità: Evidenzia criticamente il divario di performance tra culture, fornendo una base per sviluppare modelli più inclusivi e rappresentativi per l'industria dell'intrattenimento, della pubblicità e della comunicazione globale.

In sintesi, il paper dimostra che per valutare la "cultura" nelle immagini generate dall'AI, non basta dire se l'immagine corrisponde al testo, ma bisogna verificare se l'immagine rispetta le complessità, le interazioni e le sfumature delle attività sociali reali, evitando allo stesso tempo stereotipi esagerati.

Culture in Action: Evaluating Text-to-Image Models through Social Activities

1. Il Nuovo "Libro di Ricette" Culturale (CULTIVate)

2. Il Nuovo "Sistema di Voto" (AHEaD)

3. La Scoperta Sorprendente: Il Nord vs. Il Sud del Mondo

4. Perché il vecchio metodo non funzionava

In sintesi

1. Il Problema

2. Metodologia

A. Il Benchmark: CULTIVate

B. Il Framework di Valutazione: AHEaD

3. Contributi Chiave

4. Risultati Sperimentali

5. Significato e Impatto

Articoli simili

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes