GeoDiv: Framework For Measuring Geographical Diversity In Text-To-Image Models

Il paper presenta GeoDiv, un nuovo framework che utilizza modelli linguistici e vision-language per misurare sistematicamente la diversità geografica nei modelli di generazione immagini, rivelando come questi ultimi tendano a rafforzare stereotipi e a rappresentare in modo distorto e impoverito paesi come India, Nigeria e Colombia.

Abhipsa Basu, Mohana Singh, Shashank Agnihotri, Margret Keuper, R. Venkatesh Babu

Pubblicato 2026-02-26
📖 5 min di lettura🧠 Approfondimento

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere una macchina fotografica magica, un'intelligenza artificiale che disegna immagini basandosi su quello che le chiedi. Se le dici "fai un'immagine di una casa in Italia", lei ne disegna una. Se le dici "fai un'immagine di una casa in Nigeria", ne disegna un'altra.

Il problema è che questa "macchina fotografica magica" (chiamata Text-to-Image) ha un difetto grave: ha un pregiudizio. Sembra che viva in un mondo dove l'Italia è sempre elegante e pulita, mentre la Nigeria è sempre mostrata come povera e rovinata, anche se nella realtà entrambe le nazioni hanno case lussuose e case modeste, vecchie e nuove.

Gli autori di questo paper, chiamato GeoDiv, hanno deciso di costruire un termometro per la diversità geografica. Ecco come funziona, spiegato in modo semplice:

1. Il Problema: Il "Filtro" Stereotipato

Pensa alle immagini generate dall'IA come a un menu di un ristorante. Se ordini "cibo italiano", il ristorante ti dà sempre la pizza. Se ordini "cibo africano", ti dà sempre un piatto di fagioli. Non c'è varietà!
L'IA, addestrata su internet, ha imparato questi stereotipi. Se chiedi "un'auto in Nigeria", l'IA ti mostra quasi sempre un'auto vecchia su una strada di terra. Se chiedi "un'auto in Giappone", ti mostra un'auto nuova su un'asfalto perfetto. Questo non è solo noioso, è ingiusto perché non rappresenta la realtà complessa di quei paesi.

2. La Soluzione: GeoDiv (Il Termometro)

Gli autori hanno creato GeoDiv, un sistema che non si limita a dire "queste immagini sono diverse", ma capisce perché lo sono. Immagina GeoDiv come un investigatore privato che esamina le immagini con due lenti speciali:

  • Lente 1: La Lente Socio-Economica (SEVI)
    Questa lente chiede: "Quanto sembra ricco questo posto? Quanto è curato?"

    • Esempio: Se l'IA disegna una casa in India, questa lente controlla se la casa è sempre mostrata come una baracca di fango (basso reddito, scarsa manutenzione) invece di mostrare anche ville moderne o case ben tenute.
    • Risultato: Hanno scoperto che l'IA tende a "impoverire" visivamente paesi come India, Nigeria e Colombia, mostrandoli sempre in condizioni di degrado, mentre paesi come USA, Giappone o Regno Unito appaiono sempre lussuosi e perfetti.
  • Lente 2: La Lente della Diversità Visiva (VDI)
    Questa lente chiede: "Quante varietà ci sono?"

    • Esempio: Se chiedi "una sedia", l'IA dovrebbe disegnare sedie di legno, metalliche, di plastica, rosse, blu, con o senza schienale. Se invece disegna sempre la stessa identica sedia marrone con schienale, c'è un problema.
    • Risultato: Hanno scoperto che l'IA è molto "pigra" nel variare gli oggetti e gli sfondi. Spesso, per un paese specifico, disegna sempre lo stesso tipo di strada o lo stesso tipo di edificio.

3. Come Funziona la Misurazione?

Invece di far guardare le immagini a un computer che conta i pixel (che è come contare i mattoni senza capire la casa), GeoDiv usa dei super-assistenti intelligenti (chiamati LLM e VLM, ovvero modelli linguistici e visivi).

Questi assistenti guardano l'immagine e rispondono a domande come un umano:

  • "La strada è asfaltata o di terra?"
  • "La casa sembra nuova o vecchia?"
  • "C'è un giardino curato o è selvaggio?"

Poi, fanno una statistica: "Ok, su 100 immagini di case in Nigeria, il 90% mostra strade di terra. Su 100 immagini di case in USA, il 90% mostra asfalto". Questo squilibrio è il pregiudizio che GeoDiv misura.

4. Cosa Hanno Scoperto? (Le Sorprese)

  • Il "Filtro Povero": I paesi in via di sviluppo vengono quasi sempre mostrati in modo misero. È come se l'IA pensasse che l'India sia solo povertà, ignorando la sua ricchezza culturale e moderna.
  • Il "Filtro Ricco": I paesi ricchi vengono mostrati sempre perfetti, puliti e lussuosi.
  • Il Paradosso del "Polish": Alcuni modelli di IA (come FLUX.1) disegnano immagini bellissime, lucide e perfette (alta "manutenzione"), ma sono tutte uguali tra loro (bassa "diversità"). È come avere un album di foto dove tutti i soggetti sono bellissimi, ma sembrano tutti la stessa persona.
  • I Modelli più vecchi sono più vari: Sorprendentemente, i modelli più vecchi (come Stable Diffusion 2.1) mostravano un po' più di varietà rispetto ai modelli nuovissimi, che tendono a essere più "puliti" ma anche più stereotipati.

5. Perché è Importante?

Immagina di avere una mappa del mondo disegnata da un bambino che ha visto solo cartoni animati. La mappa direbbe che in Africa ci sono solo leoni e giungle, e in Europa solo castelli. GeoDiv è lo strumento che ci dice: "Ehi, questa mappa è sbagliata! Dobbiamo correggerla".

Questo lavoro è fondamentale perché:

  1. Rende visibile l'invisibile: Ci mostra i pregiudizi nascosti nelle macchine che usiamo ogni giorno.
  2. Aiuta a costruire un mondo migliore: Se sappiamo che l'IA sbaglia, possiamo insegnarle a disegnare un mondo più vero, dove l'India ha sia case povere che ricche, e la Nigeria ha sia strade di terra che asfaltate.
  3. È un termometro: Ora gli sviluppatori possono usare GeoDiv per controllare se i loro nuovi modelli stanno migliorando o peggiorando la rappresentazione del mondo.

In sintesi, GeoDiv è un modo intelligente e creativo per dire alle intelligenze artificiali: "Smetti di disegnare stereotipi! Il mondo è molto più vario, colorato e complesso di quello che mostri tu."

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →