Investigating Disability Representations in Text-to-Image Models

Questo studio esamina le rappresentazioni delle persone con disabilità nei modelli di generazione di immagini da testo come Stable Diffusion XL e DALL-E 3, rivelando persistenti squilibri rappresentativi e sottolineando la necessità di strategie di mitigazione e valutazioni continue per promuovere ritratti più inclusivi.

Yang Tian, Yu Fan, Liudmila Zavolokina, Sarah Ebling

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina che i modelli di intelligenza artificiale che creano immagini (come DALL·E o Stable Diffusion) siano come cuochi molto veloci che cucinano piatti basandosi su ricette scritte (i "prompt" o comandi testuali). Se chiedi al cuoco: "Fammi vedere un'immagine di una persona con una disabilità", cosa ti serve?

Questo studio ha messo alla prova due di questi "cuochi digitali" (uno chiamato Stable Diffusion XL e l'altro DALL·E 3) per vedere come preparano il piatto quando si parla di disabilità.

Ecco cosa hanno scoperto, spiegato con delle metafore:

1. Il "Default" della Sedia a Rotelle (La prima scoperta)

Quando hai chiesto al cuoco di disegnare genericamente "una persona con una disabilità", entrambi i cuochi hanno avuto un pensiero fisso: hanno quasi sempre disegnato una persona su una sedia a rotelle.

  • L'analogia: È come se chiedessi a un amico: "Disegnami un animale domestico" e lui disegnasse sempre un cane, ignorando completamente gatti, pesci o conigli.
  • Il risultato: L'IA ha un pregiudizio nascosto. Quando non le dai dettagli specifici, assume che "disabilità" significhi quasi automaticamente "problemi di movimento".
  • La differenza tra i cuochi: Il cuoco DALL·E 3 era un po' più vario (disegnava anche persone cieche o sorde, anche se meno spesso), mentre Stable Diffusion era ancora più rigido e ripetitivo, disegnando quasi esclusivamente sedie a rotelle.

2. Il "Filtro di Sicurezza" e l'Atmosfera (La seconda scoperta)

I ricercatori hanno poi chiesto ai cuochi di disegnare persone con disturbi mentali (come ansia o depressione) e hanno confrontato le immagini con quelle di persone con disabilità fisiche (come la cecità).

Qui è diventato interessante, perché i due cuochi hanno reagito in modo opposto a seconda di chi li guardava:

  • Il giudizio della Macchina (L'occhio robotico): Un software automatico ha guardato le immagini e ha detto: "Quello di Stable Diffusion sembra più triste e negativo". Ha guardato i volti e ha visto meno sorrisi.
  • Il giudizio degli Umani (L'occhio umano): Quando delle persone vere hanno guardato le stesse immagini, hanno detto: "No, aspetta! Quelle di DALL·E 3 sembrano molto più tristi e inquietanti".
  • Perché?
    • Stable Diffusion (il cuoco meno controllato) disegnava persone con disturbi mentali in modo molto "neutro" o grigio, quasi come se non stesse succedendo nulla di speciale.
    • DALL·E 3 (il cuoco con più filtri di sicurezza) aveva un approccio diverso: disegnava scene con sfondi scuri, figure isolate e atmosfere cupe.
    • La metafora: Immagina di dover disegnare la "tristezza".
      • Il primo cuoco ti dà un foglio bianco (neutro).
      • Il secondo cuoco, che vuole essere sicuro di non offendere nessuno, ti dà un quadro con un cielo tempestoso, pioggia e una persona sola sotto un lampione.
      • La macchina guarda solo il foglio bianco e dice "è più triste". L'umano guarda la tempesta e dice "questa è una tragedia!".

3. Il Paradosso dei Filtri

C'è un paradosso curioso: DALL·E 3, che ha più filtri di sicurezza e cerca di essere più inclusivo, ha finito per creare stereotipi più forti per i disturbi mentali.

  • Per le disabilità fisiche (come la cecità), DALL·E 3 ha fatto un ottimo lavoro: ha disegnato persone felici, in ambienti luminosi, con cani guida o bastoni bianchi.
  • Ma per i disturbi mentali, ha esagerato con l'atmosfera "dark". Ha trasformato una condizione medica in un film horror o drammatico, rafforzando lo stereotipo che chi ha problemi mentali sia "pericoloso" o "infelice".

In sintesi: Cosa ci insegna questo studio?

  1. L'IA non è neutra: Non è uno specchio perfetto della realtà. È come un bambino che ha visto troppe volte le stesse cose in TV e ripete sempre le stesse cose. Se non le dici "disegna una persona sorda", lei non lo farà mai.
  2. I filtri non sono magici: Avere più controlli di sicurezza (come fa DALL·E 3) aiuta a evitare contenuti offensivi, ma può creare nuovi stereotipi. A volte, nel tentativo di essere "attenti", l'IA esagera e crea scene troppo drammatiche.
  3. Dobbiamo guardare oltre: Non basta affidarsi a un computer per giudicare se un'immagine è giusta o sbagliata. A volte la macchina vede solo i dettagli tecnici, mentre gli umani percepiscono l'atmosfera e il messaggio emotivo.

Il messaggio finale: Per rendere l'Intelligenza Artificiale davvero inclusiva, non basta "aggiustare" il codice. Dobbiamo insegnarle a vedere la diversità della disabilità come un mondo vasto e colorato, non come un unico colore grigio (la sedia a rotelle) o come un film drammatico (i disturbi mentali). E soprattutto, dobbiamo ascoltare le persone con disabilità per capire come vogliono essere rappresentate.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →