Investigating Disability Representations in Text-to-Image Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef de cocina muy talentoso llamado "Inteligencia Artificial". Este chef ha cocinado millones de platos (imágenes) basándose en recetas que encontró en internet (datos de entrenamiento). El problema es que, aunque el chef es increíblemente rápido y creativo, a veces repite los mismos errores o prejuicios que tenía la gente que escribió esas recetas originales.

Este estudio es como una inspección de cocina para ver cómo este chef trata a un grupo específico de comensales: las personas con discapacidad.

Aquí te explico los hallazgos principales usando analogías sencillas:

1. El "Disco Rayado" de la Discapacidad (Experimento 1)

Los investigadores le pidieron al chef: "Hazme una foto de una persona con discapacidad". No especificaron qué tipo.

Lo que pasó: El chef, en lugar de mostrar una gran variedad de personas (alguien ciego, alguien sordo, alguien con una enfermedad mental), casi siempre sacó del mismo plato: una persona en silla de ruedas.
La analogía: Es como si le pidieras a un camarero: "Trae un postre". Y el camarero, sin preguntar, te trae tarta de manzana 9 veces de cada 10, aunque en la tienda haya helado, pasteles y gelatinas. El chef asume que "discapacidad" es sinónimo de "silla de ruedas", ignorando a todos los demás.
La diferencia entre chefs: Compararon dos chefs famosos:
- Chef SDXL (Stable Diffusion): Es más "libre" (código abierto). Tiende a ser muy repetitivo y se aferra fuertemente a la silla de ruedas.
- Chef DALL·E 3: Tiene más reglas y filtros de seguridad. Aunque también usaba mucho la silla de ruedas, intentó un poco más de variedad, pero seguía teniendo un sesgo claro.

2. La "Brújula Emocional" (Experimento 2)

Luego, los investigadores preguntaron: "¿Cómo se siente el ambiente en estas fotos?". Específicamente, compararon fotos de personas con trastornos mentales (como depresión o ansiedad) contra personas con discapacidades físicas (como ceguera o sordera).

Lo que pasó:
- Cuando el chef dibujaba a alguien con una discapacidad física (como un ciego con un bastón blanco), el ambiente solía ser luminoso, feliz o neutral. Parecía un día soleado en el parque.
- Pero cuando pedía dibujar a alguien con un trastorno mental, el chef cambiaba drásticamente el ambiente: fondos oscuros, gente sola, expresiones tristes o de miedo.
La analogía: Es como si el chef pensara: "Si alguien usa una silla de ruedas, seguro está disfrutando de un día soleado. Pero si alguien tiene depresión, debe estar en una habitación oscura y triste".
El conflicto de opiniones:
- Un robot analizador (que lee las etiquetas de las fotos) dijo: "El Chef SDXL es más negativo".
- Pero personas reales que miraron las fotos dijeron: "No, el Chef DALL·E 3 es más negativo".
- ¿Por qué? Porque el robot solo miraba si la persona sonreía o no. Pero las personas reales notaron que el Chef DALL·E 3 ponía a las personas con problemas mentales en escenarios muy oscuros y aislados, lo que se sentía mucho más triste, aunque la cara de la persona no estuviera llorando.

3. El "Filtro de Seguridad" que a veces falla

El estudio descubrió algo curioso sobre los "filtros de seguridad" que los chefs usan para no ser ofensivos.

La analogía: Imagina que el Chef DALL·E 3 tiene un guardia de seguridad muy estricto que le dice: "¡No dibujes cosas ofensivas! Hazlo más diverso".
El resultado: El guardia logró que el chef dibujara más tipos de personas físicas (sillas de ruedas, perros guía, etc.). ¡Pero! Al intentar "arreglar" la representación de la salud mental, el guardia terminó exagerando los estereotipos. En lugar de mostrar a alguien con ansiedad viviendo su vida normal, el chef lo puso en un escenario de película de terror, pensando que así era "más realista" o "más seguro", pero terminando siendo más estigmatizante.

Conclusión: ¿Qué nos dice todo esto?

Este estudio nos enseña que la Inteligencia Artificial no es un espejo neutral de la realidad. Es como un espejo deformante que ha aprendido de internet, y internet está lleno de prejuicios.

Simplifica demasiado: Cuando no le das detalles, la IA reduce la discapacidad a una sola imagen (silla de ruedas).
Crea dramas innecesarios: Asocia automáticamente la salud mental con la oscuridad y la tristeza, mientras que las discapacidades físicas se ven "más felices" de lo que a veces son.
Las correcciones tienen efectos secundarios: Intentar arreglar un problema (hacer la IA más segura) a veces crea otro problema nuevo (estereotipos más fuertes).

El mensaje final: Para que estas máquinas sean justas, no basta con pedirles que "sean mejores". Necesitamos escuchar a las personas con discapacidad reales para decirles a los chefs de IA: "No, así no es como vivimos. Míranos de verdad, no solo a través de tus prejuicios".

Investigating Disability Representations in Text-to-Image Models

1. El "Disco Rayado" de la Discapacidad (Experimento 1)

2. La "Brújula Emocional" (Experimento 2)

3. El "Filtro de Seguridad" que a veces falla

Conclusión: ¿Qué nos dice todo esto?

Título: Investigación de las Representaciones de la Discapacidad en Modelos de Texto-a-Imagen

1. Problema de Investigación

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Investigating Disability Representations in Text-to-Image Models

1. El "Disco Rayado" de la Discapacidad (Experimento 1)

2. La "Brújula Emocional" (Experimento 2)

3. El "Filtro de Seguridad" que a veces falla

Conclusión: ¿Qué nos dice todo esto?

Título: Investigación de las Representaciones de la Discapacidad en Modelos de Texto-a-Imagen

1. Problema de Investigación

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

Relational graph-driven differential denoising and diffusion attention fusion for multimodal conversation emotion recognition

RealChart2Code: Advancing Chart-to-Code Generation with Real Data and Multi-Task Evaluation

Doctorina MedBench: End-to-End Evaluation of Agent-Based Medical AI

Gradient-Informed Training for Low-Resource Multilingual Speech Translation

Density-aware Soft Context Compression with Semi-Dynamic Compression Ratio