Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef robot muy inteligente que cocina platos (clasifica imágenes) para un restaurante. El problema es que este chef a veces es injusto: si ve a una mujer cocinando, piensa que está haciendo una "ensalada", pero si ve a un hombre haciendo lo mismo, piensa que está haciendo un "asado". Esto sucede porque el robot no solo mira la comida, sino que también mira la ropa, el peinado o el género de la persona, y esos detalles lo confunden.

Los investigadores de este documento (del MIT) querían arreglar a este chef para que fuera justo y, al mismo tiempo, que pudiera explicarnos por qué tomó esa decisión. Para ello, usaron un tipo de "chef" especial llamado Modelo de Embudo de Conceptos (CBM).

Aquí te explico cómo funciona y qué descubrieron, usando analogías sencillas:

1. El Problema: El Chef que "Escucha" de más

Normalmente, los robots de visión por computadora son como cajas negras: ven una foto y dicen "es un perro". No sabemos qué pensaron.
El Modelo de Embudo (CBM) intenta ser más transparente. En lugar de ir directo a la respuesta, el robot primero identifica conceptos humanos en la imagen.

Ejemplo: En lugar de decir "es un perro", primero piensa: "Veo cuatro patas", "Veo un hocico", "Veo un collar". Luego, con esas pistas, decide: "¡Es un perro!".

La trampa: Aunque el robot se supone que solo debe mirar los conceptos (patas, hocico), resulta que sus "ojos" internos también capturan información secreta que no debería ver, como el género de la persona. Es como si, al mirar el collar, el robot también viera "es un hombre" y eso cambiara su decisión. A esto los investigadores le llaman fuga de información.

2. La Solución: Tres trucos para limpiar al Chef

Los investigadores probaron tres métodos para limpiar al chef y hacerlo más justo sin perder su habilidad para cocinar bien:

Truco A: El Filtro "Solo lo Importante" (Top-K Filter)

Imagina que el chef tiene una lista de 1,000 pistas sobre la imagen, pero la mayoría son ruido (como el color de la camisa de la persona).

Lo que hicieron: En lugar de usar todas las pistas, le dijeron al robot: "Solo usa las 100 mejores pistas y ignora el resto".
El resultado: Al ignorar el "ruido" (la información de género oculta), el robot se vuelve más justo. Es como si le dijéramos al chef: "Solo mira la comida, no mires a quién se la sirve". Esto funcionó muy bien y mantuvo al robot preciso.

Truco B: Tirar las Pistas Sesgadas (Eliminar Conceptos)

Aquí intentaron ser más directos. Miraron la lista de conceptos y dijeron: "¡Este concepto 'corbata' es muy típico de hombres y 'delantal' de mujeres, ¡bórralo de la lista!".

El problema: El robot es muy astuto. Aunque borraron la palabra "corbata", el robot aprendió a usar otras pistas (como "una camisa azul" o "una herramienta") para adivinar el género de todos modos.
La lección: Borrar palabras no basta porque el robot sigue "escuchando" de más a través de otras pistas.

Truco C: El Entrenador de "Ojos Cerrados" (Debiasing Adversarial)

Este es el truco más inteligente. Imagina que tienes un entrenador (el robot principal) y un crítico (un segundo robot).

La dinámica: El entrenador intenta adivinar qué plato es. El crítico intenta adivinar el género de la persona basándose solo en lo que el entrenador piensa.
El objetivo: El entrenador debe aprender a adivinar el plato tan bien que el crítico no pueda adivinar el género. Si el crítico sigue adivinando el género, el entrenador está fallando.
El resultado: El entrenador aprende a ignorar completamente las pistas de género. Esto redujo el sesgo en un 28% y mantuvo la precisión casi intacta.

3. El Gran Dilema: La Balanza

Los investigadores descubrieron algo importante: hay una balanza entre tres cosas:

Justicia (que no discrimine).
Interpretabilidad (que podamos entender qué pensó).
Precisión (que acierte el plato).

Si el robot usa demasiadas pistas para ser muy preciso, se vuelve injusto (fuga de información). Si usa muy pocas para ser justo, puede cometer errores.

La conclusión: El mejor equilibrio se logra usando el Truco A (filtrar las mejores pistas) combinado con el Truco C (el entrenador que obliga a ignorar el género).

En Resumen

Este paper nos dice que para hacer a la Inteligencia Artificial más justa y comprensible, no basta con darle "conceptos" simples. Debemos enseñarle a ignorar activamente los detalles irrelevantes (como el género) que se cuelan en su pensamiento.

Su solución final es como un chef que, en lugar de mirar a la persona que pide la comida, se enfoca obsesivamente en los ingredientes y las herramientas, y tiene un supervisor que le grita: "¡Si vuelves a pensar en el género de la persona, te quito el plato!". Así, el robot se vuelve más justo, más transparente y sigue siendo muy bueno en su trabajo.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: Mitigación de Sesgos en Modelos de Cuello de Botella de Conceptos para Clasificación de Imágenes Justa e Interpretable

1. Planteamiento del Problema

Los sistemas de visión por computadora, aunque avanzados, a menudo perpetúan y amplifican sesgos existentes (por ejemplo, en reconocimiento facial o asociación de profesiones con géneros). La mayoría de los métodos de mitigación de sesgos se basan en redes neuronales profundas (DNN) que actúan como "cajas negras", dificultando la comprensión de cómo se toman las decisiones y dónde ocurren los sesgos.

Los Modelos de Cuello de Botella de Conceptos (CBM) se proponen como una alternativa interpretable: mapean imágenes a conceptos humanos comprensibles antes de realizar la predicción. Teóricamente, esto debería ocultar atributos sensibles (como rasgos faciales). Sin embargo, el artículo identifica un problema crítico: la fuga de información (information leakage). Los conceptos en los CBM no solo codifican la semántica deseada, sino que también capturan patrones ocultos y atributos sensibles, lo que resulta en una reducción marginal de sesgos de género en conjuntos de datos como ImSitu. Existe una tensión fundamental entre el rendimiento, la interpretabilidad y la equidad: se necesitan muchos conceptos para un buen rendimiento, pero esto aumenta la fuga de información sensible.

2. Metodología

Los autores evaluaron sus propuestas en el conjunto de datos ImSitu (reconocimiento de acciones en imágenes reales), filtrando para incluir solo agentes humanos y equilibrando las clases de verbos.

Arquitectura Base: Utilizaron una versión modificada del marco Label-free CBM, que evita el etiquetado manual costoso.
- Generación de Conceptos: Usaron GPT-3 para generar listas de conceptos basados en los verbos de las clases.
- Inferencia: Emplearon CLIP (Contrastive Language-Image Pre-Training) para codificar imágenes y conceptos en un espacio latente dual.
- Capa Final: Una capa totalmente conectada (FC) dispersa (sparse) que mapea los conceptos a las etiquetas de clase, regularizada con normas L1 y L2.
Tres Técnicas de Mitigación Propuestas:
1. Disminución de la Fuga de Información:
  - En lugar de depender solo de la regularización de dispersión (sparsity), propusieron un filtro top-k en las activaciones de los conceptos. Esto retiene solo las $k$ activaciones más altas y pone a cero el resto, imitando un modelo mental humano que se enfoca en características prominentes.
  - También se aplicó cuantización a los vectores de activación para reducir la capacidad del modelo de aprender distribuciones ocultas en valores bajos.
2. Eliminación de Conceptos Sesgados:
  - Se identificaron conceptos que actuaban como proxies de atributos sensibles (ej. "corbata" para hombres, "secador" para mujeres).
  - Se probaron dos métodos: entrenar un clasificador de género para encontrar los conceptos con mayor peso y usar un LLM para auto-evaluar la asociación con el género.
  - Se descubrió que eliminar estos conceptos durante el entrenamiento no funcionaba bien porque el modelo aprendía a filtrar la información de género a través de otros conceptos. Por ello, la eliminación se aplicó en tiempo de inferencia (poniendo a cero las activaciones de esos conceptos específicos).
3. Desviación Adversarial (Adversarial Debiasing):
  - Se incorporó un adversario en la capa FC que intenta predecir el atributo sensible (género) a partir de las salidas del modelo.
  - El objetivo de optimización dual busca maximizar el rendimiento en la tarea principal mientras minimiza la capacidad del adversario para predecir el género, logrando invarianza al atributo sensible.

3. Contribuciones Clave

Diagnóstico de Fuga de Información: Demostraron que los CBM, incluso los "libres de etiquetas", sufren de fuga de información donde los conceptos codifican atributos sensibles más allá de su semántica, creando un compromiso (trade-off) inevitable entre rendimiento y equidad.
Filtro Top-k Superior a la Dispersión: Proponen que el filtro top-k de activaciones es más eficiente para la mitigación de sesgos que la regularización de dispersión tradicional, logrando mejores compromisos entre equidad y rendimiento sin necesidad de etiquetas de atributos sensibles durante el entrenamiento.
Evaluación Integral de Técnicas: Compararon sistemáticamente la eliminación de conceptos y la desviación adversarial, revelando que la eliminación de conceptos por sí sola es insuficiente debido a la re-aprendizaje de fugas, mientras que la combinación con desviación adversarial es altamente efectiva.
Interpretabilidad del Proceso de Desviación: Al ser un modelo interpretable, permitieron visualizar cómo cambian los pesos de los conceptos durante la desviación adversarial, ofreciendo transparencia sobre qué características el modelo está aprendiendo a ignorar o priorizar para ser justo.

4. Resultados

Comparación Inicial: Los CBM (CLIP-CBM) mejoraron la equidad y la interpretabilidad en comparación con las DNN optimizadas (CLIP-DNN), aunque con una ligera reducción en la precisión. Sin embargo, la fuga de información limitó su superioridad en equidad.
Efectividad del Filtro Top-k: El filtro top-k superó a la dispersión tradicional. Con $k=1000$ , el rendimiento se acercó al de la DNN con menor amplificación de sesgo. Con $k=30$ , se mantuvo una precisión del 37.5% (vs 12% con dispersión extrema) y mejor equidad.
Limitaciones de la Eliminación de Conceptos: Eliminar conceptos sesgados (ya sea por clasificador de género o por semántica) solo redujo la amplificación de sesgo en un 0.3% - 0.5% con una pérdida de precisión del 0.6%, debido a que el modelo encontraba nuevas vías para filtrar la información.
Desviación Adversarial: Esta técnica mejoró significativamente los resultados. Al aplicarla sobre el modelo con filtro top-k, se logró una reducción del 28% en la amplificación de sesgo con una pérdida de precisión mínima.
Rendimiento Final: El modelo combinado (Filtro Top-k + Desviación Adversarial) superó a los trabajos anteriores en el equilibrio entre equidad y rendimiento, acercándose incluso al sesgo inherente del modelo CLIP de zero-shot.

5. Significado e Impacto

El trabajo es significativo porque:

Avanza la Equidad sin Etiquetas Sensibles: La técnica de filtro top-k permite mejorar la equidad sin depender de etiquetas de atributos sensibles (género, raza, etc.) durante el proceso de desviación, lo cual es crucial cuando estos datos son costosos, privados o propensos a errores humanos.
Transparencia en la Mitigación: A diferencia de los modelos de caja negra, este enfoque permite a los investigadores y usuarios entender por qué un modelo es más justo, observando los cambios en los pesos de los conceptos.
Definición de Límites de los CBM: Establece que los CBM no son una solución mágica para la equidad; requieren gestión activa de la fuga de información.
Aplicabilidad Práctica: Al utilizar marcos label-free (GPT y CLIP), el método es escalable a tareas del mundo real donde la generación manual de conceptos es inviable.

En conclusión, el artículo demuestra que es posible lograr clasificación de imágenes justa e interpretable mediante la combinación de filtrado de conceptos y aprendizaje adversarial, superando las limitaciones de los enfoques anteriores y ofreciendo una vía clara hacia sistemas de IA más éticos y transparentes.