Mitigating Bias in Concept Bottleneck Models for Fair and Interpretable Image Classification

Este artículo propone tres técnicas de mitigación de sesgo —filtrado top-k, eliminación de conceptos sesgados y desviación adversaria— para mejorar la equidad en los Modelos de Embudo de Conceptos (CBM) sin sacrificar su interpretabilidad, logrando así un mejor equilibrio entre rendimiento y justicia en la clasificación de imágenes.

Schrasing Tong, Antoine Salaun, Vincent Yuan, Annabel Adeyeri, Lalana Kagal

Publicado 2026-03-09
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un chef robot muy inteligente que cocina platos (clasifica imágenes) para un restaurante. El problema es que este chef a veces es injusto: si ve a una mujer cocinando, piensa que está haciendo una "ensalada", pero si ve a un hombre haciendo lo mismo, piensa que está haciendo un "asado". Esto sucede porque el robot no solo mira la comida, sino que también mira la ropa, el peinado o el género de la persona, y esos detalles lo confunden.

Los investigadores de este documento (del MIT) querían arreglar a este chef para que fuera justo y, al mismo tiempo, que pudiera explicarnos por qué tomó esa decisión. Para ello, usaron un tipo de "chef" especial llamado Modelo de Embudo de Conceptos (CBM).

Aquí te explico cómo funciona y qué descubrieron, usando analogías sencillas:

1. El Problema: El Chef que "Escucha" de más

Normalmente, los robots de visión por computadora son como cajas negras: ven una foto y dicen "es un perro". No sabemos qué pensaron.
El Modelo de Embudo (CBM) intenta ser más transparente. En lugar de ir directo a la respuesta, el robot primero identifica conceptos humanos en la imagen.

  • Ejemplo: En lugar de decir "es un perro", primero piensa: "Veo cuatro patas", "Veo un hocico", "Veo un collar". Luego, con esas pistas, decide: "¡Es un perro!".

La trampa: Aunque el robot se supone que solo debe mirar los conceptos (patas, hocico), resulta que sus "ojos" internos también capturan información secreta que no debería ver, como el género de la persona. Es como si, al mirar el collar, el robot también viera "es un hombre" y eso cambiara su decisión. A esto los investigadores le llaman fuga de información.

2. La Solución: Tres trucos para limpiar al Chef

Los investigadores probaron tres métodos para limpiar al chef y hacerlo más justo sin perder su habilidad para cocinar bien:

Truco A: El Filtro "Solo lo Importante" (Top-K Filter)

Imagina que el chef tiene una lista de 1,000 pistas sobre la imagen, pero la mayoría son ruido (como el color de la camisa de la persona).

  • Lo que hicieron: En lugar de usar todas las pistas, le dijeron al robot: "Solo usa las 100 mejores pistas y ignora el resto".
  • El resultado: Al ignorar el "ruido" (la información de género oculta), el robot se vuelve más justo. Es como si le dijéramos al chef: "Solo mira la comida, no mires a quién se la sirve". Esto funcionó muy bien y mantuvo al robot preciso.

Truco B: Tirar las Pistas Sesgadas (Eliminar Conceptos)

Aquí intentaron ser más directos. Miraron la lista de conceptos y dijeron: "¡Este concepto 'corbata' es muy típico de hombres y 'delantal' de mujeres, ¡bórralo de la lista!".

  • El problema: El robot es muy astuto. Aunque borraron la palabra "corbata", el robot aprendió a usar otras pistas (como "una camisa azul" o "una herramienta") para adivinar el género de todos modos.
  • La lección: Borrar palabras no basta porque el robot sigue "escuchando" de más a través de otras pistas.

Truco C: El Entrenador de "Ojos Cerrados" (Debiasing Adversarial)

Este es el truco más inteligente. Imagina que tienes un entrenador (el robot principal) y un crítico (un segundo robot).

  • La dinámica: El entrenador intenta adivinar qué plato es. El crítico intenta adivinar el género de la persona basándose solo en lo que el entrenador piensa.
  • El objetivo: El entrenador debe aprender a adivinar el plato tan bien que el crítico no pueda adivinar el género. Si el crítico sigue adivinando el género, el entrenador está fallando.
  • El resultado: El entrenador aprende a ignorar completamente las pistas de género. Esto redujo el sesgo en un 28% y mantuvo la precisión casi intacta.

3. El Gran Dilema: La Balanza

Los investigadores descubrieron algo importante: hay una balanza entre tres cosas:

  1. Justicia (que no discrimine).
  2. Interpretabilidad (que podamos entender qué pensó).
  3. Precisión (que acierte el plato).

Si el robot usa demasiadas pistas para ser muy preciso, se vuelve injusto (fuga de información). Si usa muy pocas para ser justo, puede cometer errores.

  • La conclusión: El mejor equilibrio se logra usando el Truco A (filtrar las mejores pistas) combinado con el Truco C (el entrenador que obliga a ignorar el género).

En Resumen

Este paper nos dice que para hacer a la Inteligencia Artificial más justa y comprensible, no basta con darle "conceptos" simples. Debemos enseñarle a ignorar activamente los detalles irrelevantes (como el género) que se cuelan en su pensamiento.

Su solución final es como un chef que, en lugar de mirar a la persona que pide la comida, se enfoca obsesivamente en los ingredientes y las herramientas, y tiene un supervisor que le grita: "¡Si vuelves a pensar en el género de la persona, te quito el plato!". Así, el robot se vuelve más justo, más transparente y sigue siendo muy bueno en su trabajo.