Learning Concept Bottleneck Models from Mechanistic Explanations

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que tienes un chef genio (el modelo de Inteligencia Artificial) que cocina platos increíbles y sabe exactamente qué ingredientes necesita para que un guiso quede perfecto. Pero hay un problema: el chef es un "caja negra". Cuando le pides que cocine, te da el plato listo, pero no te dice por qué lo hizo así. No te explica si puso más sal porque el tomate estaba verde o porque el fuego estaba muy alto.

Los investigadores de este paper (publicado en ICLR 2026) querían arreglar esto. Quisieron que el chef no solo cocinara, sino que explicara su proceso usando conceptos que nosotros, los humanos, entendamos.

Aquí tienes la historia de cómo lo hicieron, paso a paso:

1. El Problema: Los "Ingredientes" Inventados

Antes de este trabajo, los científicos intentaban hacer que el chef explicara sus platos inventando una lista de ingredientes antes de empezar.

Decían: "Oye chef, solo puedes usar ingredientes como 'rojo', 'redondo' o 'picante'".
El fallo: A veces, el chef necesita algo muy específico que no estaba en la lista (como "el olor a lluvia en el pan") o la lista era tan larga y confusa que el chef terminaba haciendo trampa. Usaba la lista de ingredientes como una excusa, pero en realidad estaba adivinando el resultado final basándose en patrones ocultos que nadie veía. Esto se llama filtrado de información (o leakage): el modelo "se filtra" la respuesta correcta sin usar los conceptos que le pediste.

2. La Solución: El "M-CBM" (El Chef que se Escucha a Sí Mismo)

En lugar de inventar ingredientes, los autores dicen: "¡Espera! El chef ya sabe qué ingredientes usa. Solo tenemos que preguntárselo".

Su nueva técnica se llama M-CBM (Modelo de Cuello de Botella Mecanístico). Funciona así:

Paso 1: La Radiografía del Chef (SAE)

Primero, miran dentro de la mente del chef (el modelo de IA) mientras cocina. Usan una herramienta mágica llamada Autoencoder Escaso (SAE).

La analogía: Imagina que el cerebro del chef es una habitación llena de miles de interruptores de luz. Algunos se encienden cuando ve un "gato", otros cuando ve "pelaje naranja", y otros cuando ve "ojos verdes". A veces, un solo interruptor se enciende para muchas cosas diferentes (confusión).
El SAE es como un traductor que reorganiza esos interruptores. Separa la luz confusa en interruptores puros y claros: uno solo para "pelaje naranja", otro solo para "ojos verdes". ¡Ahora sabemos exactamente qué "concepto" está pensando el chef!

Paso 2: Ponerle Nombre a los Interruptores (LLM)

Ahora tenemos miles de interruptores encendidos, pero no sabemos cómo se llaman en español.

La analogía: El equipo toma una foto de las cosas que hacen encender el interruptor "pelaje naranja" y se la muestra a un robot muy inteligente (un Modelo de Lenguaje Multimodal, como GPT-4).
Le pregunta: "¿Qué es esto?". El robot dice: "¡Es un gato naranja!".
Así, cada interruptor misterioso recibe un nombre humano comprensible.

Paso 3: El Libro de Recetas (Anotación)

Ahora tienen una lista de conceptos (gato, naranja, pelaje). Pero necesitan enseñarle al chef a usar solo esos conceptos para cocinar.

Muestran fotos al robot inteligente y le preguntan: "¿En esta foto hay un gato naranja?". El robot marca "Sí" o "No".
Con estas respuestas, crean un libro de recetas donde el chef aprende a decir: "Para hacer un plato de 'Gato', primero debo detectar 'pelaje naranja' y 'ojos verdes'".

Paso 4: La Explicación Final

Cuando el chef ve una nueva foto, ya no adivina. Sigue su libro de recetas:

Detecta los conceptos (ej: "¡Veo pelaje naranja!").
Combina esos conceptos para decidir (ej: "Pelaje naranja + Ojos verdes = Gato").
El resultado: Te da la respuesta correcta y, lo más importante, te dice: "Lo hice porque vi pelaje naranja". ¡Nada de magia negra!

3. La Medida de la Honestidad (NCC)

Los autores también crearon una nueva regla para medir qué tan honesto es el chef. La llaman NCC (Número de Conceptos Contribuyentes).

La analogía: Imagina que el chef te da una explicación. Si te dice: "Lo hice porque vi el gato, el sol, la hierba, el viento, el cielo, la casa, el perro, el gato otra vez...", es una explicación aburrida y confusa.
El NCC mide cuántas cosas reales necesita el chef para explicarse. Si solo necesita 5 conceptos para explicarse el 95% de la decisión, ¡es un chef muy honesto y claro! Si necesita 100 cosas, probablemente esté mintiendo o usando trucos.

¿Por qué es esto un gran avance?

Antes: Los modelos de IA eran como magos que hacían trucos increíbles pero no podían explicar cómo. Si les pedías explicaciones, a menudo mentían o usaban conceptos que no tenían sentido.
Ahora (con M-CBM): El modelo aprende de sus propios "pensamientos" reales. Es como si el mago te mostrara sus cartas ocultas y te dijera: "Mirad, gané porque tenía un As de Espadas, no porque hice magia".
Resultados: En pruebas con fotos de pájaros, enfermedades de la piel y objetos generales, este nuevo método fue más preciso y dio explicaciones más claras que los métodos anteriores, incluso cuando se obligó a usar muy pocos conceptos para ser breve.

En resumen:
Este paper nos enseña que, para entender a la Inteligencia Artificial, no debemos intentar adivinar qué piensa. En su lugar, debemos escuchar lo que ya está pensando, ponerle nombres humanos a esos pensamientos y obligarla a explicar sus decisiones usando solo esas palabras simples. ¡Es como enseñar a un niño a explicar por qué ganó un juego, en lugar de inventarle una historia falsa!

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "Learning Concept Bottleneck Models from Mechanistic Explanations" (Aprendiendo Modelos de Cuello de Botella de Conceptos a partir de Explicaciones Mecanistas), presentado en ICLR 2026.

1. El Problema

Los Modelos de Cuello de Botella de Conceptos (CBM) son un enfoque prometedor para la IA interpretable ante-hoc (por diseño), ya que predicen primero un conjunto de conceptos intermedios e interpretables antes de tomar una decisión final. Sin embargo, los enfoques actuales de vanguardia sufren de limitaciones críticas:

Definición a-priori de conceptos: Los métodos existentes seleccionan conceptos mediante especificación humana, grafos de conocimiento, o prompting de LLMs (Modelos de Lenguaje Grandes). Estos conceptos predefinidos a menudo carecen del poder predictivo suficiente para la tarea específica o no son aprendibles a partir de los datos disponibles.
Rendimiento inferior: Como consecuencia, los CBM de vanguardia suelen tener un rendimiento significativamente menor que sus contrapartes de "caja negra" cuando se controla la fuga de información.
Fuga de información (Information Leakage): Existe un fenómeno donde la capa de cuello de botella codifica patrones ocultos relacionados con la clase más allá de la semántica del concepto. Esto permite que el predictor final "lea" la clase directamente, haciendo que el modelo sea efectivamente una caja negra y que las explicaciones sean engañosas (p. ej., conceptos aleatorios pueden lograr alta precisión).
Limitaciones de métodos existentes: Métodos como DN-CBM dependen de CLIP (limitando su aplicabilidad) y VLG-CBM sufren de fuga de información si la anotación está condicionada a la clase.

2. Metodología: M-CBM (Mechanistic CBM)

Los autores proponen M-CBM, una nueva tubería (pipeline) que construye el cuello de botella directamente a partir de los conceptos aprendidos por el propio modelo de caja negra, en lugar de adivinarlos externamente. El proceso consta de cuatro etapas principales (ver Figura 1 del artículo):

Extracción de Conceptos (SAE):
- Se toma un modelo de caja negra preentrenado ( $\phi$ ).
- Se utilizan Autoencoders Dispersos (SAE) para descomponer las activaciones de las características del modelo en un conjunto de direcciones de conceptos dispersos y disociados.
- Los SAEs aprenden un diccionario sobrecargado de características monosemánticas, abordando la hipótesis de superposición (donde las redes aprenden más conceptos de los que tienen neuronas).
- Se realiza un filtrado para eliminar neuronas "muertas" o ruidosas que no contribuyen significativamente al rendimiento de recuperación del modelo.
Nombrado de Conceptos (MLLM):
- Para cada neurona activa del SAE, se seleccionan ejemplos de imágenes que la activan fuertemente y ejemplos que no la activan.
- Se utiliza un Modelo de Lenguaje Multimodal (MLLM), específicamente GPT-4.1, para generar nombres en lenguaje natural para cada neurona basándose en estos ejemplos y mapas de saliencia.
- Se evita el uso de nombres de clases y se fusionan conceptos semánticamente equivalentes mediante embeddings de texto.
Anotación del Dataset:
- Dado que los nombres son solo hipótesis, se crea un dataset parcialmente anotado.
- El MLLM anota un subconjunto de imágenes (hasta 1000 por concepto) indicando la presencia (1), ausencia (0) o no anotación (-1) de cada concepto.
- Se seleccionan muestras activas (alta activación) y no activas (baja activación o aleatorias) para garantizar un equilibrio y evitar sesgos hacia clases específicas.
Entrenamiento del Modelo CBM:
- Se entrena una capa de Cuello de Botella de Conceptos (CBL) para predecir la presencia de los $K$ conceptos nombrados a partir de las características del backbone congelado.
- Se entrena un clasificador lineal disperso (usando GLM-SAGA) para predecir las clases finales a partir de las salidas de los conceptos.
- Se aplica una penalización elastic-net para controlar la dispersión.

3. Contribuciones Clave

M-CBM Pipeline: Un marco novedoso que extrae conceptos directamente de la mecánica interna de un modelo de caja negra mediante SAEs, garantizando que los conceptos sean inherentemente aprendibles y predictivos.
Métrica NCC (Number of Contributing Concepts):
- Los autores introducen una nueva métrica para controlar la fuga de información y la concisión de las explicaciones.
- A diferencia de la métrica previa NEC (Número de Conceptos Efectivos), que cuenta los pesos no nulos, el NCC mide la dispersión a nivel de decisión. Calcula cuántos conceptos son necesarios para explicar un porcentaje $\tau$ (ej. 95%) de la contribución absoluta a una predicción específica.
- Esto permite comparaciones justas entre modelos con diferentes tamaños de vocabulario de conceptos, enfocándose en la concisión de la explicación real en lugar de solo en la estructura de los pesos.
Superación del Estado del Arte: Demostración de que los conceptos extraídos mecánicamente superan a los definidos por humanos o LLMs en términos de precisión y capacidad de aprendizaje.

4. Resultados Experimentales

Los experimentos se realizaron en tres conjuntos de datos diversos: CUB (aves), ISIC2018 (lesiones de piel) e ImageNet.

Precisión vs. Dispersión: M-CBM supera consistentemente a los CBM de vanguardia (LF-CBM, VLG-CBM, DN-CBM) en precisión cuando se iguala el nivel de dispersión (NCC).
- En CUB, M-CBM alcanza un 73.70% de precisión a NCC=5, superando a VLG-CBMCA (69.12%) y LF-CBM (58.08%).
- En ImageNet, M-CBM logra un 72.18% frente al 62.20% de LF-CBM.
Predicción de Conceptos: M-CBM muestra una capacidad superior para aprender sus propios conceptos (medido por ROC-AUC en el conjunto de prueba), alcanzando un 90.04% en CUB frente al 62.03% de VLG-CBMCA. Esto indica que los conceptos extraídos del backbone son más coherentes y aprendibles que los generados externamente.
Control de Fuga de Información:
- Se demostró que los métodos con anotación condicionada a la clase (como VLG-CBM original) sufren de fuga masiva: logran precisión de caja negra incluso con conceptos aleatorios y NCC muy bajo (1.5).
- M-CBM, al no depender de esta condición y usar conceptos reales del modelo, mantiene la compensación esperada entre interpretabilidad (bajo NCC) y precisión.
Explicaciones: Las explicaciones generadas por M-CBM son concisas y semánticamente relevantes. Por ejemplo, en la clasificación de aves, el modelo identifica conceptos visuales específicos como "máscara negra alrededor de ojos" en lugar de conceptos genéricos.

5. Significado y Limitaciones

Significado:
El trabajo demuestra que la interpretabilidad mecanística (usando SAEs) puede cerrar la brecha de rendimiento entre los modelos interpretables y los modelos de caja negra. Al extraer conceptos directamente de la representación interna del modelo, se evita el problema de que los conceptos definidos a-priori no sean útiles o aprendibles. Además, la introducción de NCC ofrece una métrica más robusta para evaluar la calidad de las explicaciones en CBMs, evitando que modelos con fugas de información parezcan eficientes solo por tener muchos conceptos.

Limitaciones:

Costo Computacional: El uso de MLLMs (como GPT-4.1) para el nombrado y la anotación es costoso en tiempo y dinero, aunque es escalable.
Dependencia de la Calidad del MLLM: La calidad de los conceptos finales depende de la capacidad del MLLM para nombrar y anotar correctamente. Se demostró que el uso de MLLMs de código abierto (InternVL) reduce el rendimiento, especialmente en datasets grandes como ImageNet.
Evaluación de Conceptos: Aunque se mejora la consistencia interna, sigue siendo difícil verificar sistemáticamente si los conceptos aprendidos son verdaderamente lo que el modelo "cree" que son y no correlaciones espurias, ya que la capa de predicción de conceptos sigue siendo una caja negra.
Fuga de Información Residual: Aunque M-CBM reduce la fuga, no la elimina por completo; los CBMs entrenados con palabras aleatorias aún pueden lograr una precisión superior a la esperada por azar.

En conclusión, M-CBM representa un avance significativo hacia modelos de IA que son tanto precisos como genuinamente interpretables, aprovechando la mecánica interna de las redes neuronales profundas para definir su propio vocabulario de conceptos.