GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un detective de inteligencia artificial llamado GIFT. Su trabajo es entrar en la mente de una "caja negra" (un modelo de visión por computadora) y explicarnos, en lenguaje humano sencillo, por qué tomó una decisión.

Aquí tienes la historia de cómo funciona GIFT, explicada como si fuera una aventura de detectives:

🕵️‍♂️ El Problema: La Caja Negra

Imagina que un coche autónomo decide frenar de golpe. Los ingenieros le preguntan: "¿Por qué frenaste?". La IA responde: "Porque vi algo". Pero no te dice qué vio.
Los métodos antiguos de explicación son como intentar adivinar qué hay dentro de una caja cerrada mirando solo la sombra que proyecta en la pared. A veces aciertan, pero a menudo se equivocan o dan explicaciones confusas que no son del todo ciertas.

🎁 La Solución: GIFT (El Regalo de la Verdad)

GIFT es un marco de trabajo que quiere dar explicaciones que sean Globales (entienden el patrón general, no solo un caso), Interpretables (se leen como un cuento, no como código), Fieles (cuentan la verdad de cómo piensa la IA) y Textuales (en palabras).

GIFT funciona en 4 etapas, como una investigación criminal:

1️⃣ Etapa 1: El "Efecto Mariposa" (Generar Contrafactuales)

El detective toma una foto y se pregunta: "¿Qué pasaría si cambiara un solo detalle en esta imagen?".

La analogía: Imagina que tienes una foto de un perro y la IA dice "Es un gato". GIFT toma un pincel mágico y dibuja un collar en el perro. ¡Zas! La IA ahora dice "Es un perro".
GIFT hace esto miles de veces, creando "versiones alternativas" de la realidad para ver qué cambios pequeños hacen que la IA cambie de opinión. Estos son sus pistas visuales.

2️⃣ Etapa 2: El Traductor (De Imagen a Texto)

Ahora tiene miles de fotos modificadas, pero eso es difícil de leer para un humano. Necesita traducir esos cambios visuales a palabras.

La analogía: Un traductor experto (una IA de visión y lenguaje) mira la foto original y la foto modificada, y dice: "Oye, en la foto de la derecha le pusieron gafas al hombre, y en la de la izquierda no".
Convierte los cambios visuales en frases simples: "El objeto rojo desapareció" o "Apareció un coche en la izquierda".

3️⃣ Etapa 3: El Jefe de Detectives (El Gran LLM)

Tiene miles de frases sueltas y desordenadas. Necesita encontrar el patrón oculto.

La analogía: Imagina que tienes un montón de notas sueltas de testigos: "El ladrón llevaba gorra", "El ladrón llevaba gorra", "El ladrón llevaba gorra". Un detective humano (una IA de lenguaje grande o LLM) lee todas esas notas y dice: "¡Eureka! El patrón es que la IA solo confía en la gente que lleva gorra".
GIFT agrupa todas esas pequeñas pistas para crear una hipótesis global: "Esta IA clasifica las imágenes como 'peligrosas' si ve mucho tráfico en el carril izquierdo".

4️⃣ Etapa 4: El Interrogatorio (Verificación Causal)

Aquí es donde GIFT brilla. No se fía de las hipótesis. ¡Las pone a prueba!

La analogía: El detective dice: "Creo que la IA odia el tráfico en el carril izquierdo. Vamos a comprobarlo". Toma una foto que no tiene tráfico a la izquierda, le añade un coche allí (usando edición de imágenes) y la vuelve a mostrar a la IA.
- Si la IA cambia su decisión (dice "¡Peligro!"), ¡la hipótesis es verdadera!
- Si la IA no cambia de opinión, la hipótesis era falsa y la descarta.
Esto asegura que la explicación no es una coincidencia, sino la causa real de la decisión de la IA.

🌟 ¿Por qué es tan especial?

La mayoría de los métodos anteriores son como adivinar qué piensa la IA basándose en lo que parece lógico. GIFT es diferente porque:

No necesita que tú le digas qué buscar: A diferencia de otros métodos que requieren que tú le digas "busca gafas" o "busca arrugas", GIFT descubre cosas que ni siquiera imaginábamos (como que un coche autónomo tiene miedo si ve un autobús en el carril izquierdo, aunque no sea un peligro real).
Es un detective riguroso: No se queda con la primera respuesta. Verifica cada teoría manipulando la realidad digitalmente.
Habla nuestro idioma: Al final, te da una explicación en texto claro, no un mapa de colores confuso.

🚗 Ejemplo Real del Papel

En el estudio, probaron GIFT en un coche autónomo. Descubrieron que el coche estaba "sesgado": pensaba que nunca podía girar a la derecha si había coches en el carril izquierdo, incluso si era seguro hacerlo.

Un humano mirando las fotos no se dio cuenta de este sesgo extraño.
GIFT lo encontró, lo tradujo a una frase clara y lo verificó manipulando las imágenes para confirmar que esa era la única razón por la que el coche se negaba a girar.

En resumen: GIFT es como tener un traductor y un científico forense en uno, que entra en la mente de la IA, le hace pruebas de realidad, y te cuenta la historia de por qué tomó esa decisión, asegurándose de que sea la verdad absoluta.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: GIFT

1. El Problema

La implementación segura y confiable de modelos de visión profunda en aplicaciones de alto riesgo (como conducción autónoma o diagnóstico médico) requiere una comprensión clara de sus procesos de decisión. Los enfoques de explicabilidad existentes presentan limitaciones críticas:

Mapas de saliencia y atribución de características: Suelen ser locales (por instancia), poco fieles (pueden confundirse con correlaciones espurias) y de difícil interpretación semántica.
Métodos basados en conceptos: A menudo requieren conceptos predefinidos manualmente o dependen de arquitecturas específicas, limitando su generalización.
Explicaciones contrafactuales: Aunque capturan relaciones causales al identificar cambios mínimos que alteran la salida, son inherentemente locales (se centran en una imagen específica), difíciles de interpretar visualmente y pueden ser ambiguos (un cambio visual podría tener múltiples causas).

Existe una brecha entre las explicaciones locales fieles y las explicaciones globales interpretables y humanas.

2. Metodología: El Marco GIFT

GIFT (Global, Interpretable, Faithful, Textual) es un marco post-hoc diseñado para derivar explicaciones globales, interpretables, fieles y en texto natural para clasificadores de visión. El proceso se divide en cuatro etapas secuenciales (ver Figura 1 del artículo):

Etapa 1: Generación de Explicaciones Visuales Locales y Fieles
- Se utiliza un generador de contrafactuales (CEX) para crear pares de imágenes $(x, x')$ donde $x'$ es una versión mínimamente alterada de $x$ que invierte la predicción del modelo objetivo $M$ .
- Estos cambios son fieles por definición porque alteran directamente la frontera de decisión del modelo sin depender de aproximaciones de modelos sustitutos.
Etapa 2: Traducción a Texto Natural (Captioning de Cambios)
- Se emplea un Modelo de Visión-Lenguaje (VLM) para generar "captions de cambio" (descripciones textuales) que detallan las diferencias visuales entre la imagen original y su contrafactual.
- Esto transforma señales visuales complejas en descripciones lingüísticas accesibles, aunque introduce ruido potencial.
Etapa 3: Agregación y Deducción de Explicaciones Globales
- Un Gran Modelo de Lenguaje (LLM) analiza el conjunto de todas las descripciones de cambios locales.
- El LLM identifica patrones recurrentes, disambigua evidencias locales contradictorias y sintetiza hipótesis globales sobre las reglas de decisión del modelo (ej. "La clase 1 implica la presencia de un objeto rojo").
- Esta etapa convierte la evidencia local dispersa en reglas coherentes y globales.
Etapa 4: Verificación Causal de las Hipótesis
- Para garantizar la fidelidad, las hipótesis globales se someten a una verificación rigurosa mediante intervenciones en imágenes.
- Se utiliza un modelo de edición de imágenes (basado en texto) para insertar o eliminar el concepto identificado en la hipótesis (ej. añadir un "objeto rojo") en un conjunto de validación.
- Se miden dos métricas causales:
  1. Efecto Conceptual Causal (CaCE): Mide cuánto cambia la predicción al añadir/quitar el concepto.
  2. Probabilidad de Causa Necesaria y Suficiente (PNS): Evalúa la probabilidad de que el concepto sea tanto necesario como suficiente para la clase.
- Solo las explicaciones que muestran un efecto causal significativo se retienen.

3. Contribuciones Clave

Primer marco global y textual: GIFT es el primer enfoque que combina explicaciones contrafactuales (locales) con razonamiento de LLM para producir explicaciones globales en texto natural, validadas causalmente.
Sinergia de técnicas novedosa: Combina la generación de señales contrafactuales (causales pero locales) con el razonamiento de LLM para extraer insights globales, una combinación no explorada anteriormente.
Verificación Causal Rigurosa: Introduce un pipeline de verificación que cuantifica el efecto causal de las explicaciones mediante intervenciones reales en imágenes, evitando explicaciones basadas solo en correlaciones.
Análisis de Sesgos y Conceptos Latentes: Demuestra la capacidad de descubrir reglas de clasificación significativas, así como sesgos inesperados y conceptos latentes que impulsan el comportamiento del modelo.

4. Resultados Experimentales

El marco se validó en tres escenarios de clasificación binaria con creciente complejidad:

CLEVR (Entorno Sintético Controlado):
- GIFT logró descubrir las reglas de clasificación ocultas (ej. "objeto cian presente") en 11 de 12 casos probados (ResNet y ViT).
- La verificación causal (Etapa 4) fue crítica para distinguir la regla verdadera entre varias hipótesis plausibles generadas por el LLM.
- En el caso de fallo ("objeto rojo metálico" con ResNet), GIFT permitió a los usuarios combinar reglas parciales ("objeto rojo" + "objeto metálico") para recuperar la regla correcta.
CelebA (Rostros Humanos - "Joven" vs. "Viejo"):
- Descubrió atributos razonables (arrugas, línea del cabello) y atributos inesperados (fondo detallado, ángulo de cámara).
- Se observó que atributos individuales tenían baja causalidad, pero combinaciones (ej. "Gafas" + "Arrugas en la frente") aumentaban drásticamente las métricas causales (PNS), revelando la robustez del modelo y sesgos en los datos de entrenamiento (ej. correlación entre gafas y vejez).
BDD-OIA (Escenas de Conducción - "Girar a la derecha"):
- Se probó con un clasificador intencionalmente sesgado que asociaba vehículos en el carril izquierdo con la clase "No girar a la derecha".
- GIFT identificó exitosamente este sesgo ("tráfico denso en el carril izquierdo"), mientras que métodos basados en hipótesis humanas o generadas por LLM sin guía contrafactual fallaron en detectarlo.
- Los estudios de ablación demostraron que sin las etapas de generación de contrafactuales y captioning de cambios, el LLM no puede descubrir sesgos no intuitivos.

5. Significado e Impacto

Puente entre Local y Global: GIFT cierra la brecha entre el razonamiento contrafactual local (fiel pero fragmentado) y la interpretabilidad global (comprensible pero a menudo no verificada).
Confianza y Seguridad: Al proporcionar explicaciones textuales verificadas causalmente, GIFT permite a los desarrolladores y auditores confiar en que el modelo está tomando decisiones basadas en características semánticas relevantes y no en atajos o sesgos espurios.
Descubrimiento de Sesgos: Es una herramienta poderosa para la auditoría de modelos, capaz de revelar sesgos ocultos que los humanos o los métodos tradicionales pasarían por alto.
Flexibilidad: El marco es agnóstico al modelo y puede adaptarse a diferentes dominios (sintéticos, rostros, conducción) utilizando componentes de vanguardia para la generación de contrafactuales, la visión-lenguaje y la edición de imágenes.

En conclusión, GIFT representa un avance significativo hacia la explicabilidad de IA responsable, ofreciendo un enfoque sistemático para entender no solo qué decide un modelo de visión, sino por qué lo hace, con un respaldo causal riguroso.