GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

El marco GIFT propone un enfoque post-hoc que genera explicaciones textuales globales, interpretables y fieles para clasificadores visuales, combinando la creación de contrafactuales visuales, su traducción a lenguaje natural mediante modelos visión-idioma y una verificación causal rigurosa para revelar las reglas de decisión y sesgos latentes de los modelos.

Éloi Zablocki, Valentin Gerard, Amaia Cardiel, Eric Gaussier, Matthieu Cord, Eduardo Valle

Publicado 2026-02-23
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un detective de inteligencia artificial llamado GIFT. Su trabajo es entrar en la mente de una "caja negra" (un modelo de visión por computadora) y explicarnos, en lenguaje humano sencillo, por qué tomó una decisión.

Aquí tienes la historia de cómo funciona GIFT, explicada como si fuera una aventura de detectives:

🕵️‍♂️ El Problema: La Caja Negra

Imagina que un coche autónomo decide frenar de golpe. Los ingenieros le preguntan: "¿Por qué frenaste?". La IA responde: "Porque vi algo". Pero no te dice qué vio.
Los métodos antiguos de explicación son como intentar adivinar qué hay dentro de una caja cerrada mirando solo la sombra que proyecta en la pared. A veces aciertan, pero a menudo se equivocan o dan explicaciones confusas que no son del todo ciertas.

🎁 La Solución: GIFT (El Regalo de la Verdad)

GIFT es un marco de trabajo que quiere dar explicaciones que sean Globales (entienden el patrón general, no solo un caso), Interpretables (se leen como un cuento, no como código), Fieles (cuentan la verdad de cómo piensa la IA) y Textuales (en palabras).

GIFT funciona en 4 etapas, como una investigación criminal:

1️⃣ Etapa 1: El "Efecto Mariposa" (Generar Contrafactuales)

El detective toma una foto y se pregunta: "¿Qué pasaría si cambiara un solo detalle en esta imagen?".

  • La analogía: Imagina que tienes una foto de un perro y la IA dice "Es un gato". GIFT toma un pincel mágico y dibuja un collar en el perro. ¡Zas! La IA ahora dice "Es un perro".
  • GIFT hace esto miles de veces, creando "versiones alternativas" de la realidad para ver qué cambios pequeños hacen que la IA cambie de opinión. Estos son sus pistas visuales.

2️⃣ Etapa 2: El Traductor (De Imagen a Texto)

Ahora tiene miles de fotos modificadas, pero eso es difícil de leer para un humano. Necesita traducir esos cambios visuales a palabras.

  • La analogía: Un traductor experto (una IA de visión y lenguaje) mira la foto original y la foto modificada, y dice: "Oye, en la foto de la derecha le pusieron gafas al hombre, y en la de la izquierda no".
  • Convierte los cambios visuales en frases simples: "El objeto rojo desapareció" o "Apareció un coche en la izquierda".

3️⃣ Etapa 3: El Jefe de Detectives (El Gran LLM)

Tiene miles de frases sueltas y desordenadas. Necesita encontrar el patrón oculto.

  • La analogía: Imagina que tienes un montón de notas sueltas de testigos: "El ladrón llevaba gorra", "El ladrón llevaba gorra", "El ladrón llevaba gorra". Un detective humano (una IA de lenguaje grande o LLM) lee todas esas notas y dice: "¡Eureka! El patrón es que la IA solo confía en la gente que lleva gorra".
  • GIFT agrupa todas esas pequeñas pistas para crear una hipótesis global: "Esta IA clasifica las imágenes como 'peligrosas' si ve mucho tráfico en el carril izquierdo".

4️⃣ Etapa 4: El Interrogatorio (Verificación Causal)

Aquí es donde GIFT brilla. No se fía de las hipótesis. ¡Las pone a prueba!

  • La analogía: El detective dice: "Creo que la IA odia el tráfico en el carril izquierdo. Vamos a comprobarlo". Toma una foto que no tiene tráfico a la izquierda, le añade un coche allí (usando edición de imágenes) y la vuelve a mostrar a la IA.
    • Si la IA cambia su decisión (dice "¡Peligro!"), ¡la hipótesis es verdadera!
    • Si la IA no cambia de opinión, la hipótesis era falsa y la descarta.
  • Esto asegura que la explicación no es una coincidencia, sino la causa real de la decisión de la IA.

🌟 ¿Por qué es tan especial?

La mayoría de los métodos anteriores son como adivinar qué piensa la IA basándose en lo que parece lógico. GIFT es diferente porque:

  1. No necesita que tú le digas qué buscar: A diferencia de otros métodos que requieren que tú le digas "busca gafas" o "busca arrugas", GIFT descubre cosas que ni siquiera imaginábamos (como que un coche autónomo tiene miedo si ve un autobús en el carril izquierdo, aunque no sea un peligro real).
  2. Es un detective riguroso: No se queda con la primera respuesta. Verifica cada teoría manipulando la realidad digitalmente.
  3. Habla nuestro idioma: Al final, te da una explicación en texto claro, no un mapa de colores confuso.

🚗 Ejemplo Real del Papel

En el estudio, probaron GIFT en un coche autónomo. Descubrieron que el coche estaba "sesgado": pensaba que nunca podía girar a la derecha si había coches en el carril izquierdo, incluso si era seguro hacerlo.

  • Un humano mirando las fotos no se dio cuenta de este sesgo extraño.
  • GIFT lo encontró, lo tradujo a una frase clara y lo verificó manipulando las imágenes para confirmar que esa era la única razón por la que el coche se negaba a girar.

En resumen: GIFT es como tener un traductor y un científico forense en uno, que entra en la mente de la IA, le hace pruebas de realidad, y te cuenta la historia de por qué tomó esa decisión, asegurándose de que sea la verdad absoluta.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →