A Survey on Interpretability in Visual Recognition

Este artículo presenta una encuesta sistemática sobre la interpretabilidad en el reconocimiento visual desde una perspectiva centrada en el humano, estableciendo una taxonomía multidimensional, evaluando métricas críticas y explorando tendencias emergentes en modelos de lenguaje multimodal para guiar futuras investigaciones.

Qiyang Wan, Chengzhi Gao, Ruiping Wang, Xilin Chen

Publicado 2026-03-12
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que las Inteligencias Artificiales (IA) que reconocen imágenes (como las que identifican un gato en una foto o detectan un tumor en una radiografía) son como chefes de cocina geniales pero misteriosos.

Hace años, estos "chefes" cocinaban platos deliciosos (daban resultados perfectos), pero cuando les preguntabas: "¿Por qué decidiste ponerle sal a este plato?", ellos solo respondían: "Simplemente lo hice". No te daban la receta, ni te mostraban los ingredientes. Eran una "caja negra".

Esta investigación es como un mapa del tesoro que nos ayuda a entender cómo piensan estos chefes. Los autores, un equipo de expertos, han creado una guía para que cualquiera pueda entender por qué la IA toma sus decisiones.

Aquí te explico los puntos clave de su trabajo usando analogías sencillas:

1. El Problema: La Caja Negra

En el mundo de la IA, a veces la tecnología es tan avanzada que ni sus creadores saben exactamente cómo llega a una conclusión. Esto es peligroso si la IA está conduciendo un coche autónomo o diagnosticando una enfermedad. Necesitamos saber por qué tomó esa decisión para confiar en ella. A esto se le llama IA Explicable (XAI).

2. La Gran Solución: El Mapa de 4 Dimensiones

Los autores dicen que para entender estas explicaciones, no basta con mirar de un solo lado. Han creado un sistema de clasificación con 4 preguntas fundamentales (como las 4 paredes de una habitación) para organizar todas las formas de explicar a la IA:

  • Pared 1: ¿Cuál es la intención? (Intent)

    • Analogía: ¿Estás revisando el trabajo de un empleado después de que terminó (Pasivo) o diseñaste el trabajo para que sea transparente desde el principio (Activo)?
    • Pasivo: La IA ya sabe cocinar, y tú usas una lupa para ver qué ingredientes usó después de servir el plato.
    • Activo: Diseñas la cocina de tal forma que el chef siempre tenga que mostrarte los ingredientes antes de cocinar.
  • Pared 2: ¿Qué estamos explicando? (Object)

    • Analogía: ¿Te interesa saber por qué el chef cocinó este plato específico (Local), por qué cocinó todos los platos de "pasta" (Semi-local), o cómo funciona toda la cocina en general (Global)?
    • A veces necesitas saber por qué la IA vio un perro en esa foto. Otras veces, quieres entender qué características hace que la IA reconozca a cualquier perro.
  • Pared 3: ¿Cómo se presenta la explicación? (Presentation)

    • Analogía: ¿Cómo te cuenta el chef lo que hizo?
    • ¿Te da un número? (Ej: "El 90% de la probabilidad es por el color rojo").
    • ¿Te muestra un mapa de calor sobre la foto? (Ej: Resalta en rojo la oreja del gato).
    • ¿Te dibuja un árbol de decisiones? (Ej: Si tiene orejas puntiagudas -> Gato).
    • ¿Te muestra otras fotos similares? (Ej: "Mira, este perro se parece a este otro que ya conoces").
  • Pared 4: ¿Cómo se genera la explicación? (Methodology)

    • Analogía: ¿Cómo descubre el chef la razón?
    • Observación (Asociación): Mira qué ingredientes suelen aparecer juntos.
    • Experimento (Intervención): Quita un ingrediente a ver si el plato cambia.
    • Imaginación (Contrafactual): "¿Qué pasaría si en lugar de sal, pusiera azúcar?".

3. ¿Por qué es importante esto?

Los autores no solo hacen el mapa, sino que también nos dicen cómo medir si una explicación es buena.

  • Fidelidad: ¿La explicación es verdad? ¿Realmente el chef usó esos ingredientes o solo está inventando?
  • Comprensión: ¿Entiende el cliente (el humano) la explicación?
  • Eficiencia: ¿Tarda mucho tiempo en dar la explicación?

4. El Futuro: La IA que habla y ve

El artículo también mira al futuro, donde las IAs no solo ven imágenes, sino que también hablan (como los modelos de chat que usan texto e imágenes). Imagina un chef que no solo te muestra el plato, sino que te escribe un poema explicando por qué eligió esos ingredientes. Esto es lo que están empezando a estudiar con los "Modelos de Lenguaje Multimodal".

En resumen

Esta investigación es como un manual de instrucciones para la confianza. Nos dice que para confiar en una IA (especialmente en cosas vitales como la medicina o los coches autónomos), no basta con que sea inteligente; tiene que ser capaz de decirnos: "Te elegí a ti porque vi estas tres cosas en tu foto".

Los autores nos dan las herramientas para elegir la mejor forma de preguntar a la IA, dependiendo de si somos médicos, ingenieros o simplemente curiosos, asegurando que la tecnología sea una aliada transparente y no un misterio peligroso.