What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que los Transformadores de Visión (ViT) son como un detective muy inteligente, pero un poco misterioso, que mira fotos para decirte qué hay en ellas (un perro, un coche, un elefante). El problema es que este detective es un "caja negra": sabes que da la respuesta correcta, pero no entiendes por qué llegó a esa conclusión.

Este paper presenta una nueva herramienta llamada BiCAM (y un pequeño acompañante llamado PNR) que actúa como una "gafas mágicas" para ver exactamente cómo piensa este detective.

Aquí tienes la explicación sencilla, usando analogías de la vida diaria:

1. El Problema: Solo vemos la mitad de la historia

Antes de BiCAM, las herramientas para entender a estos detectives solo nos mostraban lo que les gustaba (las partes de la foto que decían "¡Sí, esto es un perro!"). Ignoraban por completo lo que les desagradaba o lo que descartaban.

La analogía: Imagina que estás eligiendo un restaurante. Un amigo te dice: "¡Me encanta este lugar, la comida es increíble!" (eso es lo que hacían las herramientas antiguas). Pero no te dice: "Y me encanta porque no tiene moscas en la mesa y no es ruidoso". Ignorar lo que no te gusta te da una imagen incompleta de por qué elegiste ese sitio.

2. La Solución: BiCAM (El Detective de Dos Vías)

BiCAM es una nueva forma de mirar al modelo que dice: "Espera, para entender por qué el modelo eligió 'Elefante', también necesito saber qué partes de la foto le dijeron '¡No, eso no es un elefante!'".

Cómo funciona:
- Lo que ayuda (Rojo): Si el modelo ve una trompa, BiCAM la pinta de rojo y dice: "¡Esto es lo que convenció al modelo!".
- Lo que estorba (Azul): Si el modelo ve un fondo de bosque que podría confundirse con un animal, BiCAM lo pinta de azul y dice: "¡El modelo descartó esto porque no encaja con la idea de 'elefante'!".
El resultado: Obtienes un mapa de calor donde el rojo y el azul se complementan. Es como ver una foto en 3D en lugar de plana; ves tanto lo que atrae la atención como lo que la rechaza.

3. La Estrategia Inteligente: No todo el tiempo es igual

Los modelos de IA tienen muchas "capas" de pensamiento, como si fueran varios niveles de un edificio.

Las capas bajas (planta baja): Ven cosas simples como bordes, colores y formas básicas (como ver solo los ladrillos de un edificio).
Las capas altas (piso superior): Entienden el significado completo (como ver que el edificio es una escuela).

BiCAM es muy listo: ignora el ruido de la planta baja y se concentra solo en los pisos superiores donde el modelo realmente toma la decisión final. Esto hace que la explicación sea más rápida y precisa, sin perder tiempo en detalles irrelevantes.

4. El Superpoder Extra: PNR (El Detector de Mentiras)

Además de explicar, BiCAM tiene un superpoder para detectar ataques maliciosos (cuando alguien intenta engañar al modelo con imágenes trucadas).

La analogía: Imagina que el modelo es un juez muy equilibrado. En una foto normal, el juez tiene un equilibrio perfecto entre "lo que apoya su decisión" y "lo que descarta".
El truco: Cuando un hacker intenta engañar al modelo (con un "adversarial example"), rompe ese equilibrio. De repente, el modelo empieza a gritar "¡SÍ!" a cosas que no deberían y "¡NO!" a cosas que sí deberían.
La herramienta PNR: Es una regla matemática simple que mide ese desequilibrio. Si la balanza se inclina demasiado de un lado, PNR grita: "¡Alto! Esta imagen parece manipulada". Lo mejor es que no necesita volver a entrenar al modelo; solo mira la foto y dice si es sospechosa.

5. ¿Por qué es importante?

Es más rápido: No necesita horas de entrenamiento extra.
Es más honesto: No oculta las partes negativas de la decisión.
Es más seguro: Puede detectar intentos de engaño en tiempo real.

En resumen:
BiCAM es como darle al detective una libreta donde escribe no solo sus sospechas ("creo que es un perro"), sino también sus dudas ("pero no es un gato porque no tiene bigotes"). Al ver ambos lados, entendemos mejor cómo piensa la máquina, hacemos que sea más confiable y podemos detectar si alguien está intentando engañarla. ¡Una herramienta esencial para confiar en la Inteligencia Artificial!

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: BiCAM para Vision Transformers

1. El Problema

Los Transformadores de Visión (ViT) han logrado un rendimiento de vanguardia en tareas de reconocimiento visual, detección y segmentación. Sin embargo, su proceso de toma de decisiones sigue siendo una "caja negra", lo que dificulta su adopción en dominios de alto riesgo.
Las metodologías existentes de interpretabilidad para ViT presentan limitaciones significativas:

Métodos basados en atención: A menudo suavizan en exceso las diferencias entre tokens, perdiendo detalles finos.
Métodos basados en gradientes: Requieren agregaciones complejas de toda la red y, a menudo, descartan las contribuciones negativas.
Métodos basados en Shapley: Son computacionalmente muy costosos y requieren reentrenamiento específico por conjunto de datos.
Falta de señales bidireccionales: La mayoría de los métodos actuales ignoran las contribuciones supresoras (negativas), centrándose solo en lo que "ayuda" a la predicción, lo que resulta en explicaciones incompletas.

2. Metodología: BiCAM

Los autores proponen BiCAM (Bidirectional Class Activation Mapping), un método diseñado para capturar tanto las contribuciones de apoyo (positivas) como las supresoras (negativas) en las predicciones de ViT.

Agregación Estratégica de Capas:
- A diferencia de los métodos que agregan señales de todas las capas, BiCAM se enfoca selectivamente en las capas finales del transformador (los últimos $\ell$ bloques, donde $\ell = 2L/3$ ).
- Fundamento teórico: La información discriminativa de la clase se concentra en las capas profundas, mientras que las capas iniciales contienen ruido estructural de bajo nivel.
- Ventaja: Esto preserva las contribuciones independientes de cada capa sin suavizar en exceso las diferencias entre tokens ni incurrir en sobrecarga de optimización.
Mecanismo de Atribución Bidireccional:
- BiCAM calcula mapas de atribución combinando mapas de atención, proyecciones de valores y gradientes específicos de la clase.
- Punto clave: A diferencia de Grad-CAM u otros métodos, no se aplica ReLU ni recorte. Esto permite que los valores negativos (que indican qué características reducen la puntuación de la clase) se conserven y se visualicen.
- El resultado es un mapa de calor donde el rojo representa evidencia de apoyo y el azul representa evidencia supresora (por qué el modelo rechaza otras clases o contextos).
Ratio Positivo a Negativo (PNR):
- Se introduce una métrica simple derivada de los mapas de atribución:
  $PNR = \frac{\sum \text{ReLU}(M_i)}{\sum \text{ReLU}(-M_i) + \epsilon}$
- Donde $M_i$ es la atribución del parche $i$ .
- Hipótesis: Las muestras limpias tienen un equilibrio espacial estructurado entre señales positivas y negativas. Las perturbaciones adversarias (ataques) tienden a dispersar o exagerar estas respuestas, distorsionando el equilibrio.

3. Contribuciones Clave

BiCAM: Un método de atribución bidireccional que genera explicaciones contrastivas (apoyo y supresión) en una sola pasada forward-backward, sin necesidad de reentrenamiento.
Estrategia de Agregación de Capas: Un enfoque principiado que se centra en las capas profundas del transformador donde reside la información semántica global, mejorando la eficiencia y la calidad de la explicación.
PNR para Detección de Adversarios: Una métrica ligera que utiliza la desviación en el equilibrio de atribuciones para detectar ejemplos adversarios (como PGD, C&W, MI-FGSM) sin modificar el modelo.
Generalización: El método se adapta fácilmente a variantes de ViT como DeiT y Swin con modificaciones mínimas.

4. Resultados Experimentales

Los autores evaluaron BiCAM en ImageNet, VOC y COCO, comparándolo con Attention Rollout, LRP-based CAM, AG-CAM y ViT-Shapley.

Localización (IoU, F1, Precisión, Recall):
- En ImageNet, BiCAM logró el mayor IoU (0.5419) y F1 (0.6624), superando a todos los baselines.
- En VOC y COCO, la versión de atribución positiva de BiCAM superó a los baselines en todas las métricas. La versión negativa (supresora) también mostró un rendimiento competitivo, capturando regiones semánticamente significativas en lugar de ruido aleatorio.
Fidelidad (Faithfulness):
- Evaluado mediante la eliminación de parches (MIF/LIF). BiCAM mostró la mayor fidelidad (mejor alineación entre la importancia de la atribución y el comportamiento del modelo), con puntuaciones significativamente superiores a los métodos existentes (p < 0.001).
Detección de Adversarios (PNR):
- El cambio en el PNR ( $\Delta PNR$ ) entre muestras limpias y atacadas permitió una detección efectiva.
- Logró un AUROC de 0.796 y un AUPR de 0.763 en promedio para múltiples tipos de ataques, demostrando ser una señal de detección ligera y efectiva.
Eficiencia Computacional:
- BiCAM es 8.4 veces más rápido que LRP (16 ms/imagen vs 134.6 ms/imagen) y no requiere almacenamiento de relevancia intermedia masiva ni tiempo de entrenamiento.

5. Significado e Impacto

Este trabajo es significativo porque:

Completa la interpretabilidad: Demuestra que ignorar las señales negativas (supresoras) limita la comprensión de cómo los ViT toman decisiones. Las explicaciones bidireccionales ofrecen una visión más rica y contrastiva (ej. explicar por qué se clasifica un elefante y no una cebra).
Seguridad y Robustez: Proporciona una herramienta novedosa y económica para la detección de ataques adversarios, basada en la estructura interna de las atribuciones del modelo.
Eficiencia: Ofrece un método de alto rendimiento que es computacionalmente eficiente y escalable, superando las limitaciones de métodos basados en Shapley o agregaciones recursivas complejas.

En conclusión, BiCAM establece que modelar tanto la evidencia de apoyo como la supresora es fundamental para la interpretabilidad de los modelos de visión basados en transformadores, abriendo nuevas vías para la IA confiable y la detección de anomalías.

What Helps---and What Hurts: Bidirectional Explanations for Vision Transformers

1. El Problema: Solo vemos la mitad de la historia

2. La Solución: BiCAM (El Detective de Dos Vías)

3. La Estrategia Inteligente: No todo el tiempo es igual

4. El Superpoder Extra: PNR (El Detector de Mentiras)

5. ¿Por qué es importante?

Resumen Técnico: BiCAM para Vision Transformers

1. El Problema

2. Metodología: BiCAM

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

ARC-AGI-3: A New Challenge for Frontier Agentic Intelligence

When Is Collective Intelligence a Lottery? Multi-Agent Scaling Laws for Memetic Drift in LLMs

AutoSAM: an Agentic Framework for Automating Input File Generation for the SAM Code with Multi-Modal Retrieval-Augmented Generation

Trust as Monitoring: Evolutionary Dynamics of User Trust and AI Developer Behaviour

Formal Semantics for Agentic Tool Protocols: A Process Calculus Approach