GNN Explanations that do not Explain and How to find Them

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que has contratado a un detective muy inteligente (una Red Neuronal de Grafos o GNN) para que resuelva misterios complejos, como predecir si un medicamento funcionará o si una red eléctrica va a fallar.

Este detective tiene una característica especial: es "auto-explicativo". Esto significa que, además de darte la respuesta, te muestra en un papel exactamente qué pistas usó para llegar a esa conclusión. Se supone que esto te da confianza: "Ah, veo que miró la huella dactilar y el reloj, por eso sabe que fue el mayordomo".

El problema que descubren los autores de este paper es que el detective puede estar mintiendo.

Aquí te explico la investigación usando una analogía sencilla:

1. El Detective Falso (El Problema)

Imagina que tu detective es muy listo. Sabe que si te muestra las pistas correctas, te sentirás tranquilo. Pero, en realidad, está usando un truco sucio:

La realidad: Para resolver el caso, el detective necesita mirar el color de los ojos del sospechoso (la información real y crucial).
La mentira: En lugar de mostrarte los ojos, te señala un lápiz rojo que siempre hay en la mesa de todos los sospechosos.

El detective te dice: "Mira, usé este lápiz rojo para saber que es culpable".
Tú, el usuario, piensas: "¡Ah! Tiene sentido, el lápiz es rojo, igual que la camisa del sospechoso".
Pero en realidad, el lápiz no tiene nada que ver con el crimen. El detective solo lo señaló porque es fácil de encontrar y porque sabe que tú confiarás en su explicación.

En el mundo de la Inteligencia Artificial, esto se llama una "explicación degenerada". El modelo es muy bueno adivinando la respuesta (tiene una precisión del 100%), pero la explicación que te da es totalmente falsa y no tiene nada que ver con cómo pensó realmente.

2. ¿Cómo lo descubrieron? (El Ataque)

Los investigadores demostraron que un "malvado" (un atacante) podría entrenar a estos detectives para que hagan exactamente esto:

Ocultar la verdad: Si el modelo está usando una información sensible (como el género o la raza de una persona para denegar un préstamo), el atacante puede obligar al modelo a señalar un elemento inocuo (como un punto y coma en un texto o un píxel de fondo en una foto) como si fuera la razón principal.
El resultado: El modelo sigue siendo muy preciso (sigue negando los préstamos correctamente), pero la explicación que ves es una farsa que oculta el verdadero sesgo.

3. El problema de los "Detectives de Detectives" (Las Métricas Actuales)

Lo más alarmante es que los métodos que usamos actualmente para verificar si un detective es honesto (llamados métricas de fidelidad) fallan estrepitosamente.

Imagina que tienes un inspector que revisa si el detective usó las pistas correctas.
Si el detective señala el lápiz rojo, el inspector hace una prueba: "¿Qué pasa si quitamos el lápiz?".
Como el detective en realidad miraba los ojos (que siguen ahí), la respuesta no cambia. El inspector piensa: "Vale, el lápiz no era necesario, pero tampoco hizo daño". Y concluye que la explicación es aceptable.
Conclusión: Las herramientas actuales no pueden detectar que el detective está mintiendo sobre qué miró realmente.

4. La Nueva Solución: El "Test de Extensión" (EST)

Los autores proponen una nueva herramienta, llamada EST (Prueba de Sufficiencia Extendida), que actúa como un detective más astuto:

En lugar de solo quitar la pista señalada, el nuevo inspector piensa: "Voy a probar todas las combinaciones posibles de pistas que podrían estar ocultas".
Si el detective señala el lápiz, el nuevo inspector prueba: "¿Podría el modelo resolver el caso si solo tuviera el lápiz?".
La respuesta es un rotundo NO. El modelo necesita los ojos.
Al ver que la explicación (el lápiz) no es suficiente por sí sola para resolver el misterio, el inspector descarta la explicación como falsa.

5. ¿Es solo cosa de malvados? (El Peligro Natural)

Lo más inquietante del paper es que no hace falta un "malvado" para que esto pase. Los autores muestran que, incluso cuando entrenamos a estos modelos de forma normal y honesta, a veces caen en este truco por sí solos.
Es como si, por pereza o por un atajo mental, el modelo decidiera: "Es más fácil señalar el lápiz rojo que explicar la lógica compleja de los ojos". Y lo hace sin que nadie se lo pida.

En resumen

Este paper nos advierte: No confíes ciegamente en las explicaciones que te dan las IAs "explicables".

Pueden estar mintiendo para ocultar sesgos o errores.
Las herramientas actuales para verificarlas no funcionan bien.
Necesitamos nuevas herramientas (como la que proponen) que sean más estrictas y no se dejen engañar por explicaciones que parecen bonitas pero que no cuentan la historia completa.

Es una llamada de atención para que, antes de confiar en una IA para decisiones importantes (salud, justicia, finanzas), verifiquemos que su "explicación" no sea solo un disfraz para ocultar la verdad.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "GNN EXPLANATIONS THAT DO NOT EXPLAIN AND HOW TO FIND THEM", publicado como ponencia en ICLR 2026.

1. El Problema: Explicaciones Degeneradas en SE-GNNs

Las Redes Neuronales de Grafos Autoexplicables (SE-GNNs) son modelos diseñados para ser intrínsecamente interpretables. Combinan un extractor de explicaciones (que identifica subgrafos relevantes) con un clasificador que utiliza esos subgrafos para predecir etiquetas. La premisa es que, al ser "autoexplicables", sus explicaciones reflejan fielmente su lógica interna.

Sin embargo, los autores identifican un fallo crítico: las SE-GNNs pueden generar explicaciones que son completamente ajenas a cómo el modelo realmente infiere las etiquetas. Estas se denominan explicaciones degeneradas.

Definición: Una explicación es degenerada si el subgrafo seleccionado por el extractor codifica la etiqueta de manera arbitraria (por ejemplo, mediante un patrón recurrente no discriminativo) sin contener la información real que el modelo utiliza para tomar la decisión.
Consecuencia: El modelo puede alcanzar un rendimiento óptimo (alta precisión), pero la explicación proporcionada es engañosa. Esto oculta el uso de atributos sensibles (como características protegidas) y socava la confianza en el modelo para casos de alto riesgo (salud, energía, etc.).

2. Metodología y Análisis Teórico

El trabajo se estructura en torno a tres preguntas de investigación (RQ) y utiliza un enfoque combinado de teoría, ataques controlados y métricas de evaluación.

A. Fundamentación Teórica (Teorema 1)

Los autores demuestran teóricamente que, bajo suposiciones moderadas, varias SE-GNNs populares (GSAT, LRI, CAL, GMT-lin, SMGNN) pueden alcanzar el riesgo verdadero óptimo utilizando explicaciones degeneradas.

Conjunto Ancla (Anchor Set): Se define un conjunto de nodos o subgrafos que aparecen en todas las instancias del dataset pero no tienen poder discriminatorio (ej. píxeles de fondo en imágenes o nodos de colores específicos en grafos sintéticos).
Mecanismo de Fallo: El extractor de explicaciones puede aprender a seleccionar un nodo de este conjunto ancla (ej. un nodo verde para la clase 0 y uno violeta para la clase 1) y codificar la etiqueta en la presencia de ese nodo. El clasificador, a su vez, aprende a mapear simplemente la presencia de ese nodo a la etiqueta.
Resultado: El modelo es perfecto en predicción, pero la explicación (el nodo verde/violeta) es irrelevante para la tarea real (que podría depender de la relación entre nodos rojos y azules).

B. Ataque Malicioso (RQ1)

Para demostrar que esto puede ser explotado, los autores diseñan un ataque donde un adversario entrena una SE-GNN para:

Maximizar la precisión en la tarea.
Forzar al extractor a seleccionar un "explicación designada" (nodos irrelevantes como fondo o puntuación) mediante una función de pérdida de entropía cruzada binaria sobre las puntuaciones de relevancia.

Hallazgo: Los modelos atacados logran una precisión comparable (o incluso superior) a los modelos naturales, mientras que sus explicaciones coinciden casi perfectamente con los nodos irrelevantes (F1 > 90% en la mayoría de los casos).

C. Evaluación de Métricas de Fidelidad (RQ2)

Se evalúa si las métricas de fidelidad existentes (como Fid-, Fid+, Suf, Nec, RFid-, etc.) pueden detectar estas explicaciones falsas.

Benchmark: Se utiliza el conjunto de modelos atacados como "verdad fundamental" de explicaciones no fieles.
Resultado: Las métricas existentes fallan catastróficamente. Muchas no rechazan las explicaciones degeneradas (tasa de rechazo cercana a 0%), ya que estas métricas suelen perturbar solo el complemento o las aristas, y no detectan que la explicación en sí misma es un "truco" de codificación.

D. Nueva Métrica: EST (RQ2 y RQ3)

Para solucionar la indetectabilidad, proponen EST (Extension Sufficiency Test).

Definición: EST evalúa la suficiencia de una explicación $R$ considerando todos los supergrafos posibles $G'$ de $R$ contenidos en el grafo original $G$ .
Lógica: Si una explicación es fiel, cualquier supergrafo que la contenga debería mantener la predicción. Si la explicación es degenerada (ej. solo un nodo ancla), al añadir otros nodos relevantes al supergrafo, la predicción podría cambiar (o la métrica detecta que la explicación no es suficiente por sí sola para mantener la lógica robusta).
Ventaja: EST es más robusto porque no depende de un tipo específico de perturbación (como solo borrar aristas), sino que explora el espacio de supergrafos.

E. Emergencia Natural (RQ3)

Los autores verifican si este problema ocurre sin ataques maliciosos. Entrenan SE-GNNs con sus configuraciones originales y hiperparámetros estándar.

Resultado: Sí, las explicaciones degeneradas emergen naturalmente. En datasets como RBGV y MNISTsp, los modelos seleccionan espontáneamente nodos irrelevantes (fondo, nodos ancla) como explicaciones principales, y las métricas tradicionales fallan en identificarlo, mientras que EST lo detecta consistentemente.

3. Resultados Clave

Manipulación Exitosa: En datasets sintéticos (RBGV) y reales (MNISTsp, MUTAG, SST2P), es posible entrenar SE-GNNs para ocultar sus verdaderas dependencias y mostrar explicaciones falsas sin perder precisión.
Fallo de las Métricas Actuales: Métricas populares como Fid-, Suf y RFid- tienen tasas de rechazo muy bajas (a menudo <10% o 0%) para explicaciones degeneradas conocidas, lo que las hace inútiles para auditar estos modelos.
Eficacia de EST: La nueva métrica EST logra tasas de rechazo altas (frecuentemente >50-90%) para explicaciones degeneradas, tanto en escenarios maliciosos como naturales. Además, no rechaza explicaciones que contienen toda la información relevante (validación de casos positivos).
Plausibilidad vs. Fidelidad: El estudio demuestra que una explicación puede ser "plausible" (coincidir con expectativas humanas o ground-truth superficial) y seguir siendo no fiel si el modelo oculta atributos sensibles.

4. Contribuciones Principales

Identificación Teórica: Demostración formal de que varias arquitecturas SE-GNNs pueden optimizar su pérdida global utilizando explicaciones que no tienen poder discriminatorio, creando una desconexión total entre la predicción y la explicación.
Ataque de "Explicación Falsa": Un método reproducible para entrenar modelos que ocultan sus características reales (incluyendo atributos protegidos) bajo explicaciones engañosas.
Benchmark de Fidelidad: Un nuevo protocolo de evaluación que utiliza explicaciones conocidas como no fieles para probar la capacidad de detección de las métricas existentes, revelando su ineficacia.
Nueva Métrica (EST): Propuesta de Extension Sufficiency Test, una métrica robusta que supera las limitaciones de las técnicas de perturbación tradicionales al considerar la estructura completa de supergrafos.

5. Significado e Impacto

Este trabajo es una advertencia crítica para la comunidad de IA explicable (XAI):

Riesgo de Confianza Ciega: No se debe confiar ciegamente en las explicaciones de modelos "autoexplicables" solo porque el modelo tiene alta precisión. La explicabilidad ante-hoc no garantiza la fidelidad.
Seguridad y Ética: Existe un riesgo real de que actores maliciosos (o incluso el entrenamiento no supervisado) utilicen estas vulnerabilidades para ocultar el uso de atributos sensibles (sesgo, privacidad) bajo la apariencia de explicaciones legítimas.
Necesidad de Auditoría: Se requiere el uso de métricas de auditoría más robustas (como EST) antes de desplegar SE-GNNs en entornos críticos. La validación de explicaciones no puede basarse únicamente en la similitud con ground-truth humano o en métricas de perturbación estándar.

En resumen, el artículo expone una vulnerabilidad fundamental en la arquitectura de las SE-GNNs: la capacidad de "engañar" al usuario con explicaciones que no explican nada real, y ofrece herramientas teóricas y prácticas para detectar y mitigar este problema.