Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un oráculo mágico (una Inteligencia Artificial) que te dice si un champiñón es venenoso o si tienes riesgo de sufrir un infarto. Como es una "caja negra", no sabes por qué tomó esa decisión.

Aquí es donde entran las explicaciones contrafactuales. Son como respuestas a la pregunta: "¿Qué tendría que cambiar en mi vida para que el oráculo me diera un resultado diferente?"

Ejemplo: "Si hubieras comido menos grasas y caminado 30 minutos más, el oráculo habría dicho que estás sano".

El problema es: ¿Cómo sabemos si estas explicaciones son buenas?

El Gran Conflicto: La Regla del Matemático vs. La Opinión del Humano

Los científicos de la IA tienen dos formas de medir la calidad de estas explicaciones:

La Regla del Matemático (Métricas Automáticas): Usan fórmulas frías para medir cosas como: "¿Cambiamos pocos detalles?" (Esparsidad) o "¿La nueva situación es muy parecida a la original?" (Proximidad). Es como medir un coche solo por el peso de sus piezas y el consumo de gasolina.
La Opinión del Humano (Juicio de Usuario): Preguntamos a personas reales: "¿Entendiste esto? ¿Te pareció lógico? ¿Te sentiste satisfecho?". Es como preguntar a un conductor si el coche se siente cómodo y seguro.

El Experimento: ¿Coinciden las dos visiones?

Los autores de este estudio (Felix y su equipo) decidieron poner a prueba esta relación. Imagina que son detectives que quieren saber si las reglas del matemático realmente predicen lo que piensa la gente.

Lo que hicieron:

Los Ingredientes: Usaron tres escenarios reales: identificar champiñones venenosos, predecir niveles de obesidad y diagnosticar enfermedades del corazón.
La Receta: Generaron miles de explicaciones contrafactuales usando un robot.
El Panel de Sabores: Invitaron a 167 personas (gente normal, no expertos) a probar estas explicaciones. Les preguntaron: "¿Es esto fácil de entender? ¿Es creíble? ¿Te hace sentir bien?".
La Prueba de Fuego: Compararon las puntuaciones de las personas con las puntuaciones de las fórmulas matemáticas.

Los Resultados: ¡Una Desconexión Total!

Aquí viene la parte sorprendente, y es como si el chef (la IA) creara un plato que, según sus medidas de temperatura y peso, es perfecto, pero a los comensales (los humanos) les sabe a cartón.

Las reglas no predicen el gusto: Las fórmulas matemáticas que los científicos usan para decir "¡Esta explicación es excelente!" casi nunca coinciden con lo que la gente dice.
- Analogía: Es como si un crítico de cine dijera que una película es un 10/10 porque tiene 120 minutos de duración y 300 efectos especiales, pero al público le pareció aburrida y confusa.
Cada mundo es diferente: Lo que funciona para los champiñones no funciona para el corazón.
- En el caso de los champiñones, a la gente le gustaban explicaciones con pocos cambios.
- En el caso de la obesidad, a la gente le gustaban explicaciones más detalladas y diversas.
- En el caso del corazón, las fórmulas matemáticas no tenían ninguna relación con lo que la gente pensaba.
Más no es mejor: Los investigadores pensaron: "¡Quizás si juntamos muchas fórmulas matemáticas juntas, obtendremos una predicción perfecta!".
- Analogía: Es como intentar adivinar el clima mirando la temperatura, la presión, la humedad, el viento, la luna y el color de los zapatos del meteorólogo.
- Resultado: Añadir más fórmulas no ayudó. De hecho, empeoró las cosas. Las fórmulas actuales no capturan lo que realmente importa para los humanos.

La Conclusión: ¿Qué nos dice esto?

El estudio nos da una alarma de construcción:

Actualmente, estamos construyendo sistemas de IA confiables usando reglas de ingeniería (métricas automáticas) que no tienen nada que ver con la experiencia humana.

El problema: Creemos que si una explicación es "matemáticamente eficiente", entonces es "buena para el usuario". El estudio dice: No, no es así.
La solución necesaria: Necesitamos dejar de medir la calidad de las explicaciones solo con calculadoras. Necesitamos diseñar nuevas reglas que estén basadas en cómo piensan y sienten las personas.

En resumen:
Imagina que estás diseñando un puente. Si solo midieras la resistencia del acero con una fórmula, pero nunca le preguntaras a los peatones si se sienten seguros cruzándolo, podrías construir un puente que se caiga en cuanto alguien lo pise. Este estudio nos dice que, en la Inteligencia Artificial, hemos estado construyendo puentes solo con fórmulas, y es hora de empezar a escuchar a los peatones.

Each language version is independently generated for its own context, not a direct translation.

Aquí presento un resumen técnico detallado del artículo "Do Metrics for Counterfactual Explanations Align with User Perception?" (¿Se alinean las métricas para explicaciones contrafactuales con la percepción del usuario?), estructurado según los puntos solicitados.

1. Planteamiento del Problema

La Inteligencia Artificial Explicable (XAI) es fundamental para generar confianza en los sistemas de aprendizaje automático. Las explicaciones contrafactuales (CF) son un método prominente que describe cómo cambiaría una predicción si se modificaran mínimamente las características de entrada.

El problema central identificado por los autores es la desconexión entre la evaluación automatizada y la percepción humana:

La mayoría de las evaluaciones de CF se basan en métricas algorítmicas (como esparsidad, proximidad, diversidad) que se calculan computacionalmente sin intervención humana.
Estas métricas se utilizan como proxies (sustitutos) de la calidad de la explicación, asumiendo implícitamente que reflejan lo que los usuarios consideran útil, confiable o comprensible.
Sin embargo, existe poca evidencia empírica que valide si estas métricas automatizadas realmente se correlacionan con los juicios humanos. Estudios previos en otros dominios de XAI sugieren que las métricas automatizadas a menudo fallan en capturar la percepción humana.

2. Metodología

Los autores realizaron un estudio empírico controlado para comparar métricas automatizadas con juicios humanos.

Datos y Modelos:
- Se utilizaron tres conjuntos de datos tabulares del repositorio UCI: Mushroom (MUS), Niveles de Obesidad (OBE) y Enfermedad Cardíaca (HRT).
- Se entrenaron modelos XGBoost para cada dataset.
- Se generaron explicaciones contrafactuales utilizando el método Counterfactuals Guided by Prototypes (implementado en la librería Alibi Explain).
- Se seleccionó una muestra de 85 CFs (30 MUS, 30 OBE, 25 HRT) mediante un muestreo por conglomerados (cluster-preserving sampling) basado en siete métricas automatizadas para asegurar diversidad.
Estudio con Usuarios:
- Participantes: 167 participantes reclutados vía Prolific.
- Tarea: Los usuarios evaluaron las explicaciones en una escala Likert de 4 puntos.
- Dimensiones de Evaluación: Se midieron cinco dimensiones de calidad percibida:
  1. Precisión percibida.
  2. Comprensibilidad.
  3. Plausibilidad.
  4. Suficiencia de detalle.
  5. Satisfacción del usuario.
- Se calculó una Puntuación de Calidad Combinada (CQS) promediando las cinco dimensiones.
Métricas Automatizadas Analizadas:
Se computaron siete métricas estándar para cada CF:
1. Esparsidad: Número de características modificadas.
2. Proximidad: Distancia en el espacio de características ( $L_1$ ) entre la instancia original y el CF.
3. Cercanía (Closeness): Distancia a los vecinos más cercanos en los datos de entrenamiento (adherencia a la variedad de datos).
4. Diversidad: Heterogeneidad de las características modificadas.
5. Puntuación Oráculo: Acuerdo entre dos modelos independientes sobre la clase objetivo.
6. Puntuación de Confianza (Trust Score): Distancia relativa a la clase predicha frente a otras clases.
7. Completitud: Cuánta importancia de las características (SHAP) se captura en las características modificadas.
Análisis Estadístico:
- Correlación: Se calcularon correlaciones de Pearson entre cada métrica y las puntuaciones humanas.
- Modelado Predictivo: Se realizó un análisis exhaustivo de subconjuntos (todas las combinaciones posibles de las 7 métricas) utilizando modelos de aprendizaje supervisado (Regresión Lineal, k-NN, Random Forest, XGBoost, GAMs) para predecir las puntuaciones humanas. Se evaluó el rendimiento mediante $R^2$ con validación cruzada de 5 pliegues.

3. Contribuciones Clave

Estudio Controlado: Ejecución de un estudio de usuarios que evalúa CFs en múltiples dimensiones de calidad a través de tres datasets diversos.
Evaluación Exhaustiva: Cálculo y comparación de un conjunto amplio de métricas automatizadas estándar contra las calificaciones humanas.
Análisis de Combinaciones: Investigación de si la combinación de múltiples métricas mejora la predicción de los juicios humanos, demostrando que aumentar la complejidad no necesariamente ayuda.
Evidencia de Desalineación: Proporcionan evidencia empírica sólida de que las métricas actuales no son sustitutos fiables de la evaluación humana, abogando por enfoques más centrados en el ser humano.

4. Resultados Principales

Correlaciones Débiles y Dependientes del Dataset:
- En general, las correlaciones entre las métricas automatizadas y las calificaciones humanas son débiles ( $|r| < 0.1$ en la mayoría de los casos).
- La única excepción significativa fue la Trust Score al agregar todos los datos ( $r = 0.307$ ), pero esto no se mantuvo consistente.
- Variabilidad por Dataset:
  - En MUS (binario), métricas como esparsidad y proximidad mostraron correlaciones negativas moderadas/fortes con la satisfacción (los usuarios preferían menos cambios).
  - En OBE (multiclase), métricas como diversidad y completitud mostraron correlaciones positivas (los usuarios preferían explicaciones más ricas).
  - En HRT, las correlaciones fueron uniformemente débiles y no significativas.
- Esto indica que no existe una métrica universal; la relación es altamente específica del dominio.
Fallo en el Modelado Predictivo:
- Modelos Lineales: La regresión lineal falló consistentemente, produciendo valores $R^2$ fuertemente negativos (media $\approx -1.25$ ), lo que indica que las combinaciones lineales de métricas no explican la varianza en las calificaciones humanas.
- Modelos No Lineales: Aunque modelos como Random Forest (RF) mostraron un rendimiento ligeramente mejor (algunos $R^2$ positivos, máximo $\approx 0.33$ ), el poder predictivo global sigue siendo muy bajo.
- Efecto de la Complejidad: Aumentar el número de métricas en el modelo no mejora el rendimiento predictivo; de hecho, después de 3-4 métricas, el rendimiento tiende a degradarse debido al ruido añadido.

5. Significado e Implicaciones

Ruptura de Paradigma: Los resultados desafían la práctica común de utilizar métricas automatizadas como sustitutos fiables de la evaluación humana en XAI. Las métricas actuales miden propiedades computacionales (como la distancia o la minimalidad) que no se traducen directamente en lo que los humanos valoran (como la confianza o la satisfacción).
Limitación Estructural: Existe una "brecha estructural" entre lo que las métricas cuantifican y la percepción humana. Las métricas actuales no capturan los factores psicológicos y contextuales que influyen en la calidad percibida de una explicación.
Llamado a la Acción: El artículo concluye que es necesario desarrollar nuevas métricas centradas en el ser humano, validadas directamente contra la percepción del usuario, en lugar de depender de optimizaciones computacionales puras.
Futuro: Se sugiere que la investigación futura debe enfocarse en teorías cognitivas para diseñar métricas que realmente reflejen la experiencia del usuario y considerar factores como la "accionabilidad" de las explicaciones, que actualmente no están bien representadas.

En resumen, el estudio demuestra que las métricas estándar para explicaciones contrafactuales fallan en reflejar la calidad percibida por los usuarios, y que agregar más métricas no resuelve este problema, subrayando la necesidad urgente de redefinir cómo evaluamos la explicabilidad en IA.

Do Metrics for Counterfactual Explanations Align with User Perception?

El Gran Conflicto: La Regla del Matemático vs. La Opinión del Humano

El Experimento: ¿Coinciden las dos visiones?

Los Resultados: ¡Una Desconexión Total!

La Conclusión: ¿Qué nos dice esto?

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers