Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

🍄 Le Dilemme du Champignon et de l'Obésité : Une Enquête sur la Confiance

Imaginez que vous êtes un chef cuisinier (l'Intelligence Artificielle) qui doit décider si un champignon est comestible ou non. Vous ne donnez pas juste un "Oui" ou "Non". Vous donnez une explication contrefactuelle : "Si ce champignon avait une couleur rouge au lieu de brune, et une odeur de poisson au lieu de neutre, alors il serait comestible." C'est ce qu'on appelle une explication "contrefactuelle" : elle vous dit comment changer la réalité pour obtenir un résultat différent.

Le problème, c'est que les chercheurs en IA ont créé des règlements de qualité (des métriques) pour mesurer si ces explications sont bonnes. Ils utilisent des formules mathématiques pour dire : "Cette explication est excellente car elle ne change que deux choses (c'est 'sparse') et elle est très proche de la réalité (c'est 'proche')."

La grande question de l'article est la suivante :
Est-ce que ces règles mathématiques froides correspondent vraiment à ce que les humains trouvent utile, clair et rassurant ? Ou est-ce que les chercheurs parlent une langue que les gens ne comprennent pas ?

🔍 L'Expérience : Le Test du Goût

Pour répondre à cette question, les auteurs ont organisé un grand "concours de dégustation" :

Les Ingrédients (Les Données) : Ils ont pris trois jeux de données réels : des champignons (comestible ou toxique), des niveaux d'obésité (basé sur l'alimentation) et des risques de maladies cardiaques.
Le Menu (Les Explications) : Ils ont généré des centaines d'explications pour ces cas.
Les Dégustateurs (Les Humains) : Ils ont demandé à 167 personnes de noter ces explications sur une échelle de 1 à 4. Les critères étaient simples :
- Est-ce que c'est compréhensible ?
- Est-ce que c'est plausible (réaliste) ?
- Est-ce que c'est satisfaisant ?
- Est-ce que c'est précis ?

Ensuite, ils ont comparé les notes des humains avec les scores calculés par les ordinateurs (les métriques automatiques).

🚫 La Révélation : Deux Mondes qui ne se rencontrent pas

Le résultat est surprenant et un peu décevant pour les ingénieurs : Les métriques automatiques et les jugements humains ne sont presque pas liés.

Voici l'analogie pour comprendre :

Imaginez que vous essayez de prédire si un film va plaire au public.

Les métriques automatiques sont comme un critique de cinéma qui regarde uniquement la durée du film et le nombre de décors. Il dit : "Ce film est parfait car il dure 90 minutes et a 3 décors !"
Les humains, eux, regardent l'histoire, les émotions et l'acting.

Dans cette étude, les chercheurs ont découvert que :

Parfois, les humains aiment les explications qui changent beaucoup de détails, alors que les maths disent qu'il faut en changer peu.
Parfois, les humains trouvent une explication plausible même si elle est mathématiquement loin des données habituelles.
Le pire : Ajouter plus de règles mathématiques ne aide pas. C'est comme si vous essayiez de prédire le succès d'un film en ajoutant de plus en plus de critères (durée, nombre de costumes, luminosité, nombre de scènes d'action). Plus vous ajoutez de critères mathématiques, moins vous arrivez à prédire si les gens vont aimer le film. Au contraire, cela devient du bruit.

🌍 Pourquoi ça change selon le contexte ?

L'étude montre aussi que ce qui plaît aux gens dépend du sujet, comme un plat qui plaît aux enfants mais pas aux adultes :

Pour les champignons, les gens voulaient des explications simples et courtes (peu de changements).
Pour l'obésité, les gens voulaient des explications riches et détaillées (beaucoup de changements, plus d'informations).
Pour le cœur, aucune règle mathématique ne semblait correspondre à ce que les gens pensaient.

Cela signifie qu'il n'existe pas de "règle universelle" pour mesurer la qualité d'une explication. Ce qui est "bon" pour un algorithme peut être "nul" pour un humain, et vice-versa.

💡 La Conclusion : Il faut écouter les humains

En résumé, cette recherche nous dit que nous ne pouvons pas faire confiance aux seuls chiffres pour évaluer si une IA est "explicable".

Le problème : Les chercheurs utilisent des outils de mesure (comme une règle en centimètres) pour évaluer quelque chose de très humain (la confiance et la compréhension), un peu comme essayer de mesurer la beauté d'une peinture avec une balance.
La leçon : Si nous voulons que l'IA soit vraiment fiable et utile, nous devons arrêter de nous fier uniquement aux métriques automatiques. Nous devons développer de nouvelles façons d'évaluer l'IA qui soient centrées sur l'humain, en demandant directement aux gens ce qu'ils pensent, plutôt que de supposer que les maths savent mieux qu'eux.

En une phrase : Les règles des robots pour juger les explications de l'IA ne correspondent pas à ce que les humains ressentent vraiment ; il est temps de redonner la parole aux humains pour définir ce qu'est une "bonne" explication.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'explicabilité (XAI) est considérée comme cruciale pour la confiance dans les systèmes d'intelligence artificielle. Les explications contrefactuelles (CF) sont devenues une méthode dominante pour expliquer les prédictions des modèles en décrivant les modifications minimales nécessaires à une entrée pour changer le résultat.

Cependant, l'évaluation de la qualité de ces explications repose principalement sur des métriques algorithmiques (calculables sans intervention humaine), telles que la parcimonie (sparsity), la proximité (proximity) ou la diversité. Bien que ces métriques soient utilisées comme substituts (proxies) de la qualité perçue, il existe un manque de validation empirique démontrant qu'elles reflètent réellement les jugements humains. La question centrale de cet article est : Les métriques automatisées couramment utilisées pour évaluer les CF correspondent-elles aux perceptions et aux préférences des utilisateurs humains ?

2. Méthodologie

Les auteurs ont mené une étude empirique rigoureuse combinant une étude utilisateur contrôlée et une analyse quantitative des métriques.

A. Données et Génération de CF

Ensembles de données : Trois jeux de données tabulaires issus du dépôt UCI ont été sélectionnés pour leur diversité et leur accessibilité :
1. Mushroom (MUS) : Classification binaire (comestible vs toxique).
2. Obesity Levels (OBE) : Classification multi-classes (niveaux d'obésité).
3. Heart Disease (HRT) : Classification binaire (présence de maladie cardiaque).
Modèle de base : Un classifieur XGBoost a été entraîné sur chaque jeu de données.
Génération des CF : La méthode Counterfactuals Guided by Prototypes (implémentée dans la bibliothèque Alibi Explain) a été utilisée pour générer des explications valides (c'est-à-dire des instances qui changent la prédiction du modèle).
Échantillonnage : Une stratégie d'échantillonnage par clustering (k-means) basée sur sept métriques automatisées a été appliquée pour sélectionner un sous-ensemble diversifié de 85 CF (30 pour MUS, 30 pour OBE, 25 pour HRT).

B. Étude Utilisateur

Participants : 167 participants recrutés via Prolific.
Procédure : Les participants ont évalué les CF sur une échelle de Likert à 4 points selon cinq dimensions :
1. Précision perçue (Perceived Accuracy).
2. Compréhensibilité (Understandability).
3. Plausibilité (Plausibility).
4. Suffisance des détails (Sufficiency of Detail).
5. Satisfaction utilisateur (User Satisfaction).
Agrégation : Ces cinq dimensions ont été combinées en un Score de Qualité Combiné (CQS) après avoir vérifié une forte cohérence interne (Cronbach's α = 0,88) et une unidimensionnalité.

C. Métriques Automatisées

Sept métriques standard ont été calculées pour chaque CF :

Sparsity : Nombre de caractéristiques modifiées.
Proximity : Distance ( $\ell_1$ ) entre l'instance originale et la CF.
Closeness : Distance moyenne aux $k$ plus proches voisins dans les données d'entraînement (adhérence à la variété des données).
Diversity : Hétérogénéité des caractéristiques modifiées (basée sur l'information mutuelle normalisée).
Oracle Score : Accord entre deux modèles indépendants sur la classe cible.
Trust Score : Mesure de la fiabilité de la prédiction (distance relative aux classes).
Completeness : Part de l'importance des caractéristiques (SHAP) capturée par les modifications de la CF.

D. Analyse Statistique

Corrélations : Calcul des corrélations de Pearson entre chaque métrique et les notes humaines (dimensions individuelles et CQS).
Modélisation Prédictive : Analyse de puissance exhaustive sur tous les sous-ensembles non vides des 7 métriques ( $2^7 - 1 = 127$ combinaisons). Cinq classes de modèles (Régression Linéaire, kNN, Random Forest, XGBoost, GAM) ont été entraînées pour prédire les notes humaines, évaluées via la $R^2$ en validation croisée 5-fold.

3. Contributions Clés

Étude utilisateur contrôlée : Évaluation systématique des CF sur trois jeux de données variés selon cinq dimensions de qualité perçue.
Comparaison exhaustive : Mise en relation directe d'un large éventail de métriques automatisées avec les jugements humains.
Analyse de combinaison : Investigation de la capacité des combinaisons de métriques (linéaires et non linéaires) à prédire la perception humaine.
Preuve de décalage structurel : Démonstration que l'ajout de métriques ne corrige pas le manque d'alignement, suggérant une limite fondamentale des métriques actuelles.

4. Résultats Principaux

A. Faiblesse des Corrélations Individuelles

Les corrélations entre les métriques automatisées et les notes humaines sont généralement faibles et fortement dépendantes du jeu de données.
MUS : Des corrélations négatives modérées à fortes ont été observées (ex: la parcimonie négativement corrélée à la satisfaction), suggérant que les utilisateurs préfèrent des changements plus importants dans ce contexte.
OBE : Des corrélations positives ont été trouvées pour la diversité, le Trust Score et la complétude, indiquant une préférence pour des explications riches en informations.
HRT : Aucune corrélation cohérente ou significative n'a été trouvée.
Conclusion : Aucune métrique unique ne sert de proxy fiable pour la qualité perçue à travers différents domaines.

B. Échec de la Modélisation Prédictive

Régression Linéaire : Les modèles linéaires ont échoué systématiquement, produisant des $R^2$ fortement négatifs (moyenne $\approx -1,25$ ), indiquant que les combinaisons linéaires de métriques n'expliquent pas la variance des jugements humains.
Modèles Non Linéaires : Les modèles plus complexes (Random Forest, XGBoost) ont montré des améliorations marginales mais restent globalement médiocres.
- Le meilleur modèle (Random Forest) a atteint un $R^2$ moyen de seulement 0,067.
- Même les meilleures combinaisons n'expliquent qu'une fraction infime de la variance (max $R^2 \approx 0,33$ pour 3 métriques).
Effet de la complexité : L'augmentation du nombre de métriques au-delà de 3 ou 4 entraîne une dégradation des performances prédictives, suggérant que les métriques supplémentaires ajoutent du bruit plutôt que de l'information complémentaire pertinente pour l'humain.

5. Signification et Conclusion

Les résultats de cette étude remettent en cause la pratique courante consistant à utiliser des métriques algorithmiques comme substituts fiables à l'évaluation humaine dans le domaine des explications contrefactuelles.

Décalage Structurel : Il existe un décalage fondamental entre ce que les métriques actuelles quantifient (propriétés computationnelles comme la distance ou la parcimonie) et ce que les utilisateurs perçoivent comme une explication de qualité (qui dépend du contexte, de la tâche et de la psychologie de l'utilisateur).
Limites des Métriques Existantes : L'ajout de métriques ne résout pas le problème ; les métriques actuelles ne capturent pas les critères pertinents pour les humains.
Implications Futures : L'article plaide pour le développement de nouvelles approches d'évaluation centrées sur l'humain, potentiellement basées sur la théorie psychologique et validées directement par la perception utilisateur, plutôt que sur des optimisations computationnelles.

En résumé, les métriques automatisées actuelles pour les explications contrefactuelles échouent à refléter les aspects clés de la qualité des explications tels que perçus par les utilisateurs, soulignant la nécessité urgente de réviser les paradigmes d'évaluation en XAI.