Counterfactual Explanations on Robust Perceptual Geodesics

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'expliquer à un ami pourquoi une intelligence artificielle (IA) a classé une photo de votre chat comme étant un chien. Vous voulez lui montrer : « Si j'avais changé ceci (les oreilles) et cela (la couleur), l'IA aurait vu un chien. » C'est ce qu'on appelle une explication contrefactuelle.

Le problème, c'est que les méthodes actuelles pour trouver ces changements sont souvent comme un enfant qui joue avec de la pâte à modeler : il arrache des morceaux au hasard, créant des monstres bizarres qui ressemblent à des chats et des chiens en même temps, mais qui n'existent pas dans la réalité.

Voici l'explication simple de la nouvelle méthode proposée dans ce papier, appelée PCG (Géodésiques Contrefactuelles Perceptuelles).

1. Le Problème : La Carte Triste vs. Le Territoire Réel

Imaginez que l'espace où l'IA "vit" (ses données) est un immense territoire.

Les anciennes méthodes utilisent une carte plate et rigide (comme une grille de papier millimétré). Si elles essaient de tracer une ligne droite entre un chat et un chien sur cette carte, elles traversent souvent des zones dangereuses : des marécages de "fantômes" (des images floues, déformées, qui ressemblent à du bruit) ou des pièges (des images qui trompent l'IA mais qui sont physiquement impossibles).
Le résultat : L'IA vous dit "Voici la différence", mais l'image obtenue est une horreur visuelle ou un piège pour l'IA.

2. La Solution de PCG : Le Chemin de la Montagne

Les auteurs de ce papier disent : « Arrêtons de marcher à travers les champs en ligne droite. Suivons plutôt les sentiers de montagne qui existent vraiment. »

Ils utilisent deux idées clés :

A. La "Boussole Robuste" (La Métrique)

Imaginez que vous avez une boussole spéciale. Les boussoles normales (les anciennes méthodes) sont trompées par les petits détails qui ne signifient rien (comme un grain de poussière sur la photo).
La boussole robuste de PCG est entraînée à ignorer le bruit. Elle ne regarde que ce qui a du sens pour un humain : la forme des oreilles, la texture de la fourrure, la structure du visage. Elle sait exactement ce qui constitue un "vrai" changement de chat à chien.

B. Le Chemin le plus Court et le plus Doux (La Géodésique)

Au lieu de sauter d'un point A à un point B, PCG trace un chemin continu (une géodésique) qui reste toujours sur le "sol" de la réalité.

L'analogie : Imaginez que vous devez aller d'un point à un autre sur une montagne.
- Les anciennes méthodes coupent à travers les falaises (ce qui est impossible).
- PCG suit le sentier de randonnée qui serpente doucement le long de la montagne. À chaque pas, le paysage change un tout petit peu, mais il reste toujours un paysage réaliste. On ne voit jamais un chat qui se transforme soudainement en un monstre à trois têtes.

3. Comment ça marche en pratique ? (Les Deux Phases)

Le processus se déroule en deux étapes, comme sculpter une statue :

Phase 1 : Le Squelette (Le Chemin)
L'ordinateur trace d'abord le chemin le plus "naturel" possible entre le chat original et un chien de référence, en utilisant sa boussole robuste. Il s'assure que chaque étape intermédiaire ressemble à quelque chose de plausible. C'est comme tracer la route sur une carte avant de partir.
Phase 2 : Le Polissage (L'Arrivée)
Maintenant, l'ordinateur ajuste ce chemin pour s'assurer qu'à la fin, l'IA reconnaît bien le chien. Mais il le fait sans casser le chemin. Il "pousse" doucement le point d'arrivée vers le chat original, tout en restant sur le sentier sûr.
- Résultat : Vous obtenez une image de chat qui a juste assez changé pour devenir un chien, mais qui ressemble encore beaucoup à votre chat original, sans aucun artefact bizarre.

Pourquoi c'est important ?

Avant, si vous demandiez à une IA "Comment transformer ce chat en chien ?", elle vous donnait souvent une image floue ou un piège (un adversaire) qui trompait l'IA mais qui ne voulait rien dire pour un humain.

Avec PCG :

C'est réaliste : Les images changent doucement, comme dans un film d'animation de haute qualité.
C'est honnête : Cela montre vraiment quelles caractéristiques (oreilles, museau) ont changé, et non pas du bruit aléatoire.
C'est sûr : On évite les zones dangereuses où l'IA pourrait se tromper à cause de petits détails invisibles.

En résumé

Ce papier propose une nouvelle façon de naviguer dans l'espace des images pour l'IA. Au lieu de sauter aveuglément à travers des champs de mines (les anciennes méthodes), PCG utilise une boussole intelligente pour marcher sur un sentier sinueux et sûr. Le résultat ? Des explications claires, belles et qui ont du sens pour nous, les humains.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les méthodes d'explications contrefactuelles (CE) visent à identifier les modifications minimales et sémantiquement significatives à apporter à une entrée (ex: une image) pour changer la prédiction d'un modèle d'apprentissage profond. Bien que prometteuses, les approches existantes basées sur l'optimisation dans l'espace latent de modèles génératifs souffrent de trois limitations majeures dans le domaine de la vision par ordinateur :

Ambiguïté Métrique : L'objectif classique (Wachter et al.) repose sur une métrique de distance. Le choix de cette métrique (souvent $\ell_2$ en espace pixel ou des métriques basées sur des classificateurs standards) est ambigu : elle peut favoriser des perturbations adverses imperceptibles plutôt que des changements sémantiques réels.
Géométrie Plate et Non Alignée : La plupart des méthodes supposent une géométrie euclidienne plate dans l'espace latent ou utilisent des métriques qui ne capturent pas la courbure intrinsèque de la variété de données (data manifold). Cela conduit à des trajectoires qui sortent de la variété (off-manifold), créant des artefacts visuels ou des exemples adverses.
Vulnérabilité aux Perturbations Adverses : Même les méthodes qui tentent de respecter la géométrie de la variété (comme RSGD) utilisent souvent des métriques dérivées de modèles non robustes. Ces métriques héritent des vulnérabilités adverses, permettant aux optimisations de glisser vers des régions "adverses" sur la variété (on-manifold AEs) qui trompent le modèle mais ne sont pas sémantiquement valides pour un humain.

Le papier identifie que la distinction fondamentale entre une explication contrefactuelle valide et un exemple adversaire réside dans le fait que les CE doivent traverser des régions robustes et sémantiquement cohérentes, ce que les métriques standards échouent à garantir.

2. Méthodologie : Perceptual Counterfactual Geodesics (PCG)

Les auteurs proposent PCG, une méthode qui reformule la génération de contrefactuels comme une optimisation globale de trajectoires lisses sur une variété de Riemannian, équipée d'une métrique perceptuelle robuste.

A. Métrique Riemannienne Robuste

Au lieu d'utiliser la métrique euclidienne standard ou des métriques basées sur des classificateurs fragiles, PCG induit une métrique sur l'espace latent à partir des caractéristiques (features) de modèles de vision robustes (entraînés contre des attaques adverses).

Construction : La métrique ambiante robuste $G_R(x)$ est définie comme une somme pondérée des Jacobiens des activations intermédiaires d'un modèle robuste pré-entraîné (ex: ResNet-50 robuste).
Pullback : Cette métrique est "tirée en arrière" (pullback) à travers le générateur (ex: StyleGAN2/3) pour définir une métrique $G_Z(z)$ dans l'espace latent.
Effet : Cette géométrie pénalise les directions fragiles (bruit haute fréquence, perturbations adverses) et favorise les variations perceptuellement lisses et sémantiquement alignées avec la perception humaine.

B. Optimisation en Deux Phases

L'algorithme cherche une trajectoire latente $\gamma(t)$ minimisant l'énergie perceptuelle robuste tout en atteignant la classe cible.

Phase 1 (Géodésique Robuste) :
- Fixe l'entrée $z_0$ et un point de départ aléatoire dans la classe cible $z_T$ .
- Minimise l'énergie robuste $E_{robust}$ (longueur de la trajectoire selon la métrique induite) pour trouver un chemin géodésique lisse entre les deux points. Cela garantit que la trajectoire reste dans des régions sémantiquement valides.
Phase 2 (Raffinement Contrefactuel) :
- Libère le point final $z_T$ et optimise conjointement l'énergie de la trajectoire et la perte de classification ( $\ell(f(g(z_T)), y')$ ).
- Utilise une stratégie de ré-ancrage (re-anchoring) : périodiquement, le point final est réajouté au point le plus proche de l'entrée sur le chemin actuel qui est déjà classé comme la classe cible. Cela permet de raccourcir le chemin tout en maintenant la validité de la classe, évitant ainsi de s'éloigner inutilement.

3. Contributions Clés

Génération de Contrefactuels par Géodésiques : Introduction de PCG, qui utilise une métrique Riemannienne induite par des modèles robustes pour guider l'optimisation le long de chemins géodésiques, assurant des transitions sémantiquement valides et lisses.
Interpolation Géodésique Perceptuelle : Démonstration que cette géométrie robuste permet des interpolations lisses entre des échantillons de classes différentes, préservant la cohérence de classe et la structure perceptuelle, contrairement aux interpolations linéaires standards qui produisent des artefacts.
Dépassement des Modes d'Échec : PCG résout les problèmes de traversée hors-variété (off-manifold) et de collapse vers des exemples adverses sur la variété (on-manifold AEs) qui affectent les méthodes précédentes (REVISE, VSGD, RSGD).
Évaluation Robuste : Mise en évidence que les métriques d'évaluation standards (L2, FID standard) peuvent masquer les échecs sémantiques. Les auteurs proposent et utilisent des métriques robustes (R-FID, R-LPIPS, Semantic Margin) pour révéler la véritable qualité des explications.

4. Résultats Expérimentaux

Les expériences ont été menées sur trois jeux de données d'images haute dimension : AFHQ (animaux), FFHQ (visages) et PlantVillage (feuilles de plantes).

Qualité Visuelle et Sémantique : PCG génère des contrefactuels visuellement plausibles avec des changements sémantiques minimaux et cohérents (ex: changement de race de chien sans déformer le visage). Les méthodes de base (RSGD, VSGD, REVISE) produisent souvent des artefacts, des distorsions ou des exemples adverses.
Performance Quantitative :
- PCG obtient les scores les plus bas (meilleurs) sur les métriques de proximité perceptuelle robuste (R-LPIPS) et de réalisme robuste (R-FID).
- Les méthodes de base obtiennent de bons scores sur les métriques standards (L2, FID standard) mais échouent sur les métriques robustes, confirmant qu'elles exploitent des directions non robustes.
- Le Semantic Margin (SM) de PCG est positif et élevé, indiquant que les contrefactuels se situent dans des régions de l'espace de features réellement associées à la classe cible, contrairement aux baselines qui restent dans des zones mixtes.
Efficacité : Bien que PCG soit une méthode basée sur des chemins (plus coûteuse que les méthodes à point unique comme VSGD), elle reste compétitive en temps de calcul par rapport aux méthodes Riemanniennes (RSGD) qui nécessitent l'inversion de matrices complexes à chaque étape.

5. Signification et Impact

Ce travail apporte une contribution conceptuelle et algorithmique majeure à l'interprétabilité des modèles d'IA :

Démystification de la Distinction CE/AE : Le papier démontre que la distinction entre explication contrefactuelle et exemple adversaire n'est pas seulement une question de "monde possible" (variété), mais dépend crucialement de la géométrie utilisée pour naviguer sur cette variété. Une géométrie robuste permet de traverser la "divergence sémantique" (semantic divide) de manière fiable.
Nouveau Standard d'Évaluation : Il met en lumière l'insuffisance des métriques d'évaluation traditionnelles pour les explications contrefactuelles et plaide pour l'adoption de métriques robustes et sensibles à la géométrie.
Fondation pour l'Explicabilité Robuste : PCG établit que l'intégration de la robustesse adversaire directement dans la métrique d'optimisation des explications est une voie efficace pour générer des explications fiables, même pour des modèles de classification non robustes.

En résumé, PCG transforme la génération d'explications contrefactuelles d'un problème d'optimisation locale et fragile en un problème de géométrie globale et robuste, garantissant que les explications sont à la fois mathématiquement valides et sémantiquement compréhensibles par l'humain.