Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Each language version is independently generated for its own context, not a direct translation.

🌊 Le Problème : Comparer deux océans sans savoir pourquoi ils sont différents

Imaginez que vous êtes un capitaine de navire. Vous avez deux cartes marines :

La carte A : L'état de l'océan à 8h00 du matin.
La carte B : L'état de l'océan à 10h00 du matin.

Vous savez que l'eau s'est déplacée. Vous pouvez même calculer la distance totale entre les deux cartes (combien d'eau a bougé, et à quelle vitesse). C'est ce qu'on appelle la distance de Wasserstein. C'est un outil mathématique très puissant utilisé par les scientifiques pour comparer des groupes de données (comme des patients sains vs malades, ou des images de visages).

Le problème :
La distance vous dit "Il y a eu un gros changement !" ou "C'est presque pareil". Mais elle ne vous dit PAS POURQUOI.

Est-ce que c'est la marée qui a bougé ?
Est-ce qu'un tsunami a frappé un coin précis ?
Est-ce que c'est juste un petit courant local ?

Regarder la carte du déplacement (le "plan de transport") est comme regarder une vidéo floue de l'océan : on voit que l'eau bouge, mais on ne sait pas exactement quelles vagues ont causé le plus de dégâts.

💡 La Solution : WaX (L'Explicateur de Vagues)

Les auteurs de cet article (Philip Naumann, Jacob Kauffmann et Grégoire Montavon) ont créé une nouvelle méthode appelée WaX.

Imaginez que WaX est un détective spécialisé ou un chirurgien de données. Au lieu de juste dire "l'océan a changé", WaX prend la distance totale et la découpe en morceaux pour vous dire exactement :

"Ah ! C'est la vague du coin Nord-Est qui a fait 80% du travail."
"C'est la température de l'eau qui a changé, pas la salinité."
"Ce sont ces 50 bateaux précis qui ont dévié leur trajectoire."

En langage technique, WaX utilise l'IA Explicable (XAI). Il transforme le calcul mathématique complexe en un réseau de neurones virtuel, puis il "remonte le courant" (comme un courant électrique inversé) pour attribuer chaque point de la distance à une cause précise (un pixel, un chiffre, un individu).

🧩 Comment ça marche ? (L'analogie du Puzzle)

Imaginez que vous avez un puzzle de 1000 pièces qui représente la différence entre deux groupes de personnes (par exemple, les gens qui aiment le café vs ceux qui aiment le thé).

Le calcul classique : Il vous dit : "La différence entre les deux groupes est de 100 points."
WaX : Il prend ce score de 100 points et le répartit sur les pièces du puzzle.
- Il vous dit : "La pièce 'Sucre' compte pour 40 points."
- "La pièce 'Heure du réveil' compte pour 30 points."
- "La pièce 'Couleur des yeux' ne compte pour rien."

Grâce à cela, vous comprenez la vraie raison de la différence.

🚀 À quoi ça sert ? (Trois exemples concrets)

L'article montre comment WaX aide dans trois situations réelles :

1. 🛡️ Nettoyer les données pour mieux apprendre (Domaine Adaptation)

Le scénario : Vous entraînez une IA à reconnaître des chats. Mais vous utilisez des photos prises dans un studio (fond blanc) et des photos prises dans un parc (herbe verte). L'IA va apprendre à reconnaître le "fond" plutôt que le chat.
L'apport de WaX : WaX analyse la différence entre les deux types de photos. Il vous dit : "Attention ! La différence majeure, ce n'est pas le chat, c'est la couleur du fond !"
Le résultat : Vous pouvez supprimer les pixels liés au fond. L'IA devient alors plus intelligente et plus robuste, car elle se concentre sur le chat, pas sur le décor.

2. ⏳ Comprendre le vieillissement (Phénomènes de transport)

Le scénario : Vous observez une population d'escargots (ou de cellules) à l'année 1 et à l'année 2. Comment ont-ils vieilli ?
L'apport de WaX : Au lieu de dire "ils ont vieilli", WaX peut séparer les groupes. Il découvre que :
- Les petits escargots grandissent surtout en longueur.
- Les gros escargots grandissent surtout en poids.
Le résultat : On comprend que le vieillissement n'est pas un processus unique, mais qu'il change selon la taille de l'individu. C'est comme découvrir que les enfants grandissent en hauteur, tandis que les adultes prennent du muscle.

3. 🔍 Détecter les biais dans les jeux de données (Ex: Visages)

Le scénario : Vous comparez deux bases de données de visages célèbres (CelebA et LFW).
L'apport de WaX : Il analyse les différences et trouve des "sous-groupes" cachés.
- Il découvre que l'un des ensembles a beaucoup plus de visages de femmes actrices, tandis que l'autre a plus de politiciens hommes.
- Il trouve aussi que l'un des ensembles a beaucoup de gens avec des lunettes de soleil, et l'autre non.
Le résultat : Cela permet aux chercheurs de savoir si leur IA sera biaisée (par exemple, si elle ne reconnaît pas bien les hommes politiques parce qu'elle n'a jamais vu assez de photos d'eux).

🌟 En résumé

Cette recherche transforme une formule mathématique froide (la distance de Wasserstein) en un outil de compréhension chaud et intuitif.

Avant : "Il y a une différence de 50 unités." (On ne sait pas quoi faire).
Avec WaX : "La différence vient à 80% de la variable X et à 20% de la variable Y, et c'est surtout les individus du groupe Z qui bougent." (On sait exactement quoi corriger ou étudier).

C'est comme passer d'une carte météo qui dit "il va pleuvoir" à une carte qui vous dit exactement où poser votre parapluie pour ne pas être mouillé.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les distances de Wasserstein (ou distances de transport optimal) sont des outils puissants pour comparer des distributions de données, utilisés pour analyser des changements temporels, détecter des hétérogénéités ou étudier des phénomènes de transport. Cependant, une limitation majeure persiste : le calcul de la distance elle-même ou l'analyse du plan de transport (couplage $\gamma^\star$ ) ne suffisent pas à comprendre quels facteurs spécifiques (sous-groupes de données, caractéristiques d'entrée, sous-espaces) contribuent à une distance élevée ou faible.

Les méthodes existantes d'explication de l'IA (XAI) se concentrent généralement sur les prédictions de modèles individuels ou sur des distances au niveau d'instances uniques. Il n'existait pas de cadre systématique pour attribuer la distance entre deux distributions entières à ses composants constitutifs (features ou instances), en particulier lorsque la distance dépend de paramètres complexes (exposants $p$ et $q$ ) qui modifient la sensibilité aux outliers.

2. Méthodologie : Le cadre WaX

Les auteurs proposent WaX (Wasserstein distances made explainable), une nouvelle méthode basée sur l'IA explicable (XAI) qui attribue la distance de Wasserstein à des composants de données spécifiques.

A. Approche « Neuralization-Propagation »

La méthode repose sur une transformation du calcul de la distance de Wasserstein en un réseau de neurones équivalent, permettant l'application des règles de Propagation de la Pertinence par Couches (LRP - Layer-wise Relevance Propagation).

Neuralisation :
Le calcul de la distance $W_p$ est réécrit comme un réseau à deux couches, en fixant le couplage optimal $\gamma^\star$ (résolu préalablement par un solveur de transport optimal) :
- Couche 1 : Calcule les distances entre paires d'instances $(x_k, y_l)$ selon une métrique de Minkowski ( $z_{kl} = \|x_k - y_l\|_q$ ).
- Couche 2 : Applique une norme pondérée par le couplage $\gamma^\star$ pour obtenir la distance finale ( $W_p = (\sum \gamma^\star_{kl} z_{kl}^p)^{1/p}$ ).
Propagation (Backward Pass) :
Une fois le modèle « neuralisé », la pertinence est propagée à l'envers depuis la sortie ( $W_p$ ) vers les entrées :
- Étape 1 (Attribution aux paires) : La distance est décomposée en contributions de paires d'instances ( $R_{kl}$ ) via une règle LRP contrôlée par un hyperparamètre $\alpha$ .
- Étape 2 (Attribution aux features) : La pertinence est ensuite propagée aux dimensions d'entrée ( $R_i$ ) via une règle contrôlée par un hyperparamètre $\beta$ .

B. Choix des Hyperparamètres

Les auteurs proposent une heuristique pour les hyperparamètres $\alpha$ et $\beta$ afin de contrôler la dispersion de la pertinence :

$\alpha = p$
$\beta = \min(p + 2, q)$
Cette configuration permet de s'adapter à la non-linéarité du modèle et d'éviter une attribution trop localisée lorsque $p$ ou $q$ sont grands.

C. Extension U-WaX (Sous-espaces)

Pour des phénomènes complexes, les auteurs introduisent U-WaX, qui attribue la distance à des sous-espaces (concepts abstraits) plutôt qu'aux features brutes. Cela permet de décomposer le transport en plusieurs composantes (ex: différents sous-groupes de données évoluant différemment) en optimisant une matrice orthogonale $U$ pour maximiser une statistique de « queue de distribution » (tailedness).

3. Contributions Clés

Première attribution systématique : C'est la première étude à attribuer explicitement une distance de distribution (Wasserstein) à des features et des instances, comblant un vide dans la littérature XAI.
Propriétés théoriques : La méthode satisfait l'axiome de conservation (la somme des pertinences égale la distance totale) et est liée aux calculs de gradient pour des choix spécifiques de paramètres.
Efficacité computationnelle : Contrairement aux méthodes de masquage (occlusion) qui nécessitent de recalculer la distance $d$ fois (une fois par feature), WaX ne nécessite qu'une seule évaluation du modèle et une propagation arrière, rendant la méthode scalable.
Flexibilité : WaX fonctionne avec les distances de Wasserstein classiques, les versions régularisées (Sinkhorn), et s'adapte à différentes métriques de base (Minkowski).

4. Résultats Expérimentaux

Les auteurs ont évalué WaX sur plusieurs jeux de données (tabulaires, séries temporelles, images) et comparé la méthode à des baselines (MeanShift, Occlusion, Couplage direct, Classificateurs logistiques).

Fidélité de l'explication (SRG) : WaX obtient systématiquement les meilleurs scores de Symmetric Relevance Gain (SRG), prouvant qu'il identifie mieux les features réellement responsables de la distance que les méthodes basées sur les moyennes ou le masquage.
Robustesse aux paramètres : Là où les baselines échouent à capturer la sensibilité des modèles avec de grands $p$ ou $q$ (sensibles aux outliers), WaX s'adapte grâce à ses hyperparamètres.
Cas d'usage 1 (Alignement de domaines) : En élaguant les features spécifiques à un domaine identifiées par WaX, la robustesse des classificateurs sur des données cibles s'améliore significativement, surpassant les méthodes d'adaptation de domaine existantes (FeatureOT).
Cas d'usage 2 (Phénomène de vieillissement) : Sur un jeu de données d'ormeaux (abalone), U-WaX a réussi à décomposer le vieillissement en sous-groupes distincts (taille vs poids), révélant des dynamiques non linéaires que les méthodes de clustering classiques ne pouvaient pas séparer.
Cas d'usage 3 (Différences de jeux de données) : L'analyse des datasets CelebA et LFW via U-WaX a permis d'identifier des biais démographiques (sous-représentation des femmes) et des différences contextuelles (lunettes, tenues sportives) de manière interprétable.

5. Signification et Impact

Ce travail transforme la distance de Wasserstein d'un simple outil de mesure en un outil d'analyse interprétable.

Pour la science des données : Il permet de diagnostiquer non seulement si deux distributions diffèrent, mais pourquoi et comment elles diffèrent (quelles features, quels sous-groupes).
Pour l'IA responsable : Il aide à détecter les biais dans les jeux de données et à améliorer la robustesse des modèles en identifiant les caractéristiques spécifiques aux domaines (domain-specific signals).
Pour la recherche future : La méthode ouvre la voie à l'explication de modèles de transport plus complexes (Gromov-Wasserstein, transport temporel) et offre un cadre pour valider les hypothèses sur les mécanismes de transport dans des domaines comme la biologie ou la physique.

En résumé, WaX fournit une « loupe » mathématique pour comprendre les phénomènes de transport et les décalages de distribution, rendant les modèles de transport optimal transparents et actionnables.