Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un detective che deve capire perché due gruppi di persone (diciamo, due città) sono molto diversi tra loro.

Il Problema: La "Distanza" che non spiega nulla

Fino ad oggi, gli scienziati usavano uno strumento matematico chiamato Distanza di Wasserstein per misurare quanto due gruppi di dati (come due città, due anni di vendite, o due gruppi di pazienti) fossero diversi.

Pensa alla Distanza di Wasserstein come a un contatore di chilometri che calcola quanto lavoro serve per spostare tutte le persone della Città A per farle assomigliare alla Città B.

Se il contatore segna "1000 km", sai che le città sono molto diverse.
Ma il contatore non ti dice il perché. Non ti dice se la differenza è dovuta al fatto che nella Città B ci sono più anziani, più persone che guidano auto rosse, o più persone che amano il jazz. Ti dà solo il numero totale.

Inoltre, c'era un'altra mappa chiamata "Piano di Trasporto" che mostrava chi veniva spostato dove, ma era come guardare una folla in movimento: vedi che si muovono, ma non capisci quali sono i singoli colpevoli che stanno causando il caos o quali caratteristiche specifiche stanno creando la differenza.

La Soluzione: "WaX" (L'Esplora-Distanza)

Gli autori di questo paper (Philip, Jacob e Grégoire) hanno creato un nuovo strumento chiamato WaX (Wasserstein distances made eXplainable).

Ecco come funziona, usando un'analogia culinaria:

1. La Ricetta Segreta (La "Neuralizzazione")

Immagina che la Distanza di Wasserstein sia una torta complessa che hai appena assaggiato. Sai che è dolce, ma non sai quali ingredienti (farina, zucchero, uova) hanno contribuito di più a quel sapore specifico.
WaX prende questa "torta" matematica e la smonta pezzo per pezzo, trasformandola in una serie di passaggi logici (come una ricetta scritta su un foglio) che un computer può analizzare passo dopo passo.

2. Il Retro-Ingrediente (La "Propagazione")

Una volta che la torta è smontata, WaX usa una tecnica chiamata LRP (che possiamo immaginare come un "retro-ingrediente").
Invece di guardare solo la torta finita, WaX parte dal risultato finale (il sapore dolce) e risale a ritroso lungo la ricetta, chiedendo: "Quanto zucchero ha contribuito a questo gusto? E quante uova?".

In termini tecnici, WaX prende il numero totale della differenza (la distanza) e lo spacca (lo attribuisce) in modo equo tra:

I singoli individui: "È colpa di quel singolo dato anomalo?"
Le caratteristiche specifiche: "È colpa del fatto che i dati hanno valori alti nella colonna 'età' o 'reddito'?"

Perché è rivoluzionario? (Le Analogie)

Non è solo una media: Altri metodi dicono: "In media, la Città B ha più anziani". Ma WaX può dirti: "La differenza è causata da un piccolo gruppo di anziani molto ricchi che vivono in un quartiere specifico, non da tutti gli anziani". WaX vede i dettagli che le medie nascondono.
È come una lente di ingrandimento: Se guardi una mappa del traffico e vedi un ingorgo, la distanza ti dice "c'è traffico". WaX ti dice: "L'ingorgo è causato da un camion rotto al centro, non dal fatto che c'è troppa gente".
Adattabile: Puoi dire a WaX: "Voglio che mi spieghi la differenza concentrandomi sugli 'outlier' (i dati strani)" oppure "Voglio che mi spieghi le differenze generali". WaX si adatta alla tua domanda.

A cosa serve nella vita reale? (I Casi d'Uso)

Gli autori hanno mostrato tre esempi fantastici:

Pulire i dati per l'Intelligenza Artificiale:
Immagina di voler insegnare a un'IA a riconoscere le malattie, ma i dati vengono da due ospedali diversi. Uno ospedale usa macchinari vecchi, l'altro nuovi. L'IA potrebbe imparare a riconoscere il "rumore" dei macchinari invece della malattia.
- Con WaX: Possiamo vedere esattamente quali caratteristiche (es. il rumore di fondo nelle immagini) stanno creando la differenza tra i due ospedali e rimuoverle. Così l'IA impara solo la malattia vera, diventando più robusta e sicura.
Capire l'invecchiamento (Il caso delle Lumache):
Hanno studiato un gruppo di lumache di mare (abalone) in due momenti diversi (come se avessero un anno di differenza).
- Senza WaX: Sapevano che le lumache erano cresciute.
- Con WaX: Hanno scoperto che non tutte le lumache invecchiano allo stesso modo. Alcune crescono in larghezza, altre in peso in modo diverso. WaX ha separato questi "sottogruppi" di invecchiamento, rivelando che ci sono diverse "strade" di crescita, non una sola.
Analizzare i Dataset di Foto (CelebA vs LFW):
Hanno confrontato due enormi database di volti famosi.
- Con WaX: Hanno scoperto che un database era pieno di donne famose e politici maschi, mentre l'altro aveva più coppie e persone con gli occhiali. WaX ha tradotto queste differenze matematiche in concetti comprensibili: "Qui c'è più 'politica', qui c'è più 'sport', qui c'è più 'coppie'".

In Sintesi

Prima, la Distanza di Wasserstein era come un termometro che ti diceva "fa caldo" (i dati sono diversi), ma non ti diceva se era colpa del sole, della sabbia o della folla.

WaX è come un meteo intelligente che ti dice: "È caldo perché c'è il sole diretto su questa zona specifica, e la sabbia sta riflettendo la luce su quell'altra".

Questo strumento permette agli scienziati e agli ingegneri di non solo misurare le differenze, ma di capirle davvero, rendendo l'Intelligenza Artificiale più trasparente, equa e affidabile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Le distanze di Wasserstein (o distanze di trasporto ottimo) sono strumenti teorici e pratici fondamentali per confrontare distribuzioni di dati, analizzare spostamenti temporali (shift) e studiare fenomeni di trasporto. Tuttavia, calcolare semplicemente la distanza o analizzare il piano di trasporto (coupling) risultante offre spesso intuizioni limitate.

Limitazione attuale: Il piano di trasporto $\gamma^*$ indica come i punti si spostano, ma non spiega quali fattori specifici (sottogruppi di dati, singole istanze o feature di input) contribuiscono in modo determinante a un valore alto o basso della distanza.
Necessità: Esiste un vuoto nella letteratura di Explainable AI (XAI) riguardante l'attribuzione della distanza tra distribuzioni intere, piuttosto che a livello di singola istanza. Gli approcci esistenti si basano spesso su modelli lineari o su analisi del piano di trasporto che non catturano la sensibilità ai parametri del modello di Wasserstein (es. $p$ e $q$ ).

2. Metodologia: WaX (Wasserstein distances made explainable)

Gli autori propongono WaX, un framework basato sull'XAI che attribuisce la distanza di Wasserstein alle sue componenti costitutive (istanze, feature o sottospazi).

A. Principio Fondamentale: Neuralization-Propagation

Il metodo si basa sulla tecnica di Layer-wise Relevance Propagation (LRP), adattata a modelli non neurali attraverso un processo di "neuralizzazione":

Fissazione del Coupling: Si calcola prima il piano di trasporto ottimo $\gamma^*$ risolvendo il problema di trasporto ottimo.
Neuralizzazione: La formula della distanza di Wasserstein $W_p$ $W_{p}$ viene riscritta come una rete neurale a due strati equivalente, dove $\gamma^*$ $γ^{*}$ è trattato come un parametro fisso:
- Strato 1: Calcolo delle distanze tra coppie di istanze $(x_k, y_l)$ secondo una metrica di Minkowski ( $z_{kl} = \|x_k - y_l\|_q$ ).
- Strato 2: Aggregazione pesata delle distanze tramite $\gamma^*$ e potenza $p$ ( $W_p = (\sum \gamma^*_{kl} z_{kl}^p)^{1/p}$ ).
Propagazione (Backward Pass): Si applicano regole LRP per propagare il valore della distanza $W_p$ $W_{p}$ all'indietro attraverso la rete, assegnando punteggi di rilevanza ( $R$ $R$ ) a:
- Coppie di istanze ( $R_{kl}$ ): Quanto contribuisce una specifica coppia $(x_k, y_l)$ alla distanza totale.
- Feature di input ( $R_i$ ): Quanto contribuisce ciascuna dimensione del vettore di input alla distanza.

B. Iperparametri di Controllo

Il metodo introduce due iperparametri, $\alpha$ e $\beta$ , che controllano la distribuzione della rilevanza:

$\alpha$ controlla la diffusione della rilevanza sulle istanze.
$\beta$ controlla la diffusione sulle feature.
Euristiche: Gli autori suggeriscono $\alpha = p$ e $\beta = \min(p+2, q)$ per bilanciare la sensibilità agli outlier e la stabilità, evitando spiegazioni troppo localizzate quando $p$ e $q$ sono grandi.

C. Estensione: U-WaX (Subspace-based Explanations)

Per analizzare fenomeni complessi, viene introdotta U-WaX, che attribuisce la distanza a sottospazi (concetti astratti) definiti da una matrice ortogonale $U$ .

Utilizza statistiche di "coda" (tailedness) per trovare sottospazi che massimizzano la varianza del trasporto, permettendo di disaccoppiare diversi tipi di shift (es. cambiamenti di dimensione vs cambiamenti di peso in un oggetto).

3. Contributi Chiave

Primo approccio sistematico all'XAI per distanze di distribuzione: WaX è il primo metodo a fornire attribuzioni per distanze di Wasserstein a livello di distribuzione intera, non solo di istanza singola.
Sensibilità al Modello: A differenza dei piani di trasporto classici, WaX è altamente sensibile alla specifica del modello di Wasserstein (scelta di $p$ e $q$ ). Questo permette di identificare come la scelta dei parametri influenzi la percezione dello shift (es. la rilevanza di un "collo di bottiglia" in un fluido aumenta con $p$ alto).
Proprietà Teoriche: Il metodo soddisfa l'assioma di conservazione (la somma delle rilevanze è uguale alla distanza totale) e, per scelte specifiche di parametri, equivale a calcoli di gradiente.
Efficienza Computazionale: Grazie all'uso della "detach trick" e alla struttura a due livelli, WaX è computazionalmente efficiente, richiedendo una sola valutazione della funzione di distanza, a differenza di metodi basati sull'occlusione che richiedono $d$ valutazioni (dove $d$ è il numero di feature).

4. Risultati Sperimentali

Il paper valuta WaX su diversi dataset (tabulari, serie temporali, immagini) e scenari:

Fedeltà della Spiegazione (Faithfulness): Utilizzando la metrica Symmetric Relevance Gain (SRG), WaX supera costantemente i baseline (MeanShift, Occlusion, Coupling). In particolare, WaX è superiore nell'identificare feature rilevanti per modelli con $p$ e $q$ alti, dove i metodi basati sui media falliscono.
Caratterizzazione di Fenomeni di Trasporto: Su serie temporali sintetiche e dati di istopatologia (PLISM), WaX ricostruisce con alta similarità coseno i "ground-truth" di trasporto, superando approcci basati su classificatori logistici o shift di media.
Casi d'Uso:
1. Allineamento di Dominio (Domain Adaptation): WaX identifica e rimuove feature specifiche del dominio (es. bias di batch in immagini mediche), migliorando la robustezza dei classificatori senza bisogno di addestramento aggiuntivo.
2. Fenomeno di Invecchiamento (Abalone): U-WaX disaccoppia il processo di invecchiamento in sottogruppi, rivelando che diverse dimensioni (lunghezza, peso) evolvono in modo diverso per diverse fasce di età, cosa non rilevabile con semplici clustering.
3. Differenze tra Dataset (CelebA vs LFW): U-WaX identifica sottospazi che spiegano differenze semantiche (es. presenza di occhiali, coppie di persone, atleti) tra due dataset di volti, fornendo interpretazioni testuali tramite l'allineamento con embedding di CLIP.

5. Significato e Impatto

Il lavoro di WaX rappresenta un passo avanti significativo nell'intersezione tra Trasporto Ottimo e Explainable AI.

Interpretabilità: Trasforma la distanza di Wasserstein da un semplice numero scalare in una mappa di rilevanza strutturata, permettendo agli utenti di capire perché due distribuzioni sono diverse.
Controllo dell'Utente: Offre agli analisti il controllo su come i dati vengono visualizzati, permettendo di regolare la sensibilità agli outlier o di focalizzarsi su specifici aspetti geometrici.
Applicabilità Pratica: Dimostra utilità immediata in scenari critici come la medicina (riduzione dei bias), l'analisi di fenomeni fisici complessi e la validazione di dataset per l'addestramento di modelli foundation.

In sintesi, WaX non solo spiega il "quanto" due distribuzioni differiscono, ma il "come" e il "perché", fornendo uno strumento potente per l'analisi diagnostica di dataset shift e fenomeni di trasporto.