Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

🍄 Il Paradosso della "Spiegazione Perfetta"

Immagina di aver comprato un'auto usata e il venditore ti dice: "Non puoi guidarla perché il motore è rotto". Tu chiedi: "Cosa dovrei cambiare per farla partire?".
L'Intelligenza Artificiale (AI) ti risponde con una spiegazione controfattuale: "Se cambiassi la candela e l'olio, l'auto partirebbe".

Fin qui, tutto bene. Ma come facciamo a sapere se questa spiegazione è davvero buona? È utile? È chiara?

Gli scienziati hanno creato dei metri automatici (come dei "righelli digitali") per misurare la qualità di queste spiegazioni. Questi righelli controllano cose come:

Quante cose hai cambiato? (Pochi cambiamenti = meglio).
Quanto è simile la nuova situazione a quella vecchia? (Più simile = meglio).
Quanto è "strana" la nuova situazione? (Non deve sembrare un'auto volante se stiamo parlando di un'auto normale).

Il problema? Gli scienziati hanno scoperto che questi "righelli digitali" spesso non capiscono cosa pensano le persone vere.

🔍 Cosa hanno fatto gli autori? (L'Esperimento)

Immagina di essere un giudice in una gara di cucina.

I Cuochi (L'AI): Hanno preparato 85 diverse "spiegazioni" (ricette per cambiare il risultato) su tre argomenti diversi: funghi (sono commestibili?), livelli di obesità e malattie cardiache.
I Righelli (I Metri Automatici): Hanno misurato ogni spiegazione con i loro calcoli matematici.
I Giudici (Le Persone): Hanno invitato 167 persone normali (non esperti di informatica) a leggere queste spiegazioni e dare un voto su: "È chiaro?", "È credibile?", "Mi fido?".

Poi hanno messo a confronto i voti dei Righelli con i voti delle Persone.

📉 Il Risultato Shockante: "Parlano lingue diverse"

Il risultato è come se un metronomo e un musicista cercassero di accordarsi, ma uno suonasse in Do e l'altro in Fa.

Nessuna sintonia: I righelli automatici e le persone non sono d'accordo. A volte il righello dice "Questa spiegazione è perfetta!", mentre la persona pensa "Ma che senso ha?".
Dipende dal contesto: È come se i righelli funzionassero bene solo in una stanza specifica.
- Nel caso dei funghi, le persone preferivano spiegazioni con pochi cambiamenti (come dire: "Cambia solo il colore del cappello").
- Nel caso dell'obesità, invece, le persone volevano spiegazioni più ricche e dettagliate.
- I righelli automatici, però, non capivano questa differenza: usavano la stessa regola per tutti e fallivano.
Più righelli non aiutano: Gli autori hanno pensato: "Forse se usiamo tutti i righelli insieme, funziona meglio!". Hanno provato a mischiare 7, 10, 20 metriche diverse. Risultato? Peggio. Era come cercare di capire una ricetta guardando contemporaneamente il peso, il colore, la temperatura e il rumore della pentola: più dati aggiungi, più ti confondi, e il risultato diventa meno affidabile.

🧠 La Metafora del "Termometro Rotto"

Immagina che l'Intelligenza Artificiale sia un paziente che ha la febbre.

Le metriche automatiche sono come un termometro digitale che misura la temperatura in modo preciso, ma non sa se il paziente ha anche mal di testa, nausea o paura.
La percezione umana è il medico che guarda il paziente e dice: "Non è solo la febbre, è che il paziente ha bisogno di rassicurazione e di una spiegazione semplice".

Lo studio dice: "Guardate, il termometro digitale (le metriche) ci dà un numero preciso, ma quel numero non ci dice se il paziente si sente meglio o se capisce cosa sta succedendo."

💡 Perché è importante?

Per anni, gli sviluppatori di AI hanno pensato: "Se la nostra spiegazione ha un punteggio alto sui nostri righelli matematici, allora è una buona spiegazione per l'utente."

Questo studio ci dice: "No, non è vero."
Le metriche attuali sono come una mappa disegnata da un alieno: tecnicamente precisa, ma inutile per un turista che vuole trovare il ristorante.

🚀 Cosa dobbiamo fare ora?

Dobbiamo smettere di fidarci ciecamente dei "righelli digitali" e iniziare a costruire sistemi di valutazione che ascoltino davvero le persone.
Invece di chiedere all'AI: "Quanto sei efficiente?", dovremmo chiedergli: "Quanto sei comprensibile per me?".

In sintesi: Le regole matematiche che usiamo per giudicare le spiegazioni dell'AI sono spesso sbagliate rispetto a come le pensiamo noi umani. Dobbiamo creare nuovi strumenti che misurino ciò che conta davvero per le persone: la fiducia, la chiarezza e la sensazione di essere capiti.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Le Metriche per le Spiegazioni Controfattuali si Allineano alla Percezione dell'Utente?

1. Il Problema

Le spiegazioni controfattuali (CF) sono diventate un pilastro dell'Intelligenza Artificiale Spiegabile (XAI), offrendo agli utenti indicazioni su come modificare un'istanza di input per cambiare la previsione di un modello. Tuttavia, la valutazione della qualità di queste spiegazioni si basa prevalentemente su metriche algoritmiche automatizzate (es. sparsità, prossimità, validità), calcolate senza intervento umano.
Il problema centrale affrontato dagli autori è l'assenza di validazione empirica di queste metriche rispetto al giudizio umano. Non è chiaro se le metriche computazionali, spesso usate come proxy per la qualità, riflettano effettivamente ciò che gli utenti percepiscono come spiegazioni utili, affidabili o comprensibili. La letteratura esistente suggerisce un possibile disallineamento, ma manca uno studio sistematico che confronti direttamente metriche automatizzate e giudizi umani su più dimensioni e dataset.

2. Metodologia

Gli autori hanno condotto uno studio empirico controllato per analizzare la relazione tra metriche automatizzate e giudizi umani.

Dataset e Generazione:
- Sono stati utilizzati tre dataset tabulari da UCI: Mushroom (MUS), Obesity Levels (OBE) e Heart Disease (HRT).
- I modelli di base sono stati addestrati con XGBoost.
- Le spiegazioni controfattuali sono state generate utilizzando il metodo Counterfactuals Guided by Prototypes (implementato in Alibi Explain).
- Sono stati selezionati 85 CF validi (30 per MUS, 30 per OBE, 25 per HRT) tramite una strategia di campionamento a cluster basata su 7 metriche automatizzate per garantire diversità.
Studio Utenti:
- Partecipanti: 167 partecipanti reclutati su Prolific.
- Procedura: Ogni partecipante ha valutato un sottoinsieme di spiegazioni.
- Dimensioni di Valutazione: Le spiegazioni sono state valutate su una scala Likert a 4 punti lungo 5 dimensioni:
  1. Accuratezza percepita (Perceived Accuracy)
  2. Comprensibilità (Understandability)
  3. Plausibilità (Plausibility)
  4. Sufficienza dei dettagli (Sufficiency of Detail)
  5. Soddisfazione dell'utente (User Satisfaction)
- È stato calcolato un Combined Quality Score (CQS) aggregando le 5 dimensioni.
Metriche Automatizzate Analizzate:
Sono state calcolate 7 metriche standard per ogni CF:
1. Sparsità: Numero di feature modificate.
2. Prossimità: Distanza ( $\ell_1$ ) tra l'istanza originale e il CF.
3. Closeness: Distanza dal manifold dei dati di training (vicinanza ai vicini più prossimi).
4. Diversità: Eterogeneità delle feature modificate (basata su NMI).
5. Oracle Score: Accordo tra due modelli indipendenti sulla classe target.
6. Trust Score: Quanto l'istanza è vicina alla classe predetta rispetto alle altre.
7. Completezza: Quanto le feature modificate corrispondono alle feature più importanti per il modello (basato su SHAP).
Analisi Statistica:
- Correlazioni: Analisi di Pearson tra le 7 metriche e le valutazioni umane (singole e CQS).
- Modellazione Predittiva: Analisi di potenza su tutti i 127 sottoinsiemi non vuoti delle 7 metriche. Sono stati testati modelli lineari (Regressione Lineare) e non lineari (kNN, Random Forest, XGBoost, GAM) con validazione incrociata a 5 fold per prevedere i giudizi umani.

3. Risultati Chiave

Correlazioni Deboli e Dipendenti dal Dataset:
- Le correlazioni tra metriche automatizzate e giudizi umani sono generalmente deboli ( $|r| < 0.1$ per la maggior parte dei casi).
- L'unica eccezione significativa è lo Trust Score, che mostra una correlazione moderata con il CQS aggregato ( $r = 0.307$ ), ma questo non è sufficiente a generalizzare.
- Dipendenza dal Dataset: I pattern di correlazione variano drasticamente:
  - Mushroom: Correlazioni negative forti (es. sparsità e soddisfazione); gli utenti preferiscono meno cambiamenti.
  - Obesity: Correlazioni positive (es. diversità e completezza); gli utenti preferiscono spiegazioni più ricche.
  - Heart Disease: Nessuna correlazione significativa o coerente.
- Non esiste una metrica singola o una combinazione coerente che funzioni universalmente.
Limiti della Modellazione Predittiva:
- Regressione Lineare: Ha fallito completamente, producendo valori di $R^2$ fortemente negativi (media $-1.253$), indicando che le combinazioni lineari di metriche non spiegano la varianza dei giudizi umani.
- Modelli Non Lineari: Anche i modelli più performanti (Random Forest) hanno mostrato prestazioni scarse. Il miglior $R^2$ ottenuto è stato solo $0.33$ (con 3 metriche), ma la media è rimasta bassa ($0.067$).
- Effetto del Numero di Metriche: Aumentare il numero di metriche nei modelli predittivi non migliora le prestazioni; anzi, oltre 3-4 metriche, le prestazioni peggiorano, suggerendo che le metriche aggiuntive introducono rumore senza valore informativo complementare.

4. Contributi Principali

Studio Utenti Controllato: Esecuzione di uno studio su larga scala che valuta le CF su tre dataset diversi lungo cinque dimensioni qualitative percepite.
Valutazione Sistemica delle Metriche: Calcolo e confronto di un set completo di metriche automatizzate standard con i giudizi umani.
Analisi di Combinazione: Dimostrazione empirica che combinare più metriche non risolve il problema di allineamento e spesso degrada la capacità predittiva.
Identificazione del Disallineamento Strutturale: Evidenziazione del fatto che le attuali metriche di valutazione delle CF non catturano gli aspetti critici della qualità percepita dall'utente.

5. Significato e Implicazioni

I risultati del paper mettono in discussione la pratica corrente di utilizzare le metriche algoritmiche come proxy affidabili per la valutazione della qualità delle spiegazioni nell'XAI.

Critica alle Metriche Attuali: Le metriche esistenti (sparsità, prossimità, ecc.) sono spesso ottimizzate per criteri computazionali e non riflettono la psicologia umana o il contesto decisionale.
Necessità di un Approccio Centrato sull'Uomo: È urgente sviluppare nuovi framework di valutazione che siano direttamente radicati nella percezione umana, piuttosto che affidarsi a indicatori computazionali che mostrano un disallineamento strutturale.
Impatto sulla Ricerca XAI: Gli autori suggeriscono che la ricerca futura deve focalizzarsi sulla creazione di metriche "human-aligned" e sulla validazione empirica continua delle spiegazioni, riconoscendo che la qualità è multidimensionale e contestuale.

In sintesi, il paper conclude che le metriche attuali per le spiegazioni controfattuali falliscono nel riflettere la qualità percepita dagli utenti, sottolineando la necessità di un cambio di paradigma verso approcci di valutazione più umani e contestuali.

Do Metrics for Counterfactual Explanations Align with User Perception?

🍄 Il Paradosso della "Spiegazione Perfetta"

🔍 Cosa hanno fatto gli autori? (L'Esperimento)

📉 Il Risultato Shockante: "Parlano lingue diverse"

🧠 La Metafora del "Termometro Rotto"

💡 Perché è importante?

🚀 Cosa dobbiamo fare ora?

Titolo: Le Metriche per le Spiegazioni Controfattuali si Allineano alla Percezione dell'Utente?

1. Il Problema

2. Metodologia

3. Risultati Chiave

4. Contributi Principali

5. Significato e Implicazioni

Articoli simili

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers