Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un oracolo digitale (un'intelligenza artificiale) capace di prevedere se una persona sta per sviluppare l'Alzheimer o se è già malata. Questo oracolo è molto bravo: sbaglia raramente. Ma c'è un problema: è un "oracolo muto". Ti dice il risultato, ma non ti spiega perché l'ha detto. Per un medico, sapere che il paziente è malato non basta; deve capire quali sintomi hanno portato a quella conclusione per fidarsi e agire.

Questo studio è come un detective che controlla la credibilità dell'oracolo.

1. Il Problema: La "Scatola Nera"

Fino a ora, gli scienziati hanno usato l'AI per diagnosticare l'Alzheimer, ma spesso guardavano solo il risultato finale. È come se un medico ti dicesse: "Hai l'influenza" senza spiegarti se è perché hai la febbre, il mal di testa o la tosse.
Per rendere l'AI affidabile, usano uno strumento chiamato SHAP. Puoi pensare a SHAP come a un traduttore che prende i calcoli complessi dell'AI e li trasforma in una lista di "indizi" (sintomi) che spiegano la decisione.

2. La Domanda: L'oracolo è coerente?

Il vero problema che gli autori (Pablo e Enrique) si sono posti è: "Se chiedo all'oracolo di spiegare la diagnosi oggi, e domani gli chiedo di spiegare la prognosi (cosa succederà tra 4 anni), mi darà gli stessi indizi o cambierà idea?"

Se l'AI dice che la memoria è importante oggi, ma tra due anni dice che è importante la genetica, allora non possiamo fidarci di lei. È come un giudice che cambia le sue motivazioni ogni volta che cambia il caso: non è affidabile.

3. L'Esperimento: Il "Test di Coerenza"

Gli autori hanno creato un laboratorio di controllo qualità con tre livelli di test, usando un'enorme quantità di dati reali (il database NACC, che è come una biblioteca gigantesca di cartelle cliniche di pazienti con Alzheimer).

Hanno usato un sistema automatico (chiamato AutoML, immaginalo come un chef robot che prova migliaia di ricette diverse per trovare quella perfetta) per creare 8 modelli di intelligenza artificiale:

4 per diagnosi (capire lo stato attuale: Normale, Leggero, Malato).
4 per prognosi (prevedere il futuro tra 4 anni).

Poi hanno applicato il "Test di Coerenza" in tre modi:

A. Coerenza Interna (Il "Check-up" del modello)

Hanno confrontato due modi diversi in cui l'AI spiega se stessa:

La lista interna: Quali ingredienti l'AI ha usato per cucinare la sua decisione?
La spiegazione SHAP: Cosa dice il traduttore SHAP?

Risultato: Hanno scoperto che la lista interna e il traduttore SHAP raccontano la stessa storia. L'AI non sta mentendo a se stessa.

B. Coerenza tra Stadi (Il "Viaggio nel tempo")

Hanno controllato se l'AI usa gli stessi indizi per distinguere un paziente "Normale" da uno "Leggermente malato" rispetto a un "Leggermente malato" da uno "Gravemente malato".

Risultato: Sì! Gli indizi principali rimangono gli stessi. Che tu sia all'inizio o alla fine del percorso, l'AI guarda sempre le stesse cose.

C. Coerenza tra Diagnosi e Prognosi (Il "Ponte")

Questa è la parte più importante. Hanno chiesto: "Gli indizi che usi per dire 'Oggi sei malato' sono gli stessi che usi per dire 'Tra 4 anni sarai peggio'?"

Risultato: Assolutamente sì. L'AI è incredibilmente stabile. Gli indizi che la fanno decidere oggi sono gli stessi che userà per il futuro.

4. Quali sono gli "Indizi" Magici?

Cosa ha scoperto l'AI che è così importante? Non sono cose strane o genetiche complesse. Sono le cose che un medico umano controllerebbe ogni giorno:

Memoria: Quanto ricordi le cose recenti?
Orientamento: Sai che giorno è? Sai dove sei?
Giudizio: Sai prendere decisioni semplici?
Attenzione: Riesci a concentrarti?
Attività quotidiane: Riesci a pagare le bollette o a fare la spesa da solo?

L'AI ha confermato quello che i medici sanno da sempre: sono le funzioni cognitive e pratiche a contare di più. La genetica ha un ruolo, ma è come un "sussurro" rispetto al "grido" dei sintomi cognitivi.

5. La Conclusione: Fiducia per i Medici

Perché questo studio è importante?
Perché finora l'AI in medicina era vista con sospetto: "Funziona, ma non sappiamo perché".
Questo studio ha costruito un certificato di qualità. Ha dimostrato che:

L'AI non è capricciosa: le sue spiegazioni sono stabili.
Le spiegazioni sono coerenti: dicono la stessa cosa sia per la diagnosi che per il futuro.
Le spiegazioni sono affidabili: si basano su sintomi reali e comprensibili.

In sintesi:
Immagina che l'AI sia un nuovo assistente medico. Prima, lo avevamo in ufficio ma non parlava. Ora, grazie a questo studio, abbiamo un manuale di istruzioni che ci garantisce che quando l'assistente dice "Attenzione, questo paziente ha l'Alzheimer", lo sta dicendo basandosi sugli stessi indizi logici che un medico esperto userebbe, sia per guardare il presente che per prevedere il futuro. Questo rende l'AI un vero partner, non un mistero, e apre la strada per usarla nei reparti ospedalieri reali per salvare vite.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Miglioramento dell'Esplicabilità SHAP per Modelli ML Diagnostici e Prognostici nella Malattia di Alzheimer

1. Il Problema

La diagnosi e la prognosi della Malattia di Alzheimer (AD) si basano sempre più su modelli di Machine Learning (ML). Sebbene questi modelli offrano prestazioni elevate, la loro adozione clinica è limitata da due fattori principali: la complessità tecnica richiesta per la loro interpretazione e la mancanza di spiegazioni affidabili e coerenti.
Attualmente, l'uso di SHAP (SHapley Additive exPlanations) per interpretare i modelli AD è diffuso, ma la letteratura presenta carenze significative:

Approccio isolato: Gli studi si concentrano spesso su spiegazioni per singoli modelli o compiti specifici, senza valutare la robustezza delle spiegazioni attraverso diverse fasi della malattia, architetture di modelli o obiettivi predittivi.
Mancanza di validazione quantitativa: Le spiegazioni sono spesso valutate qualitativamente (ispezione visiva) senza metriche che ne misurino la stabilità, la coerenza o la trasferibilità tra scenari clinici diversi (es. dalla diagnosi alla prognosi).
Barriera alla fiducia: La natura "black-box" degli algoritmi e l'assenza di una validazione sistematica delle spiegazioni ostacolano l'integrazione nei flussi di lavoro medici.

2. Metodologia

Gli autori propongono un framework di esplicabilità multilivello progettato per quantificare la coerenza, la stabilità e la consistenza delle spiegazioni SHAP. Lo studio è stato condotto utilizzando il dataset NACC-UDS (National Alzheimer's Coordinating Center Uniform Data Set), che include dati clinici e comportamentali longitudinali.

Pipeline Sperimentale:

Dati: Utilizzo di 53.318 partecipanti unici (195.196 istanze) con variabili divise in gruppi funzionali (FAQ), valutazioni cognitive (CDR, MMSE), dati genetici e indicatori di visita.
Preprocessing: Gestione dei valori mancanti (rimozione >50%, imputazione mediana/mode), scalatura delle variabili numeriche e codifica one-hot/frequenza per quelle categoriali.
AutoML: Utilizzo della libreria PyCaret per automatizzare la selezione del modello e l'ottimizzazione degli iperparametri.
Compiti:
1. Diagnosi: Classificazione degli stati cognitivi attuali (NC, MCI, AD) in quattro scenari (binari e multiclasse).
2. Prognosi: Predizione dello stato cognitivo futuro (4 anni dopo la visita iniziale) negli stessi quattro scenari.
Metriche di Valutazione dell'Esplicabilità: Il framework introduce tre livelli di analisi quantitativa:
1. Coerenza intra-modello: Confronto tra l'Importanza delle Caratteristiche (FI) interna al modello e i valori SHAP (usando correlazione di Spearman, Jaccard@k, Precisione/Recall).
2. Stabilità intra-task: Confronto delle spiegazioni SHAP tra diversi scenari clinici (es. NC vs AD vs MCI vs AD) per valutare la stabilità attraverso le fasi della malattia.
3. Trasferibilità cross-task: Confronto tra le spiegazioni dei modelli diagnostici e quelli prognostici per verificare se le stesse strutture esplicative valgono per entrambi gli obiettivi.
Metriche specifiche: Correlazione di Spearman ( $\rho$ ) e Kendall ( $\tau$ ), sovrapposizione Jaccard (top-k), consistenza del segno SHAP, e variazione media dell'entità SHAP ( $\Delta|SHAP|$ ).

3. Contributi Chiave

Framework Quantitativo: Introduzione di un metodo sistematico per trattare l'esplicabilità non come un elemento puramente qualitativo, ma come una proprietà misurabile e validabile.
Validazione della Robustezza: Dimostrazione che le spiegazioni SHAP possono essere validate quantitativamente per la loro robustezza e trasferibilità attraverso diverse fasi della malattia e obiettivi predittivi.
Integrazione AutoML-XAI: Dimostrazione pratica dell'uso di piattaforme AutoML (PyCaret) per generare modelli ad alte prestazioni con spiegazioni integrate, riducendo la barriera tecnica per i clinici.
Analisi Multidimensionale: Spostamento del focus dall'analisi di singoli modelli all'analisi della coerenza tra modelli, compiti e scenari clinici.

4. Risultati

Prestazioni dei Modelli: I modelli AutoML hanno ottenuto prestazioni elevate (es. Diagnosi NC vs AD: Accuratezza 0.986, AUC 0.998; Prognosi NC vs AD: Accuratezza 0.926, AUC 0.976).
Coerenza Intra-Modello: È stata osservata una coerenza da media ad alta tra FI e SHAP (Spearman $\rho$ tra 0.50 e 0.95). I modelli prognostici hanno mostrato un allineamento SHAP-FI più forte rispetto a quelli diagnostici.
Stabilità Cross-Task (Diagnosi vs Prognosi):
- Alta Correlazione: La coerenza SHAP-SHAP tra diagnosi e prognosi è stata molto alta ( $\rho = 0.61 - 0.94$ ).
- Consistenza del Segno: Il 100% dei segni SHAP è rimasto stabile, indicando che le stesse caratteristiche influenzano le previsioni nella stessa direzione in entrambi i compiti.
- Minima Variazione di Magnitudine: La variazione media nell'entità esplicativa ( $\Delta|SHAP|$ ) è stata minima (< 0.03), suggerendo che i predittori chiave mantengono la loro forza esplicativa.
Fattori Dominanti: Sia per la diagnosi che per la prognosi, i marcatori cognitivi e funzionali (es. MEMORY, JUDGMENT, ORIENT, PAYATTN, BILLS, TAXES) dominano le spiegazioni SHAP. I marcatori genetici mostrano un peso leggermente maggiore nella prognosi, ma rimangono secondari rispetto alle valutazioni cognitive.
Stabilità per Fase: La stabilità delle spiegazioni è più alta nelle transizioni tra stadi avanzati (es. MCI vs AD) rispetto alle transizioni precoci (NC vs MCI), dove l'eterogeneità dei dati rende i marcatori più variabili.

5. Significato e Implicazioni

Fiducia Clinica: Il framework fornisce ai clinici prove quantitative che le spiegazioni dei modelli ML sono stabili e coerenti, facilitando la fiducia necessaria per l'adozione clinica.
Validazione della Robustezza: Dimostra che i marcatori identificati dai modelli ML non sono artefatti di specifici dataset o architetture, ma riflettono meccanismi della malattia coerenti (autoregressivi) attraverso il tempo e gli stati clinici.
Metodologia Riproducibile: Offre una metodologia riproducibile per valutare l'esplicabilità in altri contesti clinici, spostando il paradigma verso sistemi ML "trustworthy" (affidabili).
Limitazioni e Futuro: Lo studio si è limitato a dati tabulari clinici. Le future ricerche dovranno estendere questo framework a dati multimodali (es. combinazione di dati clinici con immagini MRI/PET) e analizzare la stabilità longitudinale delle spiegazioni nel tempo.

In sintesi, il paper dimostra che l'uso di metriche quantitative per valutare la stabilità e la coerenza delle spiegazioni SHAP è fondamentale per trasformare i modelli ML da strumenti "black-box" a sistemi di supporto decisionale affidabili nella pratica clinica per l'Alzheimer.