Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Each language version is independently generated for its own context, not a direct translation.

De Ziekte van Alzheimer en de "Zwarte Doos": Hoe we AI betrouwbaarder maken

Stel je voor dat Alzheimer een enorme, donkere kamer is. Artsen weten dat er iets mis is, maar ze kunnen de lichten nog niet volledig aan doen om precies te zien wat er gebeurt. Vroeger waren ze volledig afhankelijk van hun eigen ervaring en intuïtie. Vandaag de dag hebben ze een nieuwe hulpmiddel: Kunstmatige Intelligentie (AI). Deze AI kan enorme hoeveelheden patiëntgegevens bekijken en zeggen: "Ik denk dat deze persoon Alzheimer heeft" of "Deze persoon zal binnen vier jaar verslechteren."

Maar hier zit een probleem: de AI is een "Zwarte Doos". Hij geeft het antwoord, maar vertelt niet waarom. Voor een arts is dat gevaarlijk. Als een AI zegt dat iemand ziek is, wil de arts weten: "Is dat omdat de patiënt slecht kan onthouden? Of omdat hij moeite heeft met rekenen? Of is het gewoon een toevalstreffer?"

Dit artikel van Pablo Guillén en Enrique Frias-Martinez gaat over het openen van die zwarte doos en het controleren of de verklaringen die de AI geeft, betrouwbaar en stabiel zijn.

De Analogie: De Twee Detectives

Om dit te begrijpen, laten we twee detectives in het spel brengen:

Detective AI (De Machine): Deze kijkt naar duizenden dossiers en vindt patronen die mensen vaak missen.
Detective SHAP (De Vertaler): Deze detective probeert uit te leggen wat de AI heeft gezien. Hij zegt bijvoorbeeld: "De AI dacht dat de patiënt ziek was, vooral omdat hij moeite had met 'Pay Attention' (Aandacht) en 'Judgment' (Oordeel)."

Het probleem in het verleden was dat elke keer als je een nieuwe AI-trainingsronde deed, Detective SHAP een ander verhaal vertelde. Soms zei hij: "Het is de geheugenproblemen!" en de volgende keer: "Nee, het is de taal!" Als de verklaringen zo vaak veranderen, kunnen artsen de AI niet vertrouwen.

Wat hebben de onderzoekers gedaan?

De onderzoekers hebben een nieuwe testmethode bedacht om te kijken of Detective SHAP eerlijk en consistent is. Ze hebben dit gedaan in drie stappen, alsof ze een spiegel gebruiken om de AI te controleren:

Stap 1: De Interne Check (Zegt de AI wat hij denkt?)

Ze keken of de interne logica van de AI overeenkwam met wat SHAP vertelde.

Vergelijking: Stel je voor dat een chef-kok (de AI) een gerecht maakt en zegt: "Ik heb veel peper gebruikt." De vertaler (SHAP) moet dan ook zeggen: "Ja, de peper is hier belangrijk." Als de vertaler zegt: "Nee, het is de zout," dan klopt er iets niet.
Resultaat: De onderzoekers zagen dat de AI en de vertaler meestal wel op één lijn zaten. De AI was consistent in zijn denken.

Stap 2: De Reis door de Tijd (Verandert het verhaal als de ziekte erger wordt?)

Alzheimer verloopt in stadia: van normaal (NC) naar lichte geheugenproblemen (MCI) naar ernstige ziekte (AD).

Vergelijking: Stel je voor dat je een auto bekijkt. Als de auto een klein krasje heeft, zeg je: "Kijk naar de kras." Als de auto een motorstoring heeft, zeg je: "Kijk naar de motor." De onderzoekers wilden weten: Verandert de AI zijn verhaal volledig als de ziekte erger wordt?
Resultaat: Gelukkig niet! De belangrijkste "krassen" (de symptomen zoals geheugen en oriëntatie) bleven belangrijk, of de patiënt nu in een vroeg of laat stadium zat. De verklaringen waren stabiel.

Stap 3: De Voorspelling (Werkt het verhaal ook voor de toekomst?)

Ze keken of de AI dezelfde redenering gebruikte om te diagnose (huidige ziekte) als om te prognosticeren (voorspellen of iemand over 4 jaar slechter wordt).

Vergelijking: Als een meteoroloog zegt dat het regent omdat er donkere wolken zijn, moet hij ook zeggen dat het morgen gaat regenen omdat diezelfde donkere wolken er nog zijn. Als hij morgen zegt: "Het regent omdat de wind draait," dan is hij onbetrouwbaar.
Resultaat: De AI gebruikte bijna dezelfde redenering voor beide taken. De belangrijkste factoren (zoals cognitieve tests) bleven leidend.

Wat hebben ze ontdekt?

De onderzoekers gebruikten een enorme database met gegevens van Alzheimer-patiënten (de NACC-database). Ze lieten de AI werken met een slimme tool genaamd AutoML (een soort "automatische chef-kok" die de beste AI-modellen kiest zonder dat een computerexpert alles handmatig hoeft te doen).

Hun belangrijkste ontdekkingen waren:

De grote winnaars: De AI keek bijna altijd naar dezelfde dingen: Geheugen, Oriëntatie, Oordeel en Aandacht. Dit zijn de "grote rode vlaggen" die de ziekte aangeven.
Stabiliteit: De verklaringen veranderden niet wild. Als de AI zei dat geheugen belangrijk was, bleef dat belangrijk, of je nu keek naar een mild geval of een ernstig geval.
Vertrouwen: Omdat de verklaringen stabiel zijn, kunnen artsen de AI nu meer vertrouwen. Ze weten dat de AI niet "raar doet" of toevallige patronen ziet, maar echt de ziekte begrijpt.

Waarom is dit belangrijk voor jou?

Stel je voor dat je arts een AI gebruikt om te zeggen of je Alzheimer hebt.

Vroeger: De arts zou kunnen zeggen: "De computer zegt ja, maar ik snap niet waarom. Misschien is het de computer die het verkeerd heeft."
Nu (met deze nieuwe methode): De arts kan zeggen: "De computer zegt ja, en hij is het hierover eens met andere modellen en met de huidige medische kennis: jouw geheugen en oordeel zijn de belangrijkste signalen. We kunnen dit vertrouwen."

Conclusie

Dit artikel is als het bouwen van een betrouwbare brug tussen de complexe wereld van computers en de menselijke wereld van artsen en patiënten. Ze hebben laten zien dat we AI niet alleen moeten gebruiken om diagnoses te stellen, maar dat we ook kunnen controleren of de reden achter die diagnose eerlijk en consistent is.

Door deze "stabiliteitstest" te gebruiken, maken ze AI niet alleen slimmer, maar vooral ook betrouwbaarder voor de mensen die er het meest afhankelijk van zijn: de patiënten en hun artsen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Versterking van SHAP-Verklaringen voor Diagnostische en Prognostische ML-Modellen bij de Ziekte van Alzheimer

1. Het Probleem

De diagnose en prognose van de ziekte van Alzheimer (AD) maken steeds meer gebruik van machine learning (ML)-modellen. Hoewel deze modellen hoge nauwkeurigheid bereiken, is hun adoptie in klinische omgevingen beperkt door twee factoren:

Complexiteit: De noodzaak van technische expertise voor training en interpretatie.
Gebrek aan betrouwbaarheid: Bestaande verklaringen (XAI) zijn vaak kwalitatief, geïsoleerd per model en missen validatie op stabiliteit. Er is weinig bewijs dat de verklaringen robuust zijn over verschillende ziektestadia, modelarchitecturen of voorspellingsdoelen (diagnose vs. prognose) heen. Bestaande studies focussen vaak op één model zonder te evalueren of de gevonden "biomarkers" consistent blijven.

2. Methodologie

De auteurs stellen een multi-level verklbaarheidskader voor om de coherentie, stabiliteit en consistentie van SHAP-verklaringen (SHapley Additive exPlanations) kwantitatief te meten.

Dataset: Gebruik van de National Alzheimer's Coordinating Center - Uniform Data Set (NACC-UDS), met data van 2005-2025 (195.196 instanties, 1.024 variabelen). De data omvat demografische, medische, neuropsychologische en genetische variabelen.
AutoML Implementatie: Gebruik van PyCaret om modellen te optimaliseren zonder handmatige feature-selectie of hyperparameter-tuning. Dit verlaagt de drempel voor klinische toepassing.
Taken en Scenario's:
- Diagnose: Classificatie van cognitieve staten (NC = Normale Controle, MCI = Mild Cognitive Impairment, AD = Alzheimer) op basis van de huidige visit.
- Prognose: Voorspelling van de cognitieve staat 4 jaar na de initiële visit.
- Er werden 8 modellen getraind (4 diagnostisch, 4 prognostisch) voor verschillende binair en multiclass scenario's (bijv. NC vs AD, MCI vs AD, NC vs MCI vs AD).
Verklaringstechnieken:
- Feature Importance (FI): Permutatie-importantie (intrinsic aan het model).
- SHAP: Post-hoc, model-agnostische verklaringen.
Validatiemetrics: Het kader introduceert kwantitatieve metrics om stabiliteit te meten:
1. Within-Model Coherentie: Correlatie tussen FI en SHAP (Spearman's $\rho$ , Kendall's $\tau$ , Jaccard@10/20, Precision/Recall).
2. Cross-Scenario Stabiliteit: Vergelijking van SHAP-verklaringen tussen verschillende ziektestadia (bijv. NC vs AD vs. MCI vs AD).
3. Cross-Task Transferabiliteit: Vergelijking tussen diagnostische en prognostische modellen (SHAP-SHAP consistentie, tekenconsistentie, en verandering in magnitude $\Delta|SHAP|$ ).

3. Belangrijkste Bijdragen

Kwantitatief Kader: De eerste systematische poging om verklaringen niet alleen visueel, maar via statistische metrics (stabiliteit, coherentie, transferabiliteit) te valideren.
Multi-Level Analyse: Een nieuwe aanpak die kijkt naar consistentie binnen een model, tussen verschillende stadia van de ziekte, en tussen diagnose en prognose.
AutoML in de Kliniek: Demonstratie dat AutoML (PyCaret) effectief kan worden ingezet voor complexe medische taken met ingebouwde XAI, waardoor de afhankelijkheid van data scientists wordt verminderd.
Validatie van Robuustheid: Het bewijzen dat SHAP-verklaringen voor AD niet willekeurig zijn, maar stabiele klinische patronen volgen.

4. Resultaten

Modelprestaties: De modellen presteerden uitstekend. Voor de diagnose (NC vs AD) werd een nauwkeurigheid van 0,986 en een AUC van 0,998 bereikt (XGBoost). Voor prognose (NC vs AD) werd een nauwkeurigheid van 0,926 en AUC van 0,976 behaald (LightGBM).
Klinische Markers: Cognitieve en functionele markers domineerden de verklaringen in alle scenario's. De belangrijkste features waren:
- CDR-domeinen: MEMORY, JUDGMENT, ORIENT, COMMUN.
- Functionele activiteiten: PAYATTN, BILLS, TAXES, TRAVEL.
- Genetische markers (zoals APOE) hadden een moderate tot lage bijdrage, maar namen iets toe in prognostische modellen.
Stabiliteitsbevindingen:
- Within-Model: Er was een sterke coherentie tussen FI en SHAP (Spearman's $\rho$ varieerde van 0,50 tot 0,95). Prognostische modellen toonden een hogere alignement dan diagnostische modellen.
- Cross-Scenario: De stabiliteit was het hoogst bij vergelijkingen tussen gevorderde stadia (bijv. MCI vs AD). Vroege overgangen (NC vs MCI) toonden meer variatie, wat wijst op de complexiteit van vroege ziekteprogressie.
- Cross-Task (Diagnose vs. Prognose): Er was een zeer hoge consistentie tussen diagnostische en prognostische verklaringen.
  - Tekenconsistentie: 100% (alle gedeelde features hadden dezelfde richting van invloed).
  - Magnitude: Minimale verandering in de grootte van de SHAP-waarden ( $\Delta|SHAP| < 0,03$ ).
  - Dit suggereert dat dezelfde basisfactoren die de huidige diagnose bepalen, ook de toekomstige progressie voorspellen (autoregressief karakter van AD).

5. Betekenis en Conclusie

Dit onderzoek verschuift de focus van "kwalitatieve inspectie" van SHAP-plots naar "kwantitatieve validatie" van verklaringen.

Vertrouwen: De bevindingen tonen aan dat ML-modellen voor AD niet alleen accuraat zijn, maar ook betrouwbare en stabiele verklaringen geven die consistent blijven over verschillende taken en ziektestadia. Dit is cruciaal voor het opbouwen van vertrouwen bij clinici.
Klinische Toepasbaarheid: Het kader biedt een reproduceerbare methode om te valideren of een ML-systeem klaar is voor klinische implementatie. Het bewijst dat de gevonden biomarkers (zoals geheugen en oriëntatie) robuust zijn en niet slechts artefacten van een specifiek model of dataset.
Toekomst: Het kader kan worden uitgebreid naar multimodale data (bijv. MRI/PET scans) en andere ziekten om de robuustheid van XAI-methoden verder te testen.

Kortom, de paper levert het bewijs dat SHAP-verklaringen voor Alzheimer-voorspelling wetenschappelijk onderbouwd, stabiel en klinisch relevant zijn, mits ze worden geëvalueerd met een gestructureerd, multi-dimensionaal kader.