Enhancing SHAP Explainability for Diagnostic and Prognostic ML Models in Alzheimer Disease

Dit paper introduceert een multi-niveau framework om de robuustheid en consistentie van SHAP-verklaringen voor diagnostische en prognostische machine learning-modellen bij Alzheimer te valideren, waarbij wordt aangetoond dat cognitieve en functionele markers stabiel blijven over verschillende ziektestadia en modelarchitecturen heen.

Pablo Guillén, Enrique Frias-Martinez

Gepubliceerd 2026-03-10
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

De Ziekte van Alzheimer en de "Zwarte Doos": Hoe we AI betrouwbaarder maken

Stel je voor dat Alzheimer een enorme, donkere kamer is. Artsen weten dat er iets mis is, maar ze kunnen de lichten nog niet volledig aan doen om precies te zien wat er gebeurt. Vroeger waren ze volledig afhankelijk van hun eigen ervaring en intuïtie. Vandaag de dag hebben ze een nieuwe hulpmiddel: Kunstmatige Intelligentie (AI). Deze AI kan enorme hoeveelheden patiëntgegevens bekijken en zeggen: "Ik denk dat deze persoon Alzheimer heeft" of "Deze persoon zal binnen vier jaar verslechteren."

Maar hier zit een probleem: de AI is een "Zwarte Doos". Hij geeft het antwoord, maar vertelt niet waarom. Voor een arts is dat gevaarlijk. Als een AI zegt dat iemand ziek is, wil de arts weten: "Is dat omdat de patiënt slecht kan onthouden? Of omdat hij moeite heeft met rekenen? Of is het gewoon een toevalstreffer?"

Dit artikel van Pablo Guillén en Enrique Frias-Martinez gaat over het openen van die zwarte doos en het controleren of de verklaringen die de AI geeft, betrouwbaar en stabiel zijn.

De Analogie: De Twee Detectives

Om dit te begrijpen, laten we twee detectives in het spel brengen:

  1. Detective AI (De Machine): Deze kijkt naar duizenden dossiers en vindt patronen die mensen vaak missen.
  2. Detective SHAP (De Vertaler): Deze detective probeert uit te leggen wat de AI heeft gezien. Hij zegt bijvoorbeeld: "De AI dacht dat de patiënt ziek was, vooral omdat hij moeite had met 'Pay Attention' (Aandacht) en 'Judgment' (Oordeel)."

Het probleem in het verleden was dat elke keer als je een nieuwe AI-trainingsronde deed, Detective SHAP een ander verhaal vertelde. Soms zei hij: "Het is de geheugenproblemen!" en de volgende keer: "Nee, het is de taal!" Als de verklaringen zo vaak veranderen, kunnen artsen de AI niet vertrouwen.

Wat hebben de onderzoekers gedaan?

De onderzoekers hebben een nieuwe testmethode bedacht om te kijken of Detective SHAP eerlijk en consistent is. Ze hebben dit gedaan in drie stappen, alsof ze een spiegel gebruiken om de AI te controleren:

Stap 1: De Interne Check (Zegt de AI wat hij denkt?)

Ze keken of de interne logica van de AI overeenkwam met wat SHAP vertelde.

  • Vergelijking: Stel je voor dat een chef-kok (de AI) een gerecht maakt en zegt: "Ik heb veel peper gebruikt." De vertaler (SHAP) moet dan ook zeggen: "Ja, de peper is hier belangrijk." Als de vertaler zegt: "Nee, het is de zout," dan klopt er iets niet.
  • Resultaat: De onderzoekers zagen dat de AI en de vertaler meestal wel op één lijn zaten. De AI was consistent in zijn denken.

Stap 2: De Reis door de Tijd (Verandert het verhaal als de ziekte erger wordt?)

Alzheimer verloopt in stadia: van normaal (NC) naar lichte geheugenproblemen (MCI) naar ernstige ziekte (AD).

  • Vergelijking: Stel je voor dat je een auto bekijkt. Als de auto een klein krasje heeft, zeg je: "Kijk naar de kras." Als de auto een motorstoring heeft, zeg je: "Kijk naar de motor." De onderzoekers wilden weten: Verandert de AI zijn verhaal volledig als de ziekte erger wordt?
  • Resultaat: Gelukkig niet! De belangrijkste "krassen" (de symptomen zoals geheugen en oriëntatie) bleven belangrijk, of de patiënt nu in een vroeg of laat stadium zat. De verklaringen waren stabiel.

Stap 3: De Voorspelling (Werkt het verhaal ook voor de toekomst?)

Ze keken of de AI dezelfde redenering gebruikte om te diagnose (huidige ziekte) als om te prognosticeren (voorspellen of iemand over 4 jaar slechter wordt).

  • Vergelijking: Als een meteoroloog zegt dat het regent omdat er donkere wolken zijn, moet hij ook zeggen dat het morgen gaat regenen omdat diezelfde donkere wolken er nog zijn. Als hij morgen zegt: "Het regent omdat de wind draait," dan is hij onbetrouwbaar.
  • Resultaat: De AI gebruikte bijna dezelfde redenering voor beide taken. De belangrijkste factoren (zoals cognitieve tests) bleven leidend.

Wat hebben ze ontdekt?

De onderzoekers gebruikten een enorme database met gegevens van Alzheimer-patiënten (de NACC-database). Ze lieten de AI werken met een slimme tool genaamd AutoML (een soort "automatische chef-kok" die de beste AI-modellen kiest zonder dat een computerexpert alles handmatig hoeft te doen).

Hun belangrijkste ontdekkingen waren:

  1. De grote winnaars: De AI keek bijna altijd naar dezelfde dingen: Geheugen, Oriëntatie, Oordeel en Aandacht. Dit zijn de "grote rode vlaggen" die de ziekte aangeven.
  2. Stabiliteit: De verklaringen veranderden niet wild. Als de AI zei dat geheugen belangrijk was, bleef dat belangrijk, of je nu keek naar een mild geval of een ernstig geval.
  3. Vertrouwen: Omdat de verklaringen stabiel zijn, kunnen artsen de AI nu meer vertrouwen. Ze weten dat de AI niet "raar doet" of toevallige patronen ziet, maar echt de ziekte begrijpt.

Waarom is dit belangrijk voor jou?

Stel je voor dat je arts een AI gebruikt om te zeggen of je Alzheimer hebt.

  • Vroeger: De arts zou kunnen zeggen: "De computer zegt ja, maar ik snap niet waarom. Misschien is het de computer die het verkeerd heeft."
  • Nu (met deze nieuwe methode): De arts kan zeggen: "De computer zegt ja, en hij is het hierover eens met andere modellen en met de huidige medische kennis: jouw geheugen en oordeel zijn de belangrijkste signalen. We kunnen dit vertrouwen."

Conclusie

Dit artikel is als het bouwen van een betrouwbare brug tussen de complexe wereld van computers en de menselijke wereld van artsen en patiënten. Ze hebben laten zien dat we AI niet alleen moeten gebruiken om diagnoses te stellen, maar dat we ook kunnen controleren of de reden achter die diagnose eerlijk en consistent is.

Door deze "stabiliteitstest" te gebruiken, maken ze AI niet alleen slimmer, maar vooral ook betrouwbaarder voor de mensen die er het meest afhankelijk van zijn: de patiënten en hun artsen.