Multi-criterion uncertainty estimation improves skin cancer… — Begrijpelijke uitleg

Oorspronkelijke auteurs: Schreyer, W. M., Samathan, R., Berry, E., Thompson, R. F.

Gepubliceerd 2026-02-27

📖 4 min leestijd☕ Koffiepauze-leesvoer

Oorspronkelijke auteurs: Schreyer, W. M., Samathan, R., Berry, E., Thompson, R. F.

Oorspronkelijk artikel gelicentieerd onder CC BY 4.0 (https://creativecommons.org/licenses/by/4.0/). ⚕️ Dit is een AI-gegenereerde uitleg van een preprint die niet peer-reviewed is. Dit is geen medisch advies. Neem geen gezondheidsbeslissingen op basis van deze inhoud. Lees de volledige disclaimer

Hoe een slimme "controleur" de diagnose van huidkanker veiliger maakt

Stel je voor dat je een zeer getrainde detective hebt die gespecialiseerd is in het herkennen van huidkanker. Deze detective is getraind met duizenden foto's van moedervlekken uit een heel specifiek ziekenhuis in Australië en Oostenrijk. Hij is zo goed geworden dat hij bijna elke moedervlek op die foto's perfect kan benoemen.

Maar hier zit het probleem: als je deze detective nu een foto geeft van een patiënt in Brazilië, genomen met een gewone smartphone in de zon, of een foto van iemand met een heel andere huidskleur, raakt hij in de war. Hij ziet dingen die hij nooit heeft gezien: haar in de foto, een liniaal, een andere cameraflits, of gewoon een huidtype dat niet in zijn "trainingsboek" staat. Hij blijft dan toch een antwoord geven, maar dat antwoord is vaak fout. Dit is wat er gebeurt met huidige kunstmatige intelligentie (AI) in de geneeskunde: ze werkt perfect in de klas, maar faalt vaak in de echte wereld.

De oplossing: De "SAGE"-controleur

De auteurs van dit onderzoek hebben een nieuwe methode bedacht, genaamd SAGE. Je kunt SAGE zien als een kwaliteitscontroleur die voor de detective werkt.

In plaats van dat de detective direct zegt: "Dit is kanker!", kijkt SAGE eerst naar de foto en zegt: "Hé, deze foto lijkt niet op de foto's waar mijn detective voor getraind is. Er zit haar in, de belichting is raar, en de huidskleur is anders. Ik ben niet zeker of we deze foto aan de detective mogen geven."

Hoe werkt SAGE precies? (De drie checkpunten)

SAGE kijkt naar drie dingen om te bepalen of een foto "verdacht" is (in het vakjargon: out-of-distribution):

De "Vergelijkings-Check": SAGE vergelijkt de nieuwe foto met duizenden oude foto's. Als de nieuwe foto er heel anders uitziet (bijvoorbeeld een rare hoek of een liniaal erbij), krijgt hij een hoge "verwarringsscore".
Het "Zekerheids-Check": SAGE vraagt de detective: "Hoe zeker ben je?" Als de detective twijfelt (hij zegt: "Ik denk dat het 50/50 is"), krijgt de foto een hoge score.
De "Herinnerings-Check": SAGE probeert de foto uit het hoofd te tekenen (reconstrueren) op basis van wat hij kent. Als hij de foto niet goed kan nabootsen omdat hij er geen ervaring mee heeft, is de foto waarschijnlijk "raar".

SAGE combineert deze drie checks tot één SAGE-score.

Lage score: "Deze foto is veilig, de detective mag werken."
Hoge score: "Stop! Deze foto is te anders. Gooi hem weg voordat de detective een fout maakt."

Wat hebben ze ontdekt?

De onderzoekers hebben deze methode getest met foto's uit landen als Argentinië, de VS, Turkije en Brazilië. Ze ontdekten een paar belangrijke dingen:

De "Ruler" en "Haar" valkuil: Foto's met een meetlat (liniaal) erbij of veel haar op de huid kregen vaak een hoge SAGE-score. Dit betekent dat de AI deze foto's als "verdacht" herkent, wat goed is, omdat deze foto's vaak leiden tot fouten.
Huidskleur: Mensen met een donkere huidskleur kregen vaker hoge SAGE-scores. Dit komt omdat de AI getraind is op lichte huid. Door deze foto's te filteren (weg te halen), werd de diagnose voor de resterende foto's juist veiliger en eerlijker.
Betere diagnose: Als ze de "verdachte" foto's (die hoge SAGE-scores hadden) verwijderden voordat ze de diagnose stelden, werd de AI veel accurater. Het was alsof je een team van artsen laat werken, maar alleen de patiënten doorlaat die precies op de foto's lijken die ze in hun opleiding hebben gezien.

Waarom is dit belangrijk?

Voor nu is AI in de dermatologie vaak als een automatische tol die alleen werkt als je precies in de juiste rij staat. Als je in de verkeerde rij staat, blokkeert de tol niet, maar hij laat je wel door met een verkeerde boete.

SAGE is als een slimme poortwachter die zegt: "Je staat in de verkeerde rij. Ga niet door, want dan krijg je een verkeerde boete. Ga eerst even bij de receptionist (de arts) langs."

Conclusie

Dit onderzoek laat zien dat we AI in de geneeskunde niet blindelings moeten vertrouwen. Door een slimme "controleur" (SAGE) toe te voegen die kijkt of een foto wel past bij wat de AI kent, kunnen we:

Fouten voorkomen.
Zorgen dat mensen met donkere huidskleur niet worden benadeeld door slechte data.
De AI gebruiken als een hulpmiddel, niet als een vervanger, zodat artsen alleen de moeilijke gevallen zelf hoeven te bekijken.

Het is een stap in de richting van een veiliger, eerlijker en slimmer gebruik van technologie voor onze gezondheid.

Probleemstelling

Hoewel machine learning (ML) modellen voor de diagnose van huidkanker hoge prestaties behalen op gestandaardiseerde benchmarkdatasets (zoals HAM10000), vertonen deze modellen vaak een sterke prestatiedaling wanneer ze worden toegepast op data uit verschillende klinische bronnen. Deze "generalisatiekloof" ontstaat door grote variabiliteit in huidlaesie-afbeeldingen veroorzaakt door:

Verschillen in verlichting, opnamehoek en beeldvormingstechnologie (bijv. dermatoscoop vs. smartphone).
Variatie in patiëntfenotypes (vooral huidskleur).
Aanwezigheid van beeldartefacten (bijv. haar, meetinstrumenten, onscherpte).
Het voorkomen van nieuwe diagnostische klassen die niet in de trainingsdata zitten.

Bestaande methoden voor onzekerheidsquantificatie (Uncertainty Quantification - UQ), zoals het gebruik van maximale softmax-waarschijnlijkheid, falen vaak stilzwijgend bij data-drift en bieden weinig flexibiliteit om aan te passen aan verschillende taken of sterkere modellen. Er is een dringende behoefte aan een robuust systeem dat kan detecteren of een nieuwe afbeelding "out-of-distribution" (OOD) is ten opzichte van het trainingsset, voordat deze wordt gebruikt voor klinische beslissingen.

Methodologie: SAGE

De auteurs introduceren SAGE (Supervised Autoencoders for Generalization Estimates), een nieuwe multi-criteria aanpak voor onzekerheidsquantificatie die zowel toezicht (supervised) als onzichthouding (unsupervised) signalen combineert.

1. Modelarchitectuur:

SAGE is gebaseerd op een Supervised Autoencoder met een ResNet-50 encoder (vooraf getraind op ImageNet).
De architectuur bestaat uit drie modules die gezamenlijk worden getraind:
- Encoder: Comprimeert de inputafbeelding naar een 256-dimensionale latent embedding.
- Decoder: Reconstructeert de originele afbeelding uit de embedding (onzichtbaarheidsmeting).
- Classifier: Voorspelt de diagnostische klasse (toezichtmeting).

2. Trainingsdata:

Het model is getraind op de HAM10000 dataset (10.015 afbeeldingen, voornamelijk dermatoscopisch, Australië/Österreich).
De dataset is gesplitst in trainings- en testsets, waarbij zorgvuldig is voorkomen dat dezelfde laesies in beide sets voorkomen.

3. Berekening van de SAGE-score (Uncertainty Score):
Voor elke nieuwe afbeelding worden drie onafhankelijke maten berekend en omgezet in "exceedance probabilities" (de kans dat een waarde extremer is dan in de trainingsdata):

$x_1$ (Latent Distance): De L1-afstand tot de $k=20$ dichtstbijzijnde buren in de trainings-embeddingruimte (kNN).
$x_2$ (Classifier Confidence): De softmax-voorspelling van de classifier (argmax).
$x_3$ (Reconstruction Error): De Mean Squared Error (MSE) tussen de originele en gereconstrueerde afbeelding.

De SAGE-score wordt berekend als het geometrisch gemiddelde van deze drie exceedance probabilities. Een hogere score duidt op een grotere onzekerheid en een grotere kans dat de afbeelding OOD is.

4. Validatie en Vergelijking:

De prestaties van SAGE werden getest op vijf externe datasets uit zes landen (HIBA, UFES, DDI, MILK10K, Caltech-101) met verschillende beeldvormingstechnieken en patiëntpopulaties.
SAGE werd vergeleken met traditionele UQ-methoden: Ensemble Maximum Softmax Probability (MSP), Mutual Information (MI) en Entropie via Monte-Carlo Dropout.
Er werd een risico-dekking analyse (Risk-Coverage Analysis) uitgevoerd om te zien of het filteren van afbeeldingen met hoge SAGE-scores de prestaties van een aparte maligniteit-predictiemodel (Inception v3) verbetert.

Belangrijkste Bijdragen

Novel Multi-Criteria UQ: SAGE combineert reconstructie- en classificatiefouten met latent space-afstanden om een robuustere onzekerheidsmeting te creëren dan enkelvoudige methoden.
Detectie van Distribution Shift: Het systeem kan effectief onderscheid maken tussen in-distribution (ID) data en verschillende niveaus van OOD-data, variërend van semantische verschuivingen (nieuwe ziektebeelden) tot modale verschuivingen (smartphone vs. dermatoscoop).
Interpreteerbaarheid: Door koppeling aan handmatig geannoteerde beeldkenmerken (zoals haar, meetlinialen, flits), kan SAGE specifiek "problematische" afbeeldingen identificeren die de betrouwbaarheid van voorspellingen ondermijnen.
Verbetering van Selectieve Voorspelling: Het filteren van afbeeldingen op basis van SAGE-drempelwaarden verhoogt de nauwkeurigheid van downstream maligniteit-predictiemodellen, zelfs bij data met een andere huidskleur of beeldvormingstechnologie.

Resultaten

OOD Detectie: SAGE presteerde als beste of tweede beste op alle gemengde datasets. Voor "far-OOD" (niet-huid gerelateerde objecten) werd een AUROC van 1.00 behaald. Voor complexe verschuivingen (modale en klassenverschillen) behaalde SAGE een AUROC van 0.92, significant beter dan MSP, MI of Entropie.
Invloed van Artefacten: Er werd een sterke correlatie gevonden tussen hoge SAGE-scores en specifieke artefacten. Bijvoorbeeld: aanwezigheid van een meetliniaal verhoogde de score met 7,21%, en een combinatie van haar en niet-huid-achtergrond verhoogde de score met 11,52%.
Huidskleur Bias: Afbeeldingen van patiënten met donkere huidskleur (FST V-VI) hadden van nature hogere SAGE-scores dan lichtere huidtinten, voornamelijk door artefacten zoals flits en meetinstrumenten die meer contrasteren met donkere huid. Na het filteren van deze lage-kwaliteit afbeeldingen bleek de prestatie van het maligniteit-model voor donkere huid te verbeteren (AUROC van 0,68 naar 0,78), zelfs beter dan voor lichte huid.
Selectieve Voorspelling: Het toepassen van een SAGE-drempel (90% recall op trainingsdata) resulteerde in een lagere risico-coverage curve (AURC = 0,06 voor OOD-data), wat betekent dat het model veel minder fouten maakt op de afbeeldingen die het wel voorspelt.
Nieuwe Maligniteiten: Voor volledig nieuwe kwaadaardige klassen (bijv. T-cel lymfomen) die niet in de trainingsdata zaten, hadden de modellen vaak lage intrinsieke onzekerheid (ze waren er "te zeker" van). SAGE slaagde er echter wel in om deze foutieve voorspellingen te detecteren en te filteren (81% van de False Negatives werd gevangen door de SAGE-drempel).

Betekenis en Conclusie

De studie demonstreert dat SAGE een krachtig hulpmiddel is om de veiligheid en betrouwbaarheid van AI in de dermatologie te vergroten. In plaats van te vertrouwen op de voorspelling van het model zelf, fungeert SAGE als een onafhankelijke "gatekeeper" die afbeeldingen identificeert die te veel afwijken van de trainingsverdeling.

Dit is cruciaal voor:

Klinische Implementatie: Het voorkomen van foutieve diagnoses bij patiënten met donkere huid of bij het gebruik van smartphone-camera's.
Vertrouwen: Het biedt clinicians inzicht in waarom een model mogelijk onzeker is (bijv. door aanwezigheid van haar of meetinstrumenten).
Global Health Equity: Het helpt de bestaande bias in ML-modellen te verminderen door systematisch afbeeldingen te filteren die slecht presteren op specifieke subgroepen.

De auteurs concluderen dat SAGE kan dienen als een uitgebreide "model card" die gebruikers interactief laat zien hoe hun data verschilt van de trainingsdata, wat essentieel is voor de veilige introductie van AI in de medische praktijk.

Multi-criterion uncertainty estimation improves skin cancer distribution shift detection and malignancy prediction

Probleemstelling

Methodologie: SAGE

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit