Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms verwarde arts hebt die foto's van ogen bekijkt om te zien of iemand oogziek is. Soms is deze arts heel zeker van zijn zaak, en soms twijfelt hij.

In de wereld van kunstmatige intelligentie noemen we die twijfel onzekerheid. De vraag die dit artikel beantwoordt, is: Waar zit die twijfel precies?

Het oude probleem: "Hoeveel" vs. "Waar"

Vroeger kon de computer alleen zeggen: "Ik ben 30% onzeker."
Dat is als een arts die zegt: "Ik weet het niet zeker." Maar hij vertelt je niet waarom.

Is het omdat hij twijfelt tussen twee onschuldige diagnoses (bijvoorbeeld: "Is het een kleine vlek of een grote vlek?")? Dat is niet zo erg.
Of twijfelt hij tussen een onschuldige diagnose en een levensgevaarlijke ziekte (bijvoorbeeld: "Is het een onschuldig litteken of een tumor?")? Dat is gevaarlijk.

Als de computer alleen zegt "30% onzekerheid", kun je niet weten of je moet wachten of direct naar het ziekenhuis moet rennen. De huidige methoden tellen alle twijfels bij elkaar op tot één getal, maar ze verdoezelen waar die twijfel vandaan komt.

De nieuwe oplossing: Een gedetailleerde kaart

De auteurs van dit paper hebben een nieuwe manier bedacht om die twijfel te meten. In plaats van één getal, maken ze een lijstje per categorie.

Stel je voor dat de computer een kaart maakt met een pijltje voor elke mogelijke ziekte:

Pijltje "Gezond": Geen twijfel.
Pijltje "Milde ziekte": Een beetje twijfel.
Pijltje "Gevaarlijke ziekte": Enorme twijfel!

Dit nieuwe systeem heet $C_k$ . Het is als een verlichtingspaneel in een auto. In plaats van dat alleen het waarschuwingslampje brandt ("Er is iets mis!"), zie je precies welk lampje knippert: "Brandstof", "Remmen" of "Motor".

Waarom is dit zo slim? (De "Dikke" en "Dunne" Analoge)

Een groot probleem met oude methoden is dat ze vergeten hoe zeldzaam bepaalde ziektes zijn.

Stel: Er zijn 1000 gezonde mensen en slechts 1 persoon met een zeldzame, dodelijke ziekte.
Oude methode: Omdat die ziekte zo zeldzaam is, is de kans dat de computer erover twijfelt erg klein. De oude methode zegt dan: "Geen twijfel!" (omdat de twijfel zo klein is dat hij bijna nul is). Dit is gevaarlijk, want als die ene persoon toch ziek is, heeft de computer het gemist.
Nieuwe methode ( $C_k$ ): Deze methode zegt: "Wacht even! Die twijfel is misschien klein in getal, maar omdat het om een dodelijke ziekte gaat, moeten we die twijfel opblazen."

Het is alsof je een weegschaal hebt. Als je een veertje (een gezonde diagnose) weegt, maakt het niet uit als de weegschaal een beetje trilt. Maar als je een gouden staaf (een dodelijke ziekte) weegt, moet je elke trilling van de weegschaal serieus nemen. De nieuwe methode "vermenigvuldigt" de twijfel over de zeldzame ziektes, zodat ze niet onzichtbaar worden.

Wat hebben ze bewezen?

De auteurs hebben dit getest op drie gebieden:

Oogziekten (Diabetische Retinopathie):
Ze lieten de computer foto's van ogen beoordelen. Met de oude methode werden veel ernstige gevallen over het hoofd gezien omdat de computer dacht dat de twijfel "niet hoog genoeg" was. Met de nieuwe methode ( $C_k$ ) zagen ze precies waar de twijfel zat (bij de gevaarlijke ziektes) en konden ze die patiënten sneller doorverwijzen. Het resultaat: 35% minder fouten bij het detecteren van gevaarlijke gevallen.
Vreemde dingen herkennen (Out-of-Distribution):
Stel je voor dat je een computer hebt die alleen auto's kent. Als je hem een foto van een koe geeft, moet hij zeggen: "Ik weet dit niet, dit is geen auto."
De oude methode zag soms wel dat het vreemd was, maar wist niet waarom. De nieuwe methode liet zien: "Ik twijfel niet aan de auto, ik twijfel aan alles omdat dit een koe is." Hierdoor werd het systeem veel beter in het herkennen van vreemde situaties.
Slechte data:
Ze testten ook of het systeem goed bleef werken als ze de trainingdata een beetje "vervuilde" met fouten. Het nieuwe systeem bleek robuuster: het merkte sneller op dat het zelf niet meer zeker was, zonder dat het in de war raakte door de fouten in de data.

Conclusie: Kwaliteit van de twijfel telt

De belangrijkste les uit dit paper is niet alleen hoe je twijfelt, maar waar je twijfelt.

In veilige systemen (zoals zelfrijdende auto's of medische diagnose) is het niet genoeg om te weten dat je "een beetje onzeker" bent. Je moet weten of die onzekerheid over een onschuldig detail gaat of over een levensbedreigend probleem.

De auteurs hebben een nieuwe "twee-in-één" tool bedacht:

Een lijstje dat precies aangeeft bij welke ziekte de twijfel zit.
Een alarm dat zegt: "Pas op, bij deze zeldzame ziekte is de twijfel misschien groter dan het getal laat zien."

Dit zorgt voor veiligere AI-systemen die niet alleen slim zijn, maar ook weten wanneer ze moeten stoppen en een mens om hulp moeten vragen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

In veiligheidskritieke toepassingen van deep learning (zoals medische diagnose of het detecteren van haatzaaiende taal) is de kost van een fout vaak asymmetrisch. Het missen van een levensbedreigende aandoening is veel ernstiger dan een vals positief resultaat.

Bestaande methoden voor Bayesiaanse deep learning kwantificeren epistemische onzekerheid (modelonwetendheid) doorgaans met een enkele scalair getal: de Mutuele Informatie (MI). Hoewel MI aangeeft hoe onzeker een model is, vertelt het niet waar die onzekerheid vandaan komt. Een MI-waarde van 0,3 kan betekenen dat het model twijfelt tussen twee onschadelijke klassen, of juist tussen een onschadelijke en een veiligheidskritieke klasse. Deze nuance is cruciaal voor veilige besluitvorming.

Bestaande per-klasse methoden hebben beperkingen:

Rauwe variantie: Lijdt onder "boundary suppression". Omdat waarschijnlijkheid $p_k$ begrensd is tussen 0 en 1, daalt de variantie naar nul als de gemiddelde kans $\mu_k$ dicht bij 0 of 1 ligt, zelfs als het model sterk verdeeld is over de uitkomsten. Dit maakt onzekerheid voor zeldzame (maar kritieke) klassen onzichtbaar.
Dirichlet-benaderingen: Vereisen sterke aannames over de verdeling van de waarschijnlijkheidsruimte.
Dataset-niveau methoden: Kunnen geen toewijzing op input-niveau geven.

Er bestaat dus geen methode die een genormaliseerde, per-klasse vector van epistemische onzekerheid biedt die direct additief gekoppeld is aan de totale MI.

Methodologie

De auteurs introduceren $C(x)$ , een vector van per-klasse bijdragen aan epistemische onzekerheid, afgeleid uit een tweede-orde Taylor-expansie van de entropie.

Afwijking van MI:
De epistemische onzekerheid wordt gedefinieerd als $I(y; \omega | x) = H(\mu) - E[H(p)]$ , waarbij $H$ de Shannon-entropie is. Door $E[H(p)]$ te benaderen rondom het gemiddelde $\mu$ met een Taylor-expansie, krijgen ze:
$I(y; \omega | x) \approx \frac{1}{2} \sum_{k=1}^K \frac{\text{Var}[p_k]}{\mu_k}$
Hierbij is $\text{Var}[p_k]$ de variantie over $S$ stochastische forward passes (bijv. via MC Dropout of ensembles) en $\mu_k$ de gemiddelde voorspelling voor klasse $k$ .
Definitie van $C_k(x)$ :
De per-klasse bijdrage wordt gedefinieerd als:
$C_k(x) = \frac{1}{2} \frac{\text{Var}[p_k](x)}{\mu_k(x)}$
De term $1/\mu_k$ fungeert als een normalisatie die de boundary suppression corrigeert. Voor zeldzame klassen (klein $\mu_k$ ) wordt de variantie versterkt, waardoor onzekerheid ook voor deze klassen zichtbaar blijft. Dit maakt $C_k$ vergelijkbaar tussen klassen met verschillende basisvoorkomens.
Axiomatische Eigenschappen:
De som van de vector $\sum C_k$ benadert de totale MI. De methode voldoet aan axioma's voor niet-negativiteit en monotonie, maar schendt de "locatie-shift invariantie" (A5). De auteurs betogen dat deze schending noodzakelijk is om boundary suppression te voorkomen, wat essentieel is voor veiligheidskritieke scenario's.
Diagnostiek (Skeuwness):
Omdat de Taylor-benadering minder nauwkeurig wordt bij hoge scheefheid (vooral bij zeer zeldzame klassen), introduceren de auteurs een scheefheidsdiagnostiek ( $\rho_k$ ). Als $\rho_k$ hoog is, wordt de benadering onbetrouwbaar. In dat geval bieden ze een alternatief, CBEC (Cross-Boundary Epistemic Confusion), dat gebruikmaakt van de empirische correlatie tussen veilige en kritieke klassen om onzekerheid te detecteren zonder afhankelijk te zijn van de Taylor-expansie.

Belangrijkste Bijdragen

Theoretische Afleiding: Een nieuwe decompositie van MI naar een per-klasse vector $C(x)$ , waarbij de normalisatie $1/\mu_k$ wiskundig volgt uit de Hessian van de entropie.
Diagnostisch Instrument: Een methode om te detecteren wanneer de benadering degradeert (via $\rho_k$ ) en een robuust alternatief (CBEC) voor die gevallen.
Empirische Validatie: Uitgebreide evaluatie op drie verschillende taken die de superioriteit van de methode aantonen in vergelijking met scalair MI en rauwe variantie.

Resultaten

De methode werd getest op drie taken:

Selectieve Voorspelling voor Diabetische Retinopathie (DR):
- Doel: Het herkennen van kritieke gevallen (Grade 2-3) en het doorverwijzen van twijfelgevallen naar een arts.
- Resultaat: Het gebruik van $C_{crit\_max}$ (de maximale $C_k$ over kritieke klassen) verlaagde het selectieve risico (AUSC) met 34,7% ten opzichte van MI en met 56,2% ten opzichte van variantie-baselines.
- Inzicht: De methode onderscheidt tussen verschillende fouttypes (bijv. een catastrofaal gemiste diagnose vs. een onderschatting van ernst) die identieke MI-waarden hebben, maar totaal verschillende $C_k$ -patronen vertonen.
Out-of-Distribution (OoD) Detectie:
- Doel: Het detecteren van data die afwijkt van de trainingsverdeling (bijv. FashionMNIST vs. KMNIST).
- Resultaat: De som $\sum C_k$ behaalde de hoogste AUROC op zowel beeld- als tabulardata.
- Inzicht: De per-klasse weergave onthulde dat distributieverschuivingen asymmetrisch kunnen zijn (bijv. alleen de overlevingsklasse in medische data toont onzekerheid), iets dat door een scalair getal onzichtbaar blijft.
Ontkoppeling van Aleatorische en Epistemische Onzekerheid:
- Doel: Onderzoeken of de methode robuust is tegen ruis in labels.
- Resultaat: Bij end-to-end Bayesiaanse training is $\sum C_k$ minder gevoelig voor injectie van labelruis dan MI. Echter, bij transfer learning (waar een voorgeprogrammeerde backbone wordt gebruikt) degradeert de prestatie van beide methoden aanzienlijk.
- Conclusie: De kwaliteit van de posterior-benadering (hoe het onzekerheidsverloop door het netwerk wordt propagated) is minstens zo belangrijk als de keuze van de metriek zelf.

Betekenis en Conclusie

Dit artikel biedt een fundamentele verbetering in het interpreteren van onzekerheid in deep learning. Door te bewegen van "hoeveel onzekerheid" naar "waar is de onzekerheid", stelt de methode systemen in staat om geclassificeerde risico's te beheren in plaats van alleen algemene onzekerheid.

De belangrijkste inzichten zijn:

Normalisatie is cruciaal: De $1/\mu_k$ -term is essentieel om onzekerheid voor zeldzame, kritieke klassen zichtbaar te maken, wat rauwe variantie faalt te doen.
Interpretatie boven aggregatie: De per-klasse vector biedt waardevolle diagnostische informatie over de aard van modelverwarring die scalair getallen verliezen.
Training Regime: De kwaliteit van de onzekerheidsschatting hangt sterk af van hoe het model getraind is (end-to-end vs. transfer learning). Post-hoc Bayesiaanse methoden op gefrozen backbones kunnen leiden tot misleidende onzekerheidsmetingen.

De voorgestelde methode is computatie-efficiënt (voegt nauwelijks kosten toe aan bestaande inferentiepijplijnen) en biedt een robuust kader voor veiligheidskritieke toepassingen waar het onderscheid tussen "veilig" en "kritiek" levensbelangrijk is.

Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions

Het oude probleem: "Hoeveel" vs. "Waar"

De nieuwe oplossing: Een gedetailleerde kaart

Waarom is dit zo slim? (De "Dikke" en "Dunne" Analoge)

Wat hebben ze bewezen?

Conclusie: Kwaliteit van de twijfel telt

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields