Not Just How Much, But Where: Decomposing Epistemic Uncertainty into Per-Class Contributions

Deze paper introduceert een methode om epistemische onzekerheid in veiligheidskritieke classificatie te decomponeren in per-klassen bijdragen, wat een meer gerichte en robuuste detectie van kritieke fouten mogelijk maakt dan traditionele scalar-metingen zoals wederzijdse informatie.

Mame Diarra Toure, David A. Stephens

Gepubliceerd 2026-02-27
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms verwarde arts hebt die foto's van ogen bekijkt om te zien of iemand oogziek is. Soms is deze arts heel zeker van zijn zaak, en soms twijfelt hij.

In de wereld van kunstmatige intelligentie noemen we die twijfel onzekerheid. De vraag die dit artikel beantwoordt, is: Waar zit die twijfel precies?

Het oude probleem: "Hoeveel" vs. "Waar"

Vroeger kon de computer alleen zeggen: "Ik ben 30% onzeker."
Dat is als een arts die zegt: "Ik weet het niet zeker." Maar hij vertelt je niet waarom.

  • Is het omdat hij twijfelt tussen twee onschuldige diagnoses (bijvoorbeeld: "Is het een kleine vlek of een grote vlek?")? Dat is niet zo erg.
  • Of twijfelt hij tussen een onschuldige diagnose en een levensgevaarlijke ziekte (bijvoorbeeld: "Is het een onschuldig litteken of een tumor?")? Dat is gevaarlijk.

Als de computer alleen zegt "30% onzekerheid", kun je niet weten of je moet wachten of direct naar het ziekenhuis moet rennen. De huidige methoden tellen alle twijfels bij elkaar op tot één getal, maar ze verdoezelen waar die twijfel vandaan komt.

De nieuwe oplossing: Een gedetailleerde kaart

De auteurs van dit paper hebben een nieuwe manier bedacht om die twijfel te meten. In plaats van één getal, maken ze een lijstje per categorie.

Stel je voor dat de computer een kaart maakt met een pijltje voor elke mogelijke ziekte:

  • Pijltje "Gezond": Geen twijfel.
  • Pijltje "Milde ziekte": Een beetje twijfel.
  • Pijltje "Gevaarlijke ziekte": Enorme twijfel!

Dit nieuwe systeem heet CkC_k. Het is als een verlichtingspaneel in een auto. In plaats van dat alleen het waarschuwingslampje brandt ("Er is iets mis!"), zie je precies welk lampje knippert: "Brandstof", "Remmen" of "Motor".

Waarom is dit zo slim? (De "Dikke" en "Dunne" Analoge)

Een groot probleem met oude methoden is dat ze vergeten hoe zeldzaam bepaalde ziektes zijn.

  • Stel: Er zijn 1000 gezonde mensen en slechts 1 persoon met een zeldzame, dodelijke ziekte.
  • Oude methode: Omdat die ziekte zo zeldzaam is, is de kans dat de computer erover twijfelt erg klein. De oude methode zegt dan: "Geen twijfel!" (omdat de twijfel zo klein is dat hij bijna nul is). Dit is gevaarlijk, want als die ene persoon toch ziek is, heeft de computer het gemist.
  • Nieuwe methode (CkC_k): Deze methode zegt: "Wacht even! Die twijfel is misschien klein in getal, maar omdat het om een dodelijke ziekte gaat, moeten we die twijfel opblazen."

Het is alsof je een weegschaal hebt. Als je een veertje (een gezonde diagnose) weegt, maakt het niet uit als de weegschaal een beetje trilt. Maar als je een gouden staaf (een dodelijke ziekte) weegt, moet je elke trilling van de weegschaal serieus nemen. De nieuwe methode "vermenigvuldigt" de twijfel over de zeldzame ziektes, zodat ze niet onzichtbaar worden.

Wat hebben ze bewezen?

De auteurs hebben dit getest op drie gebieden:

  1. Oogziekten (Diabetische Retinopathie):
    Ze lieten de computer foto's van ogen beoordelen. Met de oude methode werden veel ernstige gevallen over het hoofd gezien omdat de computer dacht dat de twijfel "niet hoog genoeg" was. Met de nieuwe methode (CkC_k) zagen ze precies waar de twijfel zat (bij de gevaarlijke ziektes) en konden ze die patiënten sneller doorverwijzen. Het resultaat: 35% minder fouten bij het detecteren van gevaarlijke gevallen.

  2. Vreemde dingen herkennen (Out-of-Distribution):
    Stel je voor dat je een computer hebt die alleen auto's kent. Als je hem een foto van een koe geeft, moet hij zeggen: "Ik weet dit niet, dit is geen auto."
    De oude methode zag soms wel dat het vreemd was, maar wist niet waarom. De nieuwe methode liet zien: "Ik twijfel niet aan de auto, ik twijfel aan alles omdat dit een koe is." Hierdoor werd het systeem veel beter in het herkennen van vreemde situaties.

  3. Slechte data:
    Ze testten ook of het systeem goed bleef werken als ze de trainingdata een beetje "vervuilde" met fouten. Het nieuwe systeem bleek robuuster: het merkte sneller op dat het zelf niet meer zeker was, zonder dat het in de war raakte door de fouten in de data.

Conclusie: Kwaliteit van de twijfel telt

De belangrijkste les uit dit paper is niet alleen hoe je twijfelt, maar waar je twijfelt.

In veilige systemen (zoals zelfrijdende auto's of medische diagnose) is het niet genoeg om te weten dat je "een beetje onzeker" bent. Je moet weten of die onzekerheid over een onschuldig detail gaat of over een levensbedreigend probleem.

De auteurs hebben een nieuwe "twee-in-één" tool bedacht:

  1. Een lijstje dat precies aangeeft bij welke ziekte de twijfel zit.
  2. Een alarm dat zegt: "Pas op, bij deze zeldzame ziekte is de twijfel misschien groter dan het getal laat zien."

Dit zorgt voor veiligere AI-systemen die niet alleen slim zijn, maar ook weten wanneer ze moeten stoppen en een mens om hulp moeten vragen.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →