Learning Credal Ensembles via Distributionally Robust Optimization

Each language version is independently generated for its own context, not a direct translation.

Titel: CreDRO – De Slimme Teamleider die Altijd "Wat als?" Vraagt

Stel je voor dat je een team van zeer slimme voorspellers hebt die proberen te raden wat er morgen gaat gebeuren. Soms zeggen ze: "Het gaat zonnig zijn!" en soms: "Het gaat regenen!" Maar hoe weet je of ze het echt weten, of dat ze gewoon aan het gokken zijn?

In de wereld van kunstmatige intelligentie (AI) noemen we dit onzekerheid. Er zijn twee soorten onzekerheid:

Het weer is gewoon wisselvallig: Soms is het onmogelijk om te weten of het gaat regenen, zelfs als je alles perfect weet. Dat is aleatorische onzekerheid (het is gewoon het lot).
De voorspeller weet het niet goed: Soms is de voorspeller onzeker omdat hij nog nooit een dergelijk weer heeft gezien, of omdat hij is getraind met oude gegevens. Dat is epistemische onzekerheid (onwetendheid).

Deze paper introduceert een nieuwe methode, CreDRO, die speciaal is ontworpen om die tweede soort onzekerheid (onwetendheid) veel beter te meten dan de huidige beste methoden.

Het Probleem: De "Gokkers" vs. De "Realisten"

Tot nu toe hebben de slimste methoden (SOTA) geprobeerd onzekerheid te meten door een team van AI-modellen te laten trainen met willekeurige startpunten.

De analogie: Stel je voor dat je 20 studenten vraagt om een essay te schrijven. Je geeft ze allemaal een ander potlood en een ander stoelnummer. Als ze allemaal iets anders schrijven, denk je: "Ah, ze zijn onzeker!"
Het probleem: Die verschillen komen vaak alleen door het willekeurige potlood en stoelnummer, niet omdat ze echt twijfelen over de feiten. Ze zijn niet echt voorbereid op situaties die anders zijn dan wat ze hebben geoefend.

De Oplossing: CreDRO (De "Wat als?"-Teamleider)

De auteurs van dit paper, Kaizheng Wang en zijn team, zeggen: "Laten we stoppen met willekeurige startpunten en in plaats daarvan trainen met verschillende scenario's."

Ze gebruiken een techniek genaamd Distributionally Robust Optimization (DRO).

De analogie: In plaats van 20 studenten met willekeurige stoelen, geef je 20 studenten elk een ander scenario om voor te bereiden:
- Student 1: "Stel je voor dat morgen 10% van de mensen een andere taal spreken."
- Student 2: "Stel je voor dat morgen 20% van de mensen een andere taal spreken."
- Student 3: "Stel je voor dat morgen de helft van de mensen een andere taal spreken."
- ...en ga zo door tot Student 20.

Elke student (AI-model) wordt nu getraind om goed te presteren, zelfs als de wereld een beetje verandert. Ze leren omgaan met de "wat als"-situaties.

Hoe werkt het in de praktijk?

Training (Het Oefenen): Het CreDRO-team traint al zijn modellen met deze verschillende "wat als"-scenario's. Ze kijken niet alleen naar de huidige data, maar simuleren ook hoe het zou zijn als de test-data (de echte wereld) net iets anders was dan de trainings-data.
Voorspelling (Het Besluit nemen): Als je nu een nieuwe vraag stelt, kijken al deze 20 studenten naar het antwoord.
- Als ze allemaal zeggen: "Het is zonnig", dan zijn ze het eens. Geen onzekerheid.
- Als Student 1 zegt "Zonnig", maar Student 20 (die getraind is op extreme scenario's) zegt "Regenachtig", dan weten we: "Oeps, we weten het niet zeker!"
Het Resultaat (De Kist met Antwoorden): In plaats van één antwoord te geven, geeft CreDRO een kist met mogelijke antwoorden (een "credal set"). Het zegt: "De kans op zon ligt ergens tussen 40% en 80%." Die kist is groot als ze het oneens zijn (hoge onzekerheid) en klein als ze het eens zijn (lage onzekerheid).

Waarom is dit zo geweldig?

De paper toont aan dat CreDRO veel beter werkt dan de oude methoden, vooral in twee belangrijke situaties:

Het Detecteren van vreemde dingen (OOD Detection):
- Voorbeeld: Je trainde een AI om honden en katten te herkennen. Dan laat je hem een foto van een auto zien.
- Oude methode: Zegt misschien: "Het is een hond, met 60% zekerheid." (Gevaarlijk!)
- CreDRO: Zegt: "Ik heb zo'n auto nog nooit gezien in mijn 'wat als'-scenario's. Mijn antwoord varieert enorm tussen de modellen. Ik weet het niet!" (Veilig!)
- In tests met veel verschillende datasets (zoals foto's van plaatsen, auto's, etc.) wint CreDRO steeds van de concurrenten.
Medische Beslissingen (Selectieve Classificatie):
- Voorbeeld: Een arts gebruikt AI om een tumor te detecteren. Soms is de foto van slechte kwaliteit of van een ander type scanner dan waar de AI voor getraind is.
- CreDRO: Zegt: "Deze foto is lastig. Ik ben het niet eens met mezelf. Laat de menselijke arts dit controleren."
- In medische tests (met echte patiëntdata) bleek CreDRO veel beter te weten wanneer hij zich moest terugtrekken en een mens moest inschakelen, wat levens kan redden.

Samenvatting in één zin

CreDRO is een slimme manier om AI-modellen te trainen die niet alleen leren uit hun eigen ervaring, maar ook oefenen met "wat als"-scenario's, zodat ze eerlijk kunnen zeggen: "Ik weet het niet zeker," als ze iets tegenkomen waar ze niet op zijn voorbereid.

Het is alsof je niet alleen leert rijden op een lege parkeerplaats, maar ook traint in regen, sneeuw en op gladde wegen, zodat je weet wanneer je moet remmen en niet moet gokken.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het kwantificeren van voorspellende onzekerheid in diepe neurale netwerken (NN) is cruciaal voor betrouwbare AI-systemen, vooral in veiligheidskritieke toepassingen. Er moet onderscheid worden gemaakt tussen twee soorten onzekerheid:

Aleatorische onzekerheid (AU): Inherent aan de data (bijv. ruis).
Epistemische onzekerheid (EU): Het gevolg van onwetendheid van het model over de ware relatie tussen input en output.

Bestaande state-of-the-art (SOTA) methoden voor het kwantificeren van EU, zoals die gebaseerd op Credal Sets (convexe verzamelingen van kansverdelingen), definiëren EU voornamelijk als het verschil in voorspellingen veroorzaakt door willekeurige trainingsinitialisaties (bijv. bij Deep Ensembles). Het paper stelt dat dit een beperkte visie is: deze methoden meten voornamelijk de gevoeligheid voor optimalisatiewillekeur, maar falen vaak om EU te vangen die voortkomt uit substantiële bronnen, zoals potentiële verschuivingen in de verdeling tussen trainings- en testdata (train-test distribution shifts).

Methodologie: CreDRO

De auteurs introduceren CreDRO (Credal Distributionally Robust Optimization), een nieuw raamwerk dat EU definieert als de onenigheid tussen modellen die zijn getraind onder verschillende gradaties van verzwakking van de i.i.d.-aannames (onafhankelijk en identiek verdeeld) tussen trainings- en testverdelingen.

Kerncomponenten:

Training via Distributionally Robust Optimization (DRO):
- In plaats van modellen te trainen met willekeurige initialisaties, gebruikt CreDRO een adversariaal hergewogen leerproces (Adversarially Reweighted Learning).
- Een ensemble van $M$ modellen wordt getraind. Elk model $i$ wordt getraind met een specifieke hyperparameter $\delta_i$ die bepaalt welk deel van de steekproef (de "hard-to-learn" samples met de hoogste verliezen) wordt gebruikt voor backpropagation.
- De hyperparameter $\delta_i$ varieert over het ensemble volgens formule (6): $\delta_i = (1 - \delta_G) \frac{i-1}{M-1} + \delta_G$ .
- Hierbij is $\delta_G$ een globale parameter die de verwachte worst-case divergentie tussen trainings- en testdata simuleert. Door verschillende $\delta_i$ -waarden te gebruiken, leert het ensemble modellen die gespecialiseerd zijn in verschillende mogelijke scenario's van distributieveranderingen.
Credale Voorspelling (Inference):
- Tijdens inferentie worden de softmax-kansen van elk ensemble-lid omgezet in klassespecifieke kansintervallen $[p_k, \bar{p}_k]$ .
- Deze intervallen vormen een Box Credal Set ( $K_B$ ), een convexe verzameling van waarschijnlijkheden die beperkt is door deze onder- en bovengrenzen.
- Dit wordt gedaan door voor elke klasse $k$ de maximum en minimum kansen over alle ensemble-leden te nemen.
Kwantificering van Epistemische Onzekerheid:
- De EU wordt gemeten als het verschil tussen de bovengrens en ondergrens van de Shannon-entropie binnen de Box Credal Set.
- Dit vereist het oplossen van een geoptimaliseerd probleem om de maximale en minimale entropie te vinden binnen de gedefinieerde intervallen.

Belangrijkste Bijdragen

Nieuwe Definitie van EU: EU wordt niet langer gezien als puur het gevolg van willekeurige initialisatie, maar als onzekerheid voortkomend uit mogelijke verschuivingen in de data-distributie (distribution shifts).
CreDRO Framework: Een implementatie die DRO gebruikt om een ensemble van plausibele modellen te leren zonder de architectuur van het neurale netwerk aan te passen (in tegenstelling tot eerdere methoden zoals CreDE die extra output-neuronen vereisen).
Box Credal Sets: Het gebruik van box-gebaseerde credale sets in plaats van convexe hulls, wat leidt tot efficiëntere berekeningen van de onzekerheid, vooral bij grote aantallen ensemble-leden.
Superieure Robuustheid: CreDRO vangt zowel trainingswillekeur als informatieve onenigheid door potentiële distributieveranderingen, wat resulteert in betere EU-schattingen.

Resultaten

De auteurs evalueren CreDRO op diverse benchmarks en vergelijken het met SOTA-methoden (zoals CreDE, CreWra, CreEns, en standaard Deep Ensembles).

Out-of-Distribution (OOD) Detectie:
- Op benchmarks zoals CIFAR-10 (ID) versus SVHN, Places365, CIFAR-100, FMNIST en ImageNet (OOD) behaalt CreDRO consistent de hoogste AUROC-scores.
- Dit bevestigt dat CreDRO onzekerheid beter kwantificeert, waardoor het model beter in staat is om data te herkennen die afwijkt van de trainingsverdeling.
Selectieve Classificatie in Medische Settings:
- Getest op het Camelyon17-dataset (histopathologie) met een sterke domeinverschuiving (verschillende scanners).
- CreDRO presteert het beste in selectieve classificatie: het kan onzekere voorspellingen succesvol verwerpen, wat leidt tot een hogere nauwkeurigheid op de resterende data.
- In tegenstelling tot CreDE, dat hier vaak oververzekerd was (te lage EU-schattingen), toont CreDRO een duidelijk verschil in onzekerheid tussen correct en incorrect geclassificeerde gevallen.
Efficiëntie:
- Hoewel de training iets meer tijd kost dan een standaard ensemble (door het sorteren van verliezen per batch), is CreDRO efficiënter in inferentie en UQ-berekening dan methoden die gebruikmaken van convexe hulls (zoals CreEns) of die de modelarchitectuur moeten aanpassen (zoals CreDE).

Significantie

Dit paper biedt een fundamentele verbetering in hoe epistemische onzekerheid wordt gemodelleerd in diepe learning. Door de focus te verleggen van "willekeurige initialisatie" naar "willekeurige trainingsverdelingen" via DRO, biedt CreDRO een principiële en robuuste manier om onzekerheid te kwantificeren die relevant is voor real-world toepassingen waar data-distributies kunnen verschuiven.

De methode is bijzonder waardevol voor veiligheidskritieke domeinen (zoals medische diagnose en autonoom rijden), waar het vermogen om te herkennen wanneer een model "niet weet" wat het moet doen (hoge EU) cruciaal is om fouten te voorkomen. CreDRO combineert de theoretische sterkte van credale sets met de praktische robuustheid van distributionally robust optimization, wat een nieuwe standaard zet voor betrouwbare AI.

Learning Credal Ensembles via Distributionally Robust Optimization

Het Probleem: De "Gokkers" vs. De "Realisten"

De Oplossing: CreDRO (De "Wat als?"-Teamleider)

Hoe werkt het in de praktijk?

Waarom is dit zo geweldig?

Samenvatting in één zin

Probleemstelling

Methodologie: CreDRO

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

Virtual Dummies: Enabling Scalable FDR-Controlled Variable Selection via Sequential Sampling of Null Features

Eliciting core spatial association from spatial time series: a random matrix approach

Regularized estimation for highly multivariate spatial Gaussian random fields