Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms overmoedige voorspeller hebt. Deze voorspeller kan bijna alles zien: of het nu gaat om het herkennen van dieren op foto's of het begrijpen van reviews over boeken. Maar er is een probleem: deze voorspeller durft nooit "Ik weet het niet" te zeggen. Zelfs als hij volledig in de war is, geeft hij toch een antwoord. Dat kan gevaarlijk zijn, zeker als de situatie verandert (bijvoorbeeld als hij getraind is op foto's van echte katten, maar nu moet werken met tekeningen van katten).

Dit paper, getiteld "Weten wanneer je moet afhaken: Optimale selectieve classificatie met waarschijnlijkheidsverhoudingen", biedt een slimme oplossing voor dit probleem. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Alwetende" Die Altijd Raadt

In het dagelijks leven weten mensen wanneer ze twijfelen. Als iemand je vraagt wat de hoofdstad van een land is dat je niet kent, zeg je: "Geen idee." Maar computermodellen doen dat niet. Ze geven altijd een antwoord, ook als ze raden.

In de wereld van kunstmatige intelligentie noemen we dit selectieve classificatie. Het idee is simpel: laat het model een antwoord geven als het er zeker van is, maar laat het "afhaken" (niet antwoorden) als het twijfelt. Zo kunnen we de fouten verminderen.

2. De Uitdaging: De Veranderende Wereld

De meeste modellen worden getraind op een specifieke set data (bijvoorbeeld heldere foto's van katten). Maar in de echte wereld verandert de omgeving. Misschien krijg je nu foto's van katten in regen, of als schetsen, of in een andere stijl. Dit noemen we covariate shift (een verandering in de input, terwijl de vraag hetzelfde blijft).

De oude methoden om te beslissen of een model moet afhaken, werken vaak niet goed in deze veranderende situaties. Ze zijn als een kompas dat alleen werkt op het noordpoolijs, maar faalt in de tropen.

3. De Oplossing: De "Gouden Regel" van Neyman-Pearson

De auteurs van dit paper kijken naar een oude, klassieke wiskundige regel uit de statistiek: de Neyman-Pearson lemma.

Stel je voor dat je een detective bent. Je hebt twee hypotheses:

H0: De verdachte is onschuldig (het model heeft gelijk).
H1: De verdachte is schuldig (het model heeft een fout gemaakt).

De Neyman-Pearson lemma zegt: "De allerbeste manier om te beslissen of je de verdachte vrijlaat of vasthoudt, is door te kijken naar de verhouding van de bewijslast."

In het geval van het AI-model betekent dit:

Hoe waarschijnlijk is het dat dit beeld een goed antwoord oplevert?
Hoe waarschijnlijk is het dat dit beeld een fout oplevert?

Als de kans op een goed antwoord veel groter is dan de kans op een fout, dan geven we een antwoord. Als de kans op een fout groter is (of de verhouding slecht is), dan haken we af.

4. De Nieuwe Methoden: Twee Slimme Detectives

De auteurs zeggen: "Laten we deze verhouding niet schatten met oude, simpele regels, maar met twee nieuwe methoden die specifiek kijken naar het verschil tussen 'goed' en 'fout'."

Ze introduceren twee nieuwe "detectives":

De Meetkunde-Detective (∆-MDS):
Stel je voor dat alle goede antwoorden in een kamer zitten en alle foute antwoorden in een andere kamer. Deze methode kijkt naar de afstand van een nieuwe vraag tot deze kamers.
- De truc: Ze maken niet één grote kamer voor "goede antwoorden", maar ze splitsen de kamer op in "goede antwoorden die we al hebben gezien" en "foute antwoorden die we al hebben gezien". Als een nieuwe vraag dichter bij de 'goede kamer' staat dan bij de 'foute kamer', dan is het een goed antwoord.
- Vergelijking: Het is alsof je een bal gooit. Als de bal dichter bij je doelwit landt dan bij de muur, is het een goede worp.
De Buurman-Detective (∆-KNN):
Deze methode kijkt naar de directe buren. "Wie zijn de 50 mensen die het meest lijken op deze nieuwe vraag?"
- De truc: Net als bij de vorige methode, kijken ze niet naar alle buren, maar specifiek naar de buren die eerder een goed antwoord gaven versus de buren die een fout antwoord gaven. Als je meer 'goede buren' in de buurt hebt dan 'foute buren', dan durf je het antwoord te geven.
- Vergelijking: Je bent op een feestje. Als je merkt dat de mensen om je heen allemaal van dezelfde muziek houden als jij (goede buren), dan voel je je op je gemak. Als je merkt dat de mensen om je heen juist een heel andere smaak hebben (foute buren), dan voel je je onzeker en ga je weg.

5. De Kracht van Combinatie

De auteurs ontdekten dat de beste resultaten haalbaar zijn door deze twee detectives te laten samenwerken. Ze combineren de "afstandsmeting" met een simpele "zekerheidsmeting" die het model al heeft (zoals hoe zeker het model is van zijn eigen antwoord).

Dit is alsof je niet alleen luistert naar de meetkunde van de kamer, maar ook naar de intuïtie van de detective. Samen zijn ze sterker dan apart.

6. Wat is het Resultaat?

Wanneer ze deze nieuwe methoden testen op verschillende taken (van het herkennen van katten tot het begrijpen van tekst), blijkt dat ze veel beter werken dan de oude methoden, vooral als de situatie verandert (bijvoorbeeld van foto's naar schetsen).

Kortom: Ze hebben een systeem bedacht dat een AI-model leert om te zeggen: "Ik weet het niet," precies op het moment dat het nodig is.
Waarom is dit belangrijk? Omdat het de AI betrouwbaarder maakt. In plaats van een fout antwoord te geven dat je niet kunt vertrouwen, geeft het model toe dat het twijfelt, zodat een mens (of een ander systeem) het kan oplossen.

Samenvatting in één zin

Dit paper leert AI-modellen om niet blindelings te raden, maar om slim te beslissen wanneer ze moeten afhaken, door te kijken naar de verhouding tussen hoe vaak ze eerder gelijk hadden versus hoe vaak ze fout zaten, zelfs als de wereld om hen heen verandert.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Machine learning-modellen zijn inherent foutgevoelig en produceren vaak voorspellingen voor elke invoer, ongeacht hun onzekerheid. In tegenstelling tot mensen, die kunnen afzien van een antwoord bij twijfel ("Ik weet het niet"), missen modellen dit vermogen. Selectieve classificatie lost dit op door modellen in staat te stellen om onzekere invoer af te wijzen (te "abstain"), waardoor de algehele betrouwbaarheid en robuustheid verbetert.

Twee belangrijke gaten in de bestaande literatuur worden geïdentificeerd:

Gebrek aan theoretische richtlijnen: Hoewel er veel methoden zijn (zoals Maximum Softmax Probability of logit-marges), ontbreekt een algemeen, principieel kader voor het ontwerpen van effectieve selectiefuncties voor moderne diepe netwerken.
Verwaarlozing van covariatenverschuiving (Covariate Shift): De meeste evaluaties vinden plaats onder de aanname van i.i.d. data (dezelfde verdeling bij training en testen). Er is weinig onderzoek gedaan naar selectieve classificatie onder covariatenverschuiving, waarbij de invoerverdeling verandert (bijv. van foto's naar schilderijen) terwijl de labelruimte hetzelfde blijft. Dit is echter cruciaal voor moderne toepassingen zoals Vision-Language Models (VLMs).

Methodologie

De auteurs herformuleren het probleem van selectieve classificatie binnen het paradigma van hypothetestoetsing, gebaseerd op het klassieke Neyman-Pearson (NP) lemma uit de statistiek.

1. Het Neyman-Pearson Kader:
Het NP lemma stelt dat de optimale beslissingsregel om een fout te minimaliseren bij een gegeven tolerantie voor een ander type fout, gebaseerd is op een likelihood ratio test.

$H_0$ : De classifier maakt een correcte voorspelling.
$H_1$ : De classifier maakt een foutieve voorspelling.
De optimale scorefunctie $s(x)$ is evenredig met de likelihood ratio:
$s(x) = \frac{p_c(x)}{p_w(x)}$
waarbij $p_c(x)$ de dichtheid is van correct ingedeelde samples en $p_w(x)$ die van fout ingedeelde samples. Elke monotoon getransformeerde van deze ratio is ook optimaal.

2. Bestaande methoden als benaderingen:
De auteurs tonen aan dat bestaande methoden zoals MSP (Maximum Softmax Probability) en RLog (Raw Logits) onder specifieke aannames (zoals kalibratie) monotoon getransformeerde benaderingen zijn van deze likelihood ratio.

3. Nieuwe Methodes:
Om de afhankelijkheid van kalibratie te omzeilen en de NP-optimale principes direct toe te passen, stellen de auteurs twee nieuwe, op afstand gebaseerde scores voor die de verdelingen van correcte en foutieve trainingssamples expliciet modelleren:

$\Delta$ -MDS (Mahalanobis Distance):
In plaats van één verdeling per klasse te schatten, worden twee sets statistieken bijgehouden: één voor correct ingedeelde samples ( $\mu^c, \Sigma^c$ ) en één voor fout ingedeelde samples ( $\mu^w, \Sigma^w$ ). De score is het verschil in Mahalanobis-afstand tot deze twee verdelingen:
$s_{\Delta\text{-MDS}}(x) = D_{MDS}(x; \mu^c, \Sigma^c) - D_{MDS}(x; \mu^w, \Sigma^w)$
Dit is NP-optimaal onder de aanname dat de features Gaussian verdeeld zijn.
$\Delta$ -KNN (k-Nearest Neighbors):
Een niet-parametrische versie die de afstand meet tot de $k$ -dichtstbijzijnde buren in de verzameling correcte versus foutieve trainingssamples. De score is het verschil in log-afstand:
$s_{\Delta\text{-KNN}}(x) = -\log(u_k) - (-\log(v_k))$
Dit is asymptotisch NP-optimaal zonder parametrische aannames over de verdeling.

4. Lineaire Combinatie:
De auteurs stellen voor om deze afstand-based scores te combineren met logit-based scores (zoals RLog) via een lineaire combinatie ( $s_1 + \lambda s_2$ ). Theoretisch blijft dit een monotoon getransformeerde likelihood ratio onder bepaalde aannames, wat leidt tot een robuustere selector.

Kernbijdragen

Neyman-Pearson Framework: De introductie van het eerste framework dat optimaliteit in selectieve classificatie definieert via likelihood ratio-tests, wat een theoretisch fundament biedt voor het ontwerp van selectors.
Unificatie en Innovatie: Het verenigen van bestaande methoden als benaderingen van de NP-lemma en het introduceren van twee nieuwe selectors ( $\Delta$ -MDS en $\Delta$ -KNN) plus een effectieve lineaire combinatiestrategie.
Focus op Covariatenverschuiving: Een uitgebreide evaluatie onder covariatenverschuiving (in plaats van alleen semantische verschuiving), wat een kritiek maar onderbelicht gebied is, vooral voor VLMs.

Resultaten

De methoden zijn geëvalueerd op een breed scala aan visuele en taakgebonden benchmarks, waaronder:

Visie: ImageNet en zijn covariaten-verschoven varianten (ImageNet-R, Im-A, Im-C, etc.) met modellen zoals CLIP (zero-shot VLM) en EVA (supervised).
Taal: Amazon Reviews dataset met DistilBERT.

Belangrijkste bevindingen:

Superieure Prestaties: De voorgestelde methoden ( $\Delta$ -MDS, $\Delta$ -KNN en hun combinaties) overtreffen consistent bestaande baselines (zoals MSP, MDS, KNN, RLog) in termen van AURC (Area Under the Risk-Coverage Curve) en NAURC.
Robuustheid onder Verschuiving: De methoden behouden hun superioriteit zelfs bij zware covariatenverschuivingen (bijv. sketches, ruis, verschillende stijlen).
Combinaties werken het beste: De lineaire combinatie van een afstand-based score en een logit-based score (bijv. $\Delta$ -KNN-RLog voor CLIP en $\Delta$ -MDS-RLog voor EVA) levert de beste resultaten op.
Efficiëntie: De methoden zijn post-hoc (geen hertraining nodig) en tonen goede prestaties zelfs met zeer weinig gelabelde data voor het schatten van de statistieken (tot 0,1% voor $\Delta$ -KNN).

Betekenis en Impact

Dit werk biedt een fundamentele theoretische verschuiving in hoe we onzekerheid in AI-modellen benaderen. Door de optimaliteit te koppelen aan het Neyman-Pearson lemma, biedt het een "blauwdruk" voor het bouwen van betrouwbare systemen.

De focus op covariatenverschuiving is bijzonder relevant voor de toekomst van AI, aangezien modellen in de praktijk vaak worden ingezet in omgevingen die afwijken van de trainingsdata (bijv. een model getraind op foto's dat wordt gebruikt op tekeningen of door VLMs). De resultaten tonen aan dat likelihood-ratio gebaseerde selectie een robuust mechanisme biedt om de betrouwbaarheid van deze modellen te waarborgen zonder de architectuur te hoeven aanpassen. Dit maakt de techniek direct toepasbaar voor kritieke toepassingen waar fouten kostbaar zijn.

Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

1. Het Probleem: De "Alwetende" Die Altijd Raadt

2. De Uitdaging: De Veranderende Wereld

3. De Oplossing: De "Gouden Regel" van Neyman-Pearson

4. De Nieuwe Methoden: Twee Slimme Detectives

5. De Kracht van Combinatie

6. Wat is het Resultaat?

Samenvatting in één zin

Probleemstelling

Methodologie

Kernbijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Horseshoe Priors and MDP

Observable Geometry of Singular Statistical Models

Conditional Independence under Infinite Measures and Poisson Point Processes

Sharp Debiasing for Smooth Functional Estimation in Banach Spaces

Opponent-Adjusted Evaluation of NFL Pass Blocking and Pass Rushing Performance