Know When to Abstain: Optimal Selective Classification with Likelihood Ratios

Dit paper introduceert een nieuwe aanpak voor selectieve classificatie onder covariatenverschuiving, gebaseerd op het Neyman-Pearson-lemma en likelihood-ratio's, die experimenteel superieure prestaties laat zien ten opzichte van bestaande methoden.

Alvin Heng, Harold Soh

Gepubliceerd 2026-03-04
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, maar soms overmoedige voorspeller hebt. Deze voorspeller kan bijna alles zien: of het nu gaat om het herkennen van dieren op foto's of het begrijpen van reviews over boeken. Maar er is een probleem: deze voorspeller durft nooit "Ik weet het niet" te zeggen. Zelfs als hij volledig in de war is, geeft hij toch een antwoord. Dat kan gevaarlijk zijn, zeker als de situatie verandert (bijvoorbeeld als hij getraind is op foto's van echte katten, maar nu moet werken met tekeningen van katten).

Dit paper, getiteld "Weten wanneer je moet afhaken: Optimale selectieve classificatie met waarschijnlijkheidsverhoudingen", biedt een slimme oplossing voor dit probleem. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Alwetende" Die Altijd Raadt

In het dagelijks leven weten mensen wanneer ze twijfelen. Als iemand je vraagt wat de hoofdstad van een land is dat je niet kent, zeg je: "Geen idee." Maar computermodellen doen dat niet. Ze geven altijd een antwoord, ook als ze raden.

In de wereld van kunstmatige intelligentie noemen we dit selectieve classificatie. Het idee is simpel: laat het model een antwoord geven als het er zeker van is, maar laat het "afhaken" (niet antwoorden) als het twijfelt. Zo kunnen we de fouten verminderen.

2. De Uitdaging: De Veranderende Wereld

De meeste modellen worden getraind op een specifieke set data (bijvoorbeeld heldere foto's van katten). Maar in de echte wereld verandert de omgeving. Misschien krijg je nu foto's van katten in regen, of als schetsen, of in een andere stijl. Dit noemen we covariate shift (een verandering in de input, terwijl de vraag hetzelfde blijft).

De oude methoden om te beslissen of een model moet afhaken, werken vaak niet goed in deze veranderende situaties. Ze zijn als een kompas dat alleen werkt op het noordpoolijs, maar faalt in de tropen.

3. De Oplossing: De "Gouden Regel" van Neyman-Pearson

De auteurs van dit paper kijken naar een oude, klassieke wiskundige regel uit de statistiek: de Neyman-Pearson lemma.

Stel je voor dat je een detective bent. Je hebt twee hypotheses:

  1. H0: De verdachte is onschuldig (het model heeft gelijk).
  2. H1: De verdachte is schuldig (het model heeft een fout gemaakt).

De Neyman-Pearson lemma zegt: "De allerbeste manier om te beslissen of je de verdachte vrijlaat of vasthoudt, is door te kijken naar de verhouding van de bewijslast."

In het geval van het AI-model betekent dit:

  • Hoe waarschijnlijk is het dat dit beeld een goed antwoord oplevert?
  • Hoe waarschijnlijk is het dat dit beeld een fout oplevert?

Als de kans op een goed antwoord veel groter is dan de kans op een fout, dan geven we een antwoord. Als de kans op een fout groter is (of de verhouding slecht is), dan haken we af.

4. De Nieuwe Methoden: Twee Slimme Detectives

De auteurs zeggen: "Laten we deze verhouding niet schatten met oude, simpele regels, maar met twee nieuwe methoden die specifiek kijken naar het verschil tussen 'goed' en 'fout'."

Ze introduceren twee nieuwe "detectives":

  • De Meetkunde-Detective (∆-MDS):
    Stel je voor dat alle goede antwoorden in een kamer zitten en alle foute antwoorden in een andere kamer. Deze methode kijkt naar de afstand van een nieuwe vraag tot deze kamers.

    • De truc: Ze maken niet één grote kamer voor "goede antwoorden", maar ze splitsen de kamer op in "goede antwoorden die we al hebben gezien" en "foute antwoorden die we al hebben gezien". Als een nieuwe vraag dichter bij de 'goede kamer' staat dan bij de 'foute kamer', dan is het een goed antwoord.
    • Vergelijking: Het is alsof je een bal gooit. Als de bal dichter bij je doelwit landt dan bij de muur, is het een goede worp.
  • De Buurman-Detective (∆-KNN):
    Deze methode kijkt naar de directe buren. "Wie zijn de 50 mensen die het meest lijken op deze nieuwe vraag?"

    • De truc: Net als bij de vorige methode, kijken ze niet naar alle buren, maar specifiek naar de buren die eerder een goed antwoord gaven versus de buren die een fout antwoord gaven. Als je meer 'goede buren' in de buurt hebt dan 'foute buren', dan durf je het antwoord te geven.
    • Vergelijking: Je bent op een feestje. Als je merkt dat de mensen om je heen allemaal van dezelfde muziek houden als jij (goede buren), dan voel je je op je gemak. Als je merkt dat de mensen om je heen juist een heel andere smaak hebben (foute buren), dan voel je je onzeker en ga je weg.

5. De Kracht van Combinatie

De auteurs ontdekten dat de beste resultaten haalbaar zijn door deze twee detectives te laten samenwerken. Ze combineren de "afstandsmeting" met een simpele "zekerheidsmeting" die het model al heeft (zoals hoe zeker het model is van zijn eigen antwoord).

Dit is alsof je niet alleen luistert naar de meetkunde van de kamer, maar ook naar de intuïtie van de detective. Samen zijn ze sterker dan apart.

6. Wat is het Resultaat?

Wanneer ze deze nieuwe methoden testen op verschillende taken (van het herkennen van katten tot het begrijpen van tekst), blijkt dat ze veel beter werken dan de oude methoden, vooral als de situatie verandert (bijvoorbeeld van foto's naar schetsen).

  • Kortom: Ze hebben een systeem bedacht dat een AI-model leert om te zeggen: "Ik weet het niet," precies op het moment dat het nodig is.
  • Waarom is dit belangrijk? Omdat het de AI betrouwbaarder maakt. In plaats van een fout antwoord te geven dat je niet kunt vertrouwen, geeft het model toe dat het twijfelt, zodat een mens (of een ander systeem) het kan oplossen.

Samenvatting in één zin

Dit paper leert AI-modellen om niet blindelings te raden, maar om slim te beslissen wanneer ze moeten afhaken, door te kijken naar de verhouding tussen hoe vaak ze eerder gelijk hadden versus hoe vaak ze fout zaten, zelfs als de wereld om hen heen verandert.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →