Conformal Prediction for Long-Tailed Classification

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een app op je telefoon hebt om planten te herkennen. Je maakt een foto van een zeldzame bloem in het bos, en de app moet je vertellen wat het is.

In de echte wereld zijn sommige planten heel gewoon (zoals brandnetels), terwijl andere extreem zeldzaam zijn (zoals een bedreigde orchidee). Dit noemen we een "langstaart-distributie": veel van het ene, heel weinig van het andere.

Het probleem met de huidige slimme apps is dat ze vaak een gok doen en één antwoord geven. Als ze die ene gok fout hebben, is de plant onherkenbaar. Conformele voorspelling is een slimme techniek die zegt: "Ik geef je niet één antwoord, maar een lijstje met de top 3 of top 5 meest waarschijnlijke planten." Zo heb je een grotere kans dat het juiste antwoord erbij zit.

Maar hier zit een addertje onder het gras, vooral bij zeldzame planten:

De "Kleine Lijst" (Standaardmethode): De app geeft je een lijstje van maar 2 of 3 planten. Dit is makkelijk om te controleren, maar voor de zeldzame planten zit het juiste antwoord er vaak niet in. De app is te zeker van zijn zaak.
De "Grote Lijst" (Strikte Methode): Om zeker te zijn dat de zeldzame plant erbij zit, geeft de app je een lijstje met 700 soorten. Dat is natuurlijk onbruikbaar. Niemand heeft tijd om 700 planten te vergelijken.

De auteurs van dit paper (Tiffany Ding en haar team) hebben een oplossing bedacht die het beste van twee werelden combineert: een lijstje dat niet te lang is, maar waar zeldzame planten toch een eerlijke kans op krijgen.

Hier zijn hun twee slimme ideeën, uitgelegd met simpele metaforen:

Idee 1: De "Rechtvaardige Score" (PAS)

Stel je voor dat je een jury hebt die planten beoordeelt.

Bij de oude methode kijkt de jury alleen naar hoe goed ze een plant herkent. Omdat ze zelden een zeldzame plant hebben gezien, denken ze: "Die is vast een brandnetel," en geven ze die zeldzame plant een slechte score.
De auteurs zeggen: "Wacht even! We moeten rekening houden met hoe zeldzaam de plant is."

Ze gebruiken een nieuwe manier van scoren (ze noemen het Prevalence-Adjusted Softmax). Het is alsof je de jury vertelt: "Als je twijfelt tussen een heel algemene plant en een heel zeldzame plant, geef de zeldzame plant een beetje extra punten, omdat we die juist niet mogen missen."
Dit zorgt ervoor dat de zeldzame planten vaker in het lijstje komen, zonder dat het lijstje voor de gewone planten onnodig groot wordt.

Idee 2: De "Dimmerknop" (INTERP-Q)

Stel je voor dat je een dimmerknop hebt op je licht.

Als je de knop helemaal naar links draait, krijg je een heel klein, strak lijstje (maar je mist de zeldzame planten).
Als je hem helemaal naar rechts draait, krijg je een gigantisch lijstje (je mist niets, maar het is onoverzichtelijk).

De auteurs hebben een knop bedacht die precies in het midden kan worden gezet. Je kunt zelf kiezen: "Ik wil een lijstje van ongeveer 5 planten, maar zorg dat de zeldzame soorten er ook in zitten."
Deze methode (INTERP-Q) pakt de "strakke" lijst en de "gigantische" lijst en maakt er een perfect gemiddelde van. Je kunt de knop draaien totdat het precies goed voelt voor jouw situatie.

Waarom is dit belangrijk?

Dit is niet alleen leuk voor plantenliefhebbers. Denk aan:

Geneeskunde: Een zeldzame kankersoort is veel belangrijker om te detecteren dan een gewone huiduitslag. Als de AI alleen een lijstje van 2 opties geeft, is de kans groot dat de zeldzame kanker gemist wordt. Met deze nieuwe methoden zit die zeldzame kanker vaker in het lijstje, zodat de arts het kan zien.
Biodiversiteit: Om bedreigde diersoorten te beschermen, moeten we ze kunnen herkennen. Als onze AI-systemen alleen de "gewone" dieren herkennen, verliezen we de zeldzame soorten uit beeld.

Kort samengevat:
Deze paper lost het probleem op van "te zeker" versus "te onzeker". Ze geven ons tools om slimme lijsten te maken die korte en overzichtelijk blijven, maar die zorgvuldig genoeg zijn om ook de zeldzame en belangrijke gevallen niet te laten vallen. Het is alsof je een veiligheidsnet hebt dat niet te strak is (zodat je erdoorheen valt), maar ook niet te wijd (zodat je erin verdwaalt).

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Veel real-world classificatieproblemen, zoals plant- en diersoortidentificatie of ziekte-diagnose, vertonen een extreem langstaartverdeling (long-tailed distribution). Dit betekent dat er duizenden voorbeelden zijn van algemene klassen, maar slechts een handvol voorbeelden van zeldzame klassen.

In dergelijke scenario's is het doel van conformale voorspelling (Conformal Prediction - CP) om voorspellingssets te genereren die met een gegarandeerde waarschijnlijkheid de ware label bevatten. Er zijn echter twee tegenstrijdige eisen:

Class-conditional coverage: Zeldzame klassen moeten ook een hoge kans hebben om in de voorspellingsset te zitten (omdat het vaak belangrijker is om zeldzame, bedreigde soorten of zeldzame ziekten te detecteren).
Setgrootte: De voorspellingssets moeten klein genoeg zijn om door een mens te kunnen worden gecontroleerd.

Bestaande methoden falen in dit langstaartscenario:

STANDARD CP: Garandeert marginal coverage (gemiddelde dekking over alle data). Dit resulteert in kleine sets, maar zeldzame klassen worden systematisch uitgesloten (slechte class-conditional coverage).
CLASSWISE CP: Garandeert class-conditional coverage voor elke klasse apart. Dit resulteert in sets met uitstekende dekking voor zeldzame klassen, maar de sets worden extreem groot (vaak honderden of duizenden labels), waardoor ze onbruikbaar zijn voor menselijke verificatie.

De auteurs stellen dat er een keuze moet worden gemaakt tussen kleine sets met slechte dekking voor zeldzame klassen, of grote sets met goede dekking. Hun doel is om een methode te vinden die een soepele afweging (trade-off) maakt tussen setgrootte en class-conditional coverage, terwijl de marginale dekking behouden blijft.

Methodologie

De auteurs presenteren twee benaderingen om dit probleem op te lossen, beide gebaseerd op conformale voorspelling maar met verschillende strategieën.

Benadering I: Gerichte Macro-coverage via een nieuwe Score-functie

In plaats van te streven naar perfecte dekking voor elke individuele klasse, streven ze naar hoge macro-coverage (het gemiddelde van de class-conditional coverage over alle klassen).

Theoretische Optimalisatie: Ze tonen aan dat de optimale voorspellingsset voor het maximaliseren van macro-coverage bij een gegeven setgrootte, gebaseerd is op het drempelen van de verhouding $p(y|x) / p(y)$ (posterior kans gedeeld door de prevalentie van de klasse).
Prevalence-Adjusted Softmax (PAS): Omdat de ware verdelingen onbekend zijn, gebruiken ze een geschatte classifier $\hat{p}(y|x)$ en de empirische prevalentie $\hat{p}(y)$ . Ze definiëren een nieuwe score-functie:
$s_{PAS}(x, y) = -\frac{\hat{p}(y|x)}{\hat{p}(y)}$
Door STANDARD CP uit te voeren met deze PAS-score-functie, worden voorspellingssets gegenereerd die de marginale dekking garanderen, maar die theoretisch de beste afweging maken tussen setgrootte en macro-coverage.
Gewogen PAS (WPAS): Voor scenario's waarin bepaalde klassen (bijv. bedreigde soorten) belangrijker zijn, introduceren ze een gewogen variant waarbij de prevalentie wordt aangepast met gebruikersgespecificeerde gewichten $\omega(y)$ .

Benadering II: Interpolatie tussen Marginale en Class-Conditional Dekking (INTERP-Q)

De tweede methode is een procedurele aanpassing die de gedragingen van STANDARD en CLASSWISE interpoleert.

Lineaire Interpolatie van Drempels: Ze definiëren een nieuwe drempelwaarde $\hat{q}_y^{IQ}$ voor elke klasse $y$ als een lineaire combinatie van de STANDARD-drempel ( $\hat{q}$ ) en de CLASSWISE-drempel ( $\hat{q}_y^{CW}$ ):
$\hat{q}_y^{IQ} = \tau \cdot \hat{q}_y^{CW} + (1 - \tau) \cdot \hat{q}$
waarbij $\tau \in [0, 1]$ een parameter is die de gebruiker kan instellen.
Gedrag:
- Bij $\tau = 0$ gedraagt het zich als STANDARD CP (kleine sets, marginale dekking).
- Bij $\tau = 1$ gedraagt het zich als CLASSWISE CP (grote sets, perfecte class-conditional dekking).
- De auteurs tonen aan dat zelfs bij zeer hoge $\tau$ -waarden (bijv. 0.99), de setgrootte drastisch afneemt ten opzichte van pure CLASSWISE CP, terwijl de dekking voor zeldzame klassen behouden blijft. Dit komt doordat de verdeling van scores voor zeldzame klassen sterk scheef is.
Theoretische Garantie: De methode garandeert een marginale dekking van ten minste $1 - 2\alpha$ (theoretisch), maar empirisch wordt vaak $1 - \alpha$ bereikt.

Belangrijkste Bijdragen

PAS en WPAS Score-functies: Introductie van nieuwe score-functies die de prevalentie van klassen expliciet corrigeren om macro-coverage te optimaliseren. Dit biedt een Pareto-optimale oplossing voor de afweging tussen setgrootte en dekking.
INTERP-Q Procedure: Een eenvoudige, intuïtieve methode om de drempels van STANDARD en CLASSWISE te interpoleren, waardoor gebruikers een continue knop hebben om de trade-off te regelen zonder de marginale dekking te verliezen.
Empirische Validatie op Realistische Data: Toepassing en evaluatie op twee grote, langstaart datasets: Pl@ntNet-300K (1.081 soorten) en iNaturalist-2018 (8.142 soorten).
Menselijke Besluitvorming: Analyse van hoe de setgrootte en dekking van invloed zijn op de nauwkeurigheid van menselijke beslissingen (zowel voor experts als voor gokkers), wat aantoont dat de voorgestelde methoden de bruikbaarheid voor mens-AI samenwerking verbeteren.

Resultaten

De experimenten tonen aan dat de voorgestelde methoden de bestaande baselines (STANDARD, CLASSWISE, en CLUSTERED CP) overtreffen:

Trade-off Curves: De methoden (vooral STANDARD met PAS en INTERP-Q) liggen dicht bij de Pareto-grens. Ze bereiken een veel betere class-conditional coverage dan STANDARD CP voor een vergelijkbare setgrootte, en veel kleinere sets dan CLASSWISE CP voor een vergelijkbare dekking.
Pl@ntNet-300K Case Study:
- STANDARD: Gemiddelde setgrootte 1.57, maar 421 van de 1081 soorten hebben <50% dekking.
- CLASSWISE: 0 soorten met <50% dekking, maar gemiddelde setgrootte 780 (onbruikbaar).
- STANDARD met PAS: Gemiddelde setgrootte 2.57, maar het aantal soorten met <50% dekking wordt gehalveerd naar 180.
- INTERP-Q: Biedt vergelijkbare resultaten met de extra flexibiliteit om de parameter $\tau$ aan te passen.
Bedreigde Soorten: Met WPAS kan de dekking specifiek worden verhoogd voor bedreigde soorten (IUCN-status) door deze klassen zwaarder te wegen, zonder de dekking van niet-bedreigde soorten significant te beïnvloeden.
Menselijke Besluitnauwkeurigheid: De methoden leiden tot een hogere kans dat een mens de juiste soort kan identificeren, zelfs bij een gemengd publiek van experts en leken, doordat ze een balans vinden tussen het niet missen van zeldzame opties en het niet overweldigen van de gebruiker met te veel opties.

Betekenis en Impact

Deze paper is significant omdat het een langdurig onderbelicht probleem in het veld van conformale voorspelling aanpakt: de toepassing op langstaartverdelingen.

Praktische Toepasbaarheid: Voor toepassingen zoals Pl@ntNet (een app voor plantidentificatie) of medische diagnose is het cruciaal om zeldzame gevallen niet te negeren, maar ook geen onbeheersbare lijsten met suggesties te presenteren. De voorgestelde methoden maken dit mogelijk.
Voorkomen van "Model Collapse": In systemen waar menselijke labels worden gebruikt om modellen te verbeteren, kan het negeren van niche-klassen leiden tot een verslechtering van het model over tijd ("model collapse"). Door voorspellingssets te garanderen die zeldzame klassen bevatten, wordt de kwaliteit van de data voor toekomstige training gewaarborgd.
Flexibiliteit: De introductie van INTERP-Q geeft practitioners een intuïtief instrument om de balans tussen nauwkeurigheid en bruikbaarheid te sturen, afhankelijk van hun specifieke behoeften (bijv. prioriteit geven aan zeldzame ziekten versus algemene efficiëntie).

Kortom, de auteurs bieden een robuust theoretisch raamwerk en praktische tools om onzekerheidskwantificatie effectief te maken in realistische, onbalansrijke classificatietaken.

Conformal Prediction for Long-Tailed Classification

Idee 1: De "Rechtvaardige Score" (PAS)

Idee 2: De "Dimmerknop" (INTERP-Q)

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Benadering I: Gerichte Macro-coverage via een nieuwe Score-functie

Benadering II: Interpolatie tussen Marginale en Class-Conditional Dekking (INTERP-Q)

Belangrijkste Bijdragen

Resultaten

Betekenis en Impact

Meer zoals dit

Horseshoe Priors and MDP

Observable Geometry of Singular Statistical Models

Conditional Independence under Infinite Measures and Poisson Point Processes

Sharp Debiasing for Smooth Functional Estimation in Banach Spaces

Opponent-Adjusted Evaluation of NFL Pass Blocking and Pass Rushing Performance