Conformal Prediction for Long-Tailed Classification

Deze paper introduceert nieuwe conformele voorspellingsmethoden die een evenwicht vinden tussen de grootte van voorspellingssets en de dekking van zeldzame klassen in langstaart-classificatieproblemen, door een prevalentie-aangepaste softmax-score en een interpolatieprocedure te gebruiken.

Tiffany Ding, Jean-Baptiste Fermanian, Joseph Salmon

Gepubliceerd 2026-03-02
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een app op je telefoon hebt om planten te herkennen. Je maakt een foto van een zeldzame bloem in het bos, en de app moet je vertellen wat het is.

In de echte wereld zijn sommige planten heel gewoon (zoals brandnetels), terwijl andere extreem zeldzaam zijn (zoals een bedreigde orchidee). Dit noemen we een "langstaart-distributie": veel van het ene, heel weinig van het andere.

Het probleem met de huidige slimme apps is dat ze vaak een gok doen en één antwoord geven. Als ze die ene gok fout hebben, is de plant onherkenbaar. Conformele voorspelling is een slimme techniek die zegt: "Ik geef je niet één antwoord, maar een lijstje met de top 3 of top 5 meest waarschijnlijke planten." Zo heb je een grotere kans dat het juiste antwoord erbij zit.

Maar hier zit een addertje onder het gras, vooral bij zeldzame planten:

  1. De "Kleine Lijst" (Standaardmethode): De app geeft je een lijstje van maar 2 of 3 planten. Dit is makkelijk om te controleren, maar voor de zeldzame planten zit het juiste antwoord er vaak niet in. De app is te zeker van zijn zaak.
  2. De "Grote Lijst" (Strikte Methode): Om zeker te zijn dat de zeldzame plant erbij zit, geeft de app je een lijstje met 700 soorten. Dat is natuurlijk onbruikbaar. Niemand heeft tijd om 700 planten te vergelijken.

De auteurs van dit paper (Tiffany Ding en haar team) hebben een oplossing bedacht die het beste van twee werelden combineert: een lijstje dat niet te lang is, maar waar zeldzame planten toch een eerlijke kans op krijgen.

Hier zijn hun twee slimme ideeën, uitgelegd met simpele metaforen:

Idee 1: De "Rechtvaardige Score" (PAS)

Stel je voor dat je een jury hebt die planten beoordeelt.

  • Bij de oude methode kijkt de jury alleen naar hoe goed ze een plant herkent. Omdat ze zelden een zeldzame plant hebben gezien, denken ze: "Die is vast een brandnetel," en geven ze die zeldzame plant een slechte score.
  • De auteurs zeggen: "Wacht even! We moeten rekening houden met hoe zeldzaam de plant is."

Ze gebruiken een nieuwe manier van scoren (ze noemen het Prevalence-Adjusted Softmax). Het is alsof je de jury vertelt: "Als je twijfelt tussen een heel algemene plant en een heel zeldzame plant, geef de zeldzame plant een beetje extra punten, omdat we die juist niet mogen missen."
Dit zorgt ervoor dat de zeldzame planten vaker in het lijstje komen, zonder dat het lijstje voor de gewone planten onnodig groot wordt.

Idee 2: De "Dimmerknop" (INTERP-Q)

Stel je voor dat je een dimmerknop hebt op je licht.

  • Als je de knop helemaal naar links draait, krijg je een heel klein, strak lijstje (maar je mist de zeldzame planten).
  • Als je hem helemaal naar rechts draait, krijg je een gigantisch lijstje (je mist niets, maar het is onoverzichtelijk).

De auteurs hebben een knop bedacht die precies in het midden kan worden gezet. Je kunt zelf kiezen: "Ik wil een lijstje van ongeveer 5 planten, maar zorg dat de zeldzame soorten er ook in zitten."
Deze methode (INTERP-Q) pakt de "strakke" lijst en de "gigantische" lijst en maakt er een perfect gemiddelde van. Je kunt de knop draaien totdat het precies goed voelt voor jouw situatie.

Waarom is dit belangrijk?

Dit is niet alleen leuk voor plantenliefhebbers. Denk aan:

  • Geneeskunde: Een zeldzame kankersoort is veel belangrijker om te detecteren dan een gewone huiduitslag. Als de AI alleen een lijstje van 2 opties geeft, is de kans groot dat de zeldzame kanker gemist wordt. Met deze nieuwe methoden zit die zeldzame kanker vaker in het lijstje, zodat de arts het kan zien.
  • Biodiversiteit: Om bedreigde diersoorten te beschermen, moeten we ze kunnen herkennen. Als onze AI-systemen alleen de "gewone" dieren herkennen, verliezen we de zeldzame soorten uit beeld.

Kort samengevat:
Deze paper lost het probleem op van "te zeker" versus "te onzeker". Ze geven ons tools om slimme lijsten te maken die korte en overzichtelijk blijven, maar die zorgvuldig genoeg zijn om ook de zeldzame en belangrijke gevallen niet te laten vallen. Het is alsof je een veiligheidsnet hebt dat niet te strak is (zodat je erdoorheen valt), maar ook niet te wijd (zodat je erin verdwaalt).

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →