Conformal Prediction for Long-Tailed Classification

Die Autoren stellen neue Methoden für die konforme Vorhersage bei stark unausgewogenen Klassendistributionen vor, die durch eine prevalence-adjusted softmax-Funktion und eine Interpolation zwischen marginaler und klassenbedingter Abdeckung einen optimalen Kompromiss zwischen der Größe der Vorhersagemengen und der Abdeckung seltener Klassen ermöglichen.

Tiffany Ding, Jean-Baptiste Fermanian, Joseph Salmon

Veröffentlicht 2026-03-02
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

🌿 Das Problem: Der „Lange Schwanz" und die seltene Pflanze

Stellen Sie sich vor, Sie sind ein Hobby-Gärtner und finden eine unbekannte Pflanze im Wald. Sie machen ein Foto und laden es in eine App hoch. Die App soll Ihnen sagen, was für eine Pflanze das ist.

Das Problem ist: In der Natur gibt es Tausende von Pflanzenarten.

  • Einige sind extrem häufig (wie die Löwenzahn). Die App kennt diese auswendig.
  • Andere sind extrem selten (wie eine seltene Orchidee). Die App hat vielleicht nur ein einziges Foto davon in ihrer Datenbank gesehen.

In der Statistik nennt man das eine „long-tailed" (langschwänzige) Verteilung. Wenn man eine KI trainiert, lernt sie die häufigen Pflanzen super, aber bei den seltenen macht sie oft Fehler oder ist unsicher.

🎯 Die Lösung: Der „Sicherheitskorb" statt einer einzelnen Antwort

Früher sagten KIs: „Das ist zu 90 % ein Löwenzahn." Wenn sie sich aber bei einer seltenen Orchidee irren, ist das katastrophal.

Diese Forscher schlagen vor: Geben Sie keine einzelne Antwort, sondern eine Liste!
Statt zu sagen: „Das ist eine Orchidee", sagt die App: „Es könnte eine Orchidee, eine Lilie oder eine Orchidee-Art X sein."

Das nennt man einen Vorhersagekorb (Prediction Set).

  • Vorteil: Die echte Antwort ist mit hoher Wahrscheinlichkeit in der Liste enthalten.
  • Nachteil: Wenn die Liste zu lang ist (z. B. „Es könnte eine der 500 Pflanzenarten sein"), ist sie nutzlos. Niemand hat Zeit, 500 Bilder zu vergleichen.

⚖️ Das Dilemma: Zu klein oder zu groß?

Bisher gab es nur zwei extreme Optionen für diese Listen:

  1. Die „Kleine Liste" (Standard-Methode):
    Die App gibt nur 1–2 Namen aus.

    • Problem: Bei seltenen Pflanzen ist die Liste oft falsch oder leer. Die seltenen Arten werden ignoriert, weil die KI sie nicht gut genug kennt.
    • Analogie: Ein Detektiv, der nur den wahrscheinlichsten Verdächtigen nennt. Wenn er sich bei einem seltenen Fall irrt, ist der Täter auf freiem Fuß.
  2. Die „Riesige Liste" (Klassenweise Methode):
    Um sicherzugehen, dass auch die seltenen Pflanzen dabei sind, gibt die App eine riesige Liste aus.

    • Problem: Die Liste ist so lang, dass niemand sie durchgehen kann.
    • Analogie: Der Detektiv nennt alle 10.000 Einwohner der Stadt als Verdächtige. Technisch gesehen ist der Täter dabei, aber es bringt nichts.

✨ Die neue Idee: Der „Goldene Mittelweg"

Die Forscher haben zwei neue Methoden entwickelt, die das Beste aus beiden Welten verbinden: Kleine Listen, die aber auch die seltenen Pflanzen nicht vergessen.

Methode 1: Der „Angepasste Wahrscheinlichkeits-Rechner" (PAS)

Stellen Sie sich vor, die KI berechnet normalerweise nur, wie ähnlich eine Pflanze den Bildern in ihrer Datenbank ist.

  • Bei häufigen Pflanzen (Löwenzahn) ist das Bild klar.
  • Bei seltenen Pflanzen (Orchidee) ist das Bild unscharf.

Die neue Methode PAS sagt der KI: „Hey, vergiss nicht, wie selten diese Pflanze eigentlich ist!"

  • Wenn die KI eine seltene Orchidee sieht, die sie nur zu 40 % sicher findet, sagt die normale KI: „Nicht in die Liste!"
  • Die neue PAS-Methode sagt: „Aber warte, Orchideen sind so selten, dass wir sie trotzdem in die Liste aufnehmen müssen, um sicherzugehen."

Das Ergebnis: Die Liste bleibt kurz, aber die seltenen Pflanzen werden nicht mehr systematisch übersehen. Es ist, als würde man einem Detektiv sagen: „Achte besonders auf die seltenen Verdächtigen, auch wenn du nicht zu 100 % sicher bist."

Methode 2: Der „Dimmer-Schalter" (INTERP-Q)

Stellen Sie sich zwei Schalter vor:

  • Schalter A: „Nur die häufigsten Pflanzen" (Kleine Liste, schlechte Abdeckung der Seltenen).
  • Schalter B: „Alle möglichen Pflanzen" (Riesige Liste, perfekte Abdeckung).

Die neue Methode INTERP-Q ist wie ein Dimmer zwischen diesen beiden Schaltern. Der Nutzer kann einen Regler bewegen:

  • „Ich will eine sehr kurze Liste, aber ich will, dass die seltenen Pflanzen zu 80 % dabei sind."
  • „Ich will eine etwas längere Liste, damit die seltenen Pflanzen zu 99 % dabei sind."

Man kann also genau einstellen, wie viel Arbeit man investieren möchte, um die seltenen Fälle zu finden.

🌍 Warum ist das wichtig?

Das klingt nach einer kleinen technischen Verbesserung, hat aber große Auswirkungen:

  1. Artenschutz: Wenn wir seltene, bedrohte Pflanzenarten in der Natur identifizieren wollen, dürfen wir sie nicht übersehen. Diese Methode hilft, diese „Nadeln im Heuhaufen" zu finden, ohne den Heuhaufen zu durchwühlen.
  2. Medizin: Bei der Diagnose seltener Krankheiten ist es wichtiger, den seltenen Fall zu erkennen, als den häufigen Schnupfen perfekt zu klassifizieren.
  3. Vertrauen: Nutzer können der KI mehr vertrauen, weil sie wissen: „Wenn die KI eine seltene Pflanze in die Liste aufnimmt, hat sie sich das wirklich überlegt und nicht nur geraten."

Zusammenfassung in einem Satz

Die Forscher haben eine neue Art entwickelt, KI-Listen zu erstellen, die kurz und übersichtlich bleiben, aber gleichzeitig sorgenfältig darauf achten, dass auch die seltenen und wichtigen Fälle nicht übersehen werden, indem sie die KI „leise" anweisen, die Seltenheit der Objekte mitzudenken.