A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Diese Studie bietet einen systematischen Vergleich verschiedener Trainingsziele für die Erkennung von Out-of-Distribution-Daten in der Bildklassifizierung und stellt fest, dass die Kreuzentropie-Verlustfunktion im Vergleich zu Prototyp-, Triplet- und Average-Precision-Verlusten die konsistenteste Gesamtleistung bei der Erkennung sowohl naher als auch entfernter OOD-Daten liefert.

Furkan Genç, Onat Özdemir, Emre Akbas

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr klugen Koch, den wir „KI-Koch" nennen. Dieser Koch wurde jahrelang nur mit Rezepten für Pizza trainiert. Er kann Pizza perfekt machen. Aber was passiert, wenn jemand ihm plötzlich ein Sushi oder einen Hamburger vorsetzt?

Ein normaler Koch würde vielleicht verwirrt sein und sagen: „Das ist keine Pizza!" Aber ein einfacher KI-Koch würde versuchen, das Sushi trotzdem als die „beste Pizza aller Zeiten" zu verkaufen, weil er nichts anderes kennt. Das ist gefährlich, besonders wenn es um Dinge wie autonomes Fahren oder medizinische Diagnosen geht. Hier muss der Koch sofort schreien: „Stopp! Das ist keine Pizza! Das ist etwas Fremdes!"

Genau darum geht es in diesem wissenschaftlichen Papier. Die Forscher haben untersucht, wie man diesen KI-Koch am besten trainiert, damit er nicht nur Pizza erkennt, sondern auch sofort merkt, wenn ihm ein Sushi (also „Out-of-Distribution" oder OOD-Daten) vorgesetzt wird.

Das große Experiment: Vier verschiedene Trainingsmethoden

Die Forscher haben vier verschiedene „Trainingsbücher" (Verlustfunktionen) getestet, um den Koch zu unterrichten. Man kann sich diese wie vier verschiedene Lehrmethoden vorstellen:

  1. Der Klassiker (Cross-Entropy Loss):

    • Die Analogie: Der Lehrer sagt: „Wenn du Pizza siehst, sag 'Pizza'. Wenn du Burger siehst, sag 'Burger'." Er belohnt den Schüler nur, wenn er die richtige Kategorie nennt.
    • Das Ergebnis: Dieser Koch ist sehr gut darin, Pizza zu erkennen (hohe Genauigkeit). Aber er ist auch überraschend gut darin, Fremdes zu erkennen. Er ist der zuverlässige Allrounder.
  2. Der Distanz-Messer (Triplet Loss):

    • Die Analogie: Der Lehrer sagt: „Nimm eine Pizza (Anker). Nimm eine andere Pizza (Positiv). Nimm einen Burger (Negativ). Du musst die zwei Pizzen so nah wie möglich zusammenrücken und den Burger so weit wie möglich wegdrücken."
    • Das Ergebnis: Bei wenigen Kategorien (wie nur 10 Bildarten) funktioniert das super. Aber wenn der Koch 100 oder 200 verschiedene Dinge lernen muss, wird es chaotisch. Die „Abstandsregeln" werden zu kompliziert, und der Koch verliert den Überblick. Er wird schlecht darin, echte Pizzen zu erkennen und auch schlecht darin, Fremdes zu finden.
  3. Der Prototypen-Sammler (Prototype Loss):

    • Die Analogie: Der Lehrer sagt: „Für jede Kategorie gibt es ein 'Idealbild'. Eine perfekte Pizza, ein perfekter Burger. Du musst lernen, wie nah dein Bild an diesem Idealbild ist."
    • Das Ergebnis: Dieser Koch wird extrem gut darin, die verschiedenen Pizzen zu unterscheiden (sehr hohe Genauigkeit). Er ist sehr ordentlich. Aber beim Erkennen von völlig Fremdem ist er nicht ganz so stark wie der Klassiker.
  4. Der Rangliste-Experte (Average Precision Loss):

    • Die Analogie: Der Lehrer sagt: „Es geht nicht darum, ob du 'Pizza' sagst, sondern darum, ob du Pizza höher bewertest als alles andere. Sortiere alles nach Wichtigkeit!"
    • Das Ergebnis: Dieser Koch ist sehr gut darin, Dinge zu sortieren und Fremdes zu finden (sehr gute OOD-Detektion), besonders bei großen Datensätzen. Er ist ein starker Konkurrent, aber manchmal etwas weniger präzise beim eigentlichen Klassifizieren als der Klassiker.

Was haben die Forscher herausgefunden?

Die Forscher haben den Koch an drei verschiedenen „Küchen" getestet: einer kleinen (CIFAR-10), einer mittleren (CIFAR-100) und einer riesigen (ImageNet-200).

Hier ist die einfache Zusammenfassung der Ergebnisse:

  • Der Klassiker (Cross-Entropy) gewinnt oft: Überraschenderweise ist die einfachste Methode, die wir schon seit Jahren nutzen, immer noch die beste oder zumindest gleichauf mit den anderen. Sie ist stabil, funktioniert überall und macht den Job zuverlässig.
  • Spezialisten haben Schwächen: Die komplexeren Methoden (wie der Distanz-Messer) scheitern oft, wenn die Anzahl der Dinge, die gelernt werden müssen, zu groß wird. Sie sind wie ein Rennwagen, der auf der Rennstrecke toll ist, aber im Stadtverkehr nicht funktioniert.
  • Der Rangliste-Experte ist stark: Die Methode, die sich auf das Sortieren konzentriert, ist sehr gut darin, Fremdes zu erkennen, ohne die Qualität der Pizza-Erkennung zu verlieren.
  • Je schwieriger, desto wichtiger ist der Klassiker: Bei den riesigen Datensätzen (wie ImageNet) war der einfache Klassiker der Gewinner. Die komplexeren Methoden konnten nicht mithalten.

Die große Erkenntnis

Stellen Sie sich vor, Sie bauen ein Sicherheitsystem für ein Krankenhaus. Sie wollen nicht nur wissen, ob ein Röntgenbild eine Lunge zeigt, sondern auch, ob das Bild vielleicht von einem anderen Scanner stammt oder gar nicht zum Patienten gehört.

Die Botschaft dieses Papiers ist: Versuchen Sie nicht immer, das Rad neu zu erfinden.

Oft denken wir, wir brauchen eine superkomplexe, spezielle Trainingsmethode, um KI sicherer zu machen. Aber die Forschung zeigt, dass die bewährte, einfache Methode (Cross-Entropy) oft genauso gut oder sogar besser funktioniert als die neuen, komplizierten Tricks. Wenn Sie eine KI bauen wollen, die sicher ist und auch Fremdes erkennt, ist der einfache Klassiker oft der beste Startpunkt. Die anderen Methoden sind gut, aber sie haben ihre Tücken, besonders wenn die Aufgabe sehr groß und komplex wird.

Kurz gesagt: Der einfache, alte Kochmeister ist oft derjenige, der am besten weiß, wann etwas nicht in seine Küche gehört.