From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der übermütige KI-Koch

Stell dir vor, du hast einen genialen Koch (eine KI), der fantastische Gerichte (Vorhersagen) kocht, wenn du ihm frische, bekannte Zutaten (Trainingsdaten) gibst. Aber in der echten Welt passiert Folgendes:

Der Koch trifft Fehler: Manchmal verwechselt er Salz mit Zucker, auch wenn er die richtigen Zutaten hat.
Der Koch bekommt fremde Zutaten: Jemand wirft ihm plötzlich eine Banane in die Suppe (Daten, die er nie gesehen hat). Ein normaler Koch würde raten und sagen: „Das ist bestimmt eine neue Suppe!" – und dabei völlig falsch liegen.

Bisher haben Forscher diese beiden Probleme getrennt behandelt. Die einen haben nur darauf geachtet, wie gut der Koch bekannte Gerichte kocht. Die anderen haben nur darauf geachtet, ob der Koch erkennt, wenn eine Banane in die Suppe fällt.

Das Problem: Ein Koch, der sehr gut darin ist, Bananen zu erkennen, könnte trotzdem bei normalen Gerichten oft Salz und Zucker verwechseln. Und ein Koch, der bei normalen Gerichten perfekt ist, könnte bei Bananen panisch raten. Wir brauchen einen Koch, der beides kann: Fehler bei bekannten Gerichten vermeiden und sofort sagen: „Moment, hier ist etwas ganz Falsches!"

Die Lösung: Der „Doppel-Check" (Double Scoring)

Die Autoren sagen: „Hört auf, nur einen Sicherheitscheck zu machen!" Stattdessen schlagen sie vor, dass der Koch zwei Fragen gleichzeitig stellen soll, bevor er ein Gericht serviert:

Frage A (Ist das überhaupt ein bekanntes Gericht?): „Sieht diese Banane in der Suppe aus wie eine normale Zutat?" (Das ist die OOD-Erkennung).
Frage B (Bin ich mir bei diesem Gericht sicher?): „Bin ich mir zu 100 % sicher, dass ich Salz statt Zucker genommen habe?" (Das ist die Fehler-Vorhersage).

Nur wenn der Koch bei beiden Fragen „Ja" sagt, serviert er das Gericht. Wenn er bei einer Frage unsicher ist, sagt er: „Ich weiß es nicht, bitte probieren Sie es selbst."

Die neuen Messlatten: DS-F1 und DS-AURC

Früher hat man den Koch nur an einer einzigen Skala gemessen (z. B. „Wie oft hat er die Banane erkannt?"). Das war wie ein Sportler, der nur auf seine Sprintzeit geschaut wurde, aber nicht darauf, ob er beim Marathon auch noch ausdauernd ist.

Die Autoren erfinden zwei neue Messlatten:

DS-F1: Das ist wie eine Goldmedaille für den perfekten Moment. Sie schaut, wie gut der Koch ist, wenn er genau den richtigen Punkt findet, an dem er sicher serviert und nichts Falsches anbietet.
DS-AURC: Das ist wie ein Marathon-Test. Sie schaut, wie der Koch über die gesamte Zeit performt, egal ob er sehr vorsichtig ist (serviert nur bei 100 % Sicherheit) oder etwas riskanter.

Der Clou: Mit diesen neuen Messlatten sehen sie, dass viele alte Methoden, die bei den alten Tests gut aussahen, in der echten Welt (wo beides passiert) eigentlich ziemlich schlecht abschneiden.

Der neue Super-Koch: SURE+

Die Autoren haben nicht nur neue Messlatten erfunden, sondern auch einen neuen Koch namens SURE+ trainiert.

Was macht er anders? Er wurde nicht nur gelehrt, Gerichte zu kochen, sondern auch, wie man mit verrückten Zutaten umgeht und wie man seine eigene Unsicherheit erkennt.
Das Ergebnis: SURE+ ist nicht nur besser darin, Fehler zu vermeiden, sondern auch besser darin, zu sagen: „Ich bin mir nicht sicher", wenn er wirklich nicht weiterweiß. Er ist robuster und verlässlicher als alle vorherigen Modelle.

Warum ist das wichtig? (Die Analogie mit dem Autopiloten)

Stell dir einen Autopiloten im Auto vor.

Wenn er nur auf „Fehler bei bekannten Straßen" trainiert ist, könnte er bei einem plötzlichen Sturm (neue Daten) panisch das Lenkrad herumreißen, weil er denkt, er sei auf einer bekannten Straße.
Wenn er nur auf „Sturm erkennen" trainiert ist, könnte er auf einer normalen, aber rutschigen Straße bremsen, obwohl er fahren könnte.

Mit dem neuen Ansatz (SURE+ und den neuen Messlatten) bauen wir ein Auto, das sagt: „Ich erkenne, dass der Sturm zu stark ist, ich fahre nicht weiter" ODER „Ich erkenne, dass die Straße rutschig ist, ich bremse vorsichtig". Es ist ein System, das weiß, wann es wissen kann und wann es schweigen sollte.

Fazit

Die Botschaft der Forscher ist einfach:
Vertraue nicht auf KI, die nur einen Sicherheitscheck macht. Wir brauchen Systeme, die zwei Checks gleichzeitig machen: „Ist das überhaupt mein Gebiet?" und „Bin ich mir sicher?". Nur so können wir KI wirklich sicher in der echten Welt einsetzen, wo Dinge schiefgehen und Dinge völlig neu sind.

Each language version is independently generated for its own context, not a direct translation.

Titel: Von Fehlklassifikationen zu Ausreißern: Gemeinsame Zuverlässigkeitsbewertung in der Klassifikation

1. Problemstellung

Der zuverlässige Einsatz von Machine-Learning-Klassifikatoren in sicherheitskritischen Anwendungen (z. B. Feueralarmen) erfordert mehr als nur hohe Genauigkeit auf Benchmark-Datensätzen. Ein robustes System muss zwei kritische Aufgaben gleichzeitig bewältigen:

Out-of-Distribution (OOD) Detektion: Erkennen von Eingabedaten, die nicht der Trainingsverteilung entsprechen und daher nicht vertrauenswürdig sind.
Fehlerprognose (Failure Prediction): Vorhersagen, ob die Vorhersage für ein in-distribution (ID) Sample korrekt ist, indem unsicheren Vorhersagen eine niedrige Konfidenz zugewiesen wird.

Bisherige Forschungsarbeiten behandeln diese beiden Aspekte jedoch meist isoliert. Dies führt zu einer fragmentierten Bewertung, bei der ein Modell in einem Bereich gut abschneiden kann, im anderen aber versagt. Es fehlt ein einheitlicher Rahmen, der die Zuverlässigkeit eines Systems bewertet, wenn es sowohl mit ID- als auch mit OOD-Daten konfrontiert wird. Die Herausforderung besteht darin, zu entscheiden, wann ein Input als ID akzeptiert werden soll und ob die darauf folgende Klassifikation vertrauenswürdig ist.

2. Methodik

Die Autoren schlagen einen einheitlichen Evaluierungsrahmen vor, der OOD-Detektion und Fehlerprognose durch die Verwendung von zwei Scoring-Funktionen (Double Scoring) kombiniert:

$s_{OOD}$ : Ein Score für die OOD-Detektion (höhere Werte deuten auf ID hin).
$s_{ID}$ : Ein Score für die Konfidenz der ID-Klassifikation (höhere Werte deuten auf eine korrekte Vorhersage hin).

Anstatt einen einzelnen Schwellenwert zu verwenden, definiert das System zwei Schwellenwerte ( $\tau_{OOD}$ und $\tau_{ID}$ ). Ein Vorhersage wird nur dann akzeptiert, wenn beide Schwellenwerte überschritten werden. Dies teilt die Daten in vier Kategorien auf: True Accept, True Reject, False Accept und False Reject.

Auf Basis dieses Ansatzes werden zwei neue Metriken eingeführt:

DS-F1 (Double Scoring F1): Sucht nach dem optimalen Betriebspunkt über alle möglichen Paare von Schwellenwerten hinweg. Es maximiert das harmonische Mittel aus Präzision und Recall unter Berücksichtigung sowohl von OOD-Abweisungen als auch von ID-Fehlklassifikationen.
DS-AURC (Double Scoring Area Under the Risk-Coverage Curve): Bewertet die Leistung über den gesamten Bereich möglicher Abdeckungsraten (Coverage). Im Gegensatz zum herkömmlichen AURC, der einen einzelnen Schwellenwert pro Abdeckung nutzt, wählt DS-AURC für jede Abdeckungsstufe das Paar von Schwellenwerten aus, das das minimale Risiko (Risk) liefert.

Zusätzlich wird SURE+ vorgestellt, eine Weiterentwicklung des bestehenden zuverlässigen Klassifikators SURE. SURE+ integriert moderne Techniken für OOD-Detektion und Fehlerprognose in ein einheitliches Trainings-Design:

Daten-Augmentierung: Kombination von RegMixup und RegPixMix für semantische und pixelbasierte Robustheit.
Optimierung: Nutzung von F-SAM (Sharpness-Aware Minimization) für flache Minima und stabilere Konvergenz.
Ensembling: Einsatz von Exponential Moving Average (EMA) und re-normalized Batch Normalization (Re-BN) anstelle von SWA für stabilere Vorhersagen unter gemischten Verteilungen.
Vereinfachung durch Entfernen von Komponenten wie CRL und CSC, die nur marginale Vorteile brachten.

3. Wichtige Beiträge

Einheitliche Perspektive: Die Arbeit zeigt, dass OOD-Detektion und Fehlerprognose komplementäre Aspekte der Zuverlässigkeit sind und eine getrennte Bewertung zu irreführenden Schlussfolgerungen führen kann.
Neue Metriken (DS-F1 & DS-AURC): Diese Metriken erweitern den State-of-the-Art, indem sie die Bewertung auf eine zweidimensionale Schwellenwertfläche ausweiten. Sie garantieren, dass die Leistung mit Double Scoring mindestens so gut ist wie bei Single Scoring, aber oft deutlich besser.
SURE+: Ein neuer, effizienter Trainingsansatz, der signifikant höhere Zuverlässigkeit über verschiedene Szenarien hinweg erreicht.
Empirische Erkenntnisse: Die Analyse zeigt, dass OOD-basierte Ansätze bei „Far-OOD"-Shifts (stark unterschiedliche Daten) große Gewinne bringen, aber bei „Near-OOD"-Shifts (visuell ähnliche Daten) nur marginale Vorteile bieten.

4. Ergebnisse

Die Experimente wurden auf dem OpenOOD-Benchmark mit CIFAR-100 und ImageNet-1K durchgeführt:

Überlegenheit von Double Scoring: Auf allen Datensätzen und Evaluierungsszenarien (Near- und Far-OOD) übertrifft das Double-Scoring-Verfahren konsistent herkömmliche Single-Scoring-Ansätze.
Leistung von SURE+: SURE+ erzielt auf CIFAR-100 eine ID-Genauigkeit von 81,66 % und auf ImageNet-1K 88,49 %. Gleichzeitig erreicht es die besten DS-F1- und DS-AURC-Werte im Vergleich zu Baselines wie Mixup, CutMix, SURE und anderen Post-Hoc-Methoden.
Robustheit: Die Verbesserungen von SURE+ sind unabhängig von der gewählten Post-Hoc-Methode (z. B. MSP, ReAct, KLM), was die Generalisierbarkeit des Ansatzes unterstreicht.
Near-OOD vs. Far-OOD: Während Double Scoring bei Far-OOD-Daten (z. B. MNIST als OOD für CIFAR-100) deutliche Fortschritte bringt, bleiben die Gewinne bei Near-OOD-Daten (z. B. CIFAR-10) geringer, was die aktuellen Grenzen der OOD-Detektion aufzeigt.

5. Bedeutung und Ausblick

Diese Arbeit legt einen neuen Standard für die Bewertung vertrauenswürdiger KI-Systeme. Sie demonstriert, dass die Integration von OOD-Detektion und Fehlerprognose in einem gemeinsamen Rahmen notwendig ist, um reale Einsatzszenarien abzubilden.

Praktische Relevanz: Die vorgeschlagenen Metriken und der SURE+-Algorithmus bieten praktische Leitlinien für den Einsatz robuster Modelle in sicherheitskritischen Domänen.
Zukünftige Richtungen: Die Autoren identifizieren die Verbesserung der Near-OOD-Detektion und die Entwicklung besserer Methoden zur Kalibrierung von Schwellenwerten (z. B. durch synthetische Daten) als wichtige zukünftige Forschungsgebiete.

Zusammenfassend etablieren die Autoren mit diesem Paper einen neuen Benchmark für zuverlässige Klassifikation, der durch eine einheitliche Bewertungsmethodik und einen verbesserten Trainingsalgorithmus (SURE+) die Lücke zwischen theoretischer Robustheit und praktischer Anwendbarkeit schließt. Der Quellcode ist öffentlich verfügbar.

From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Das große Problem: Der übermütige KI-Koch

Die Lösung: Der „Doppel-Check" (Double Scoring)

Die neuen Messlatten: DS-F1 und DS-AURC

Der neue Super-Koch: SURE+

Warum ist das wichtig? (Die Analogie mit dem Autopiloten)

Fazit

Titel: Von Fehlklassifikationen zu Ausreißern: Gemeinsame Zuverlässigkeitsbewertung in der Klassifikation

1. Problemstellung

2. Methodik

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

DyMRL: Dynamic Multispace Representation Learning for Multimodal Event Forecasting in Knowledge Graph

How unconstrained machine-learning models learn physical symmetries

Experiential Reflective Learning for Self-Improving LLM Agents

Learning Mesh-Free Discrete Differential Operators with Self-Supervised Graph Neural Networks

Physics-Informed Neural Network Digital Twin for Dynamic Tray-Wise Modeling of Distillation Columns under Transient Operating Conditions