From Misclassifications to Outliers: Joint Reliability Assessment in Classification

Die Arbeit stellt ein einheitliches Bewertungsframework mit neuen Metriken und der verbesserten Methode SURE+ vor, das die gemeinsame Erfassung von Out-of-Distribution-Daten und Klassifikationsfehlern ermöglicht, um zuverlässigere und vertrauenswürdige KI-Modelle für reale Anwendungen zu schaffen.

Yang Li, Youyang Sha, Yinzhi Wang, Timothy Hospedales, Xi Shen, Shell Xu Hu, Xuanlong Yu

Veröffentlicht 2026-03-05
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der übermütige KI-Koch

Stell dir vor, du hast einen genialen Koch (eine KI), der fantastische Gerichte (Vorhersagen) kocht, wenn du ihm frische, bekannte Zutaten (Trainingsdaten) gibst. Aber in der echten Welt passiert Folgendes:

  1. Der Koch trifft Fehler: Manchmal verwechselt er Salz mit Zucker, auch wenn er die richtigen Zutaten hat.
  2. Der Koch bekommt fremde Zutaten: Jemand wirft ihm plötzlich eine Banane in die Suppe (Daten, die er nie gesehen hat). Ein normaler Koch würde raten und sagen: „Das ist bestimmt eine neue Suppe!" – und dabei völlig falsch liegen.

Bisher haben Forscher diese beiden Probleme getrennt behandelt. Die einen haben nur darauf geachtet, wie gut der Koch bekannte Gerichte kocht. Die anderen haben nur darauf geachtet, ob der Koch erkennt, wenn eine Banane in die Suppe fällt.

Das Problem: Ein Koch, der sehr gut darin ist, Bananen zu erkennen, könnte trotzdem bei normalen Gerichten oft Salz und Zucker verwechseln. Und ein Koch, der bei normalen Gerichten perfekt ist, könnte bei Bananen panisch raten. Wir brauchen einen Koch, der beides kann: Fehler bei bekannten Gerichten vermeiden und sofort sagen: „Moment, hier ist etwas ganz Falsches!"

Die Lösung: Der „Doppel-Check" (Double Scoring)

Die Autoren sagen: „Hört auf, nur einen Sicherheitscheck zu machen!" Stattdessen schlagen sie vor, dass der Koch zwei Fragen gleichzeitig stellen soll, bevor er ein Gericht serviert:

  1. Frage A (Ist das überhaupt ein bekanntes Gericht?): „Sieht diese Banane in der Suppe aus wie eine normale Zutat?" (Das ist die OOD-Erkennung).
  2. Frage B (Bin ich mir bei diesem Gericht sicher?): „Bin ich mir zu 100 % sicher, dass ich Salz statt Zucker genommen habe?" (Das ist die Fehler-Vorhersage).

Nur wenn der Koch bei beiden Fragen „Ja" sagt, serviert er das Gericht. Wenn er bei einer Frage unsicher ist, sagt er: „Ich weiß es nicht, bitte probieren Sie es selbst."

Die neuen Messlatten: DS-F1 und DS-AURC

Früher hat man den Koch nur an einer einzigen Skala gemessen (z. B. „Wie oft hat er die Banane erkannt?"). Das war wie ein Sportler, der nur auf seine Sprintzeit geschaut wurde, aber nicht darauf, ob er beim Marathon auch noch ausdauernd ist.

Die Autoren erfinden zwei neue Messlatten:

  • DS-F1: Das ist wie eine Goldmedaille für den perfekten Moment. Sie schaut, wie gut der Koch ist, wenn er genau den richtigen Punkt findet, an dem er sicher serviert und nichts Falsches anbietet.
  • DS-AURC: Das ist wie ein Marathon-Test. Sie schaut, wie der Koch über die gesamte Zeit performt, egal ob er sehr vorsichtig ist (serviert nur bei 100 % Sicherheit) oder etwas riskanter.

Der Clou: Mit diesen neuen Messlatten sehen sie, dass viele alte Methoden, die bei den alten Tests gut aussahen, in der echten Welt (wo beides passiert) eigentlich ziemlich schlecht abschneiden.

Der neue Super-Koch: SURE+

Die Autoren haben nicht nur neue Messlatten erfunden, sondern auch einen neuen Koch namens SURE+ trainiert.

  • Was macht er anders? Er wurde nicht nur gelehrt, Gerichte zu kochen, sondern auch, wie man mit verrückten Zutaten umgeht und wie man seine eigene Unsicherheit erkennt.
  • Das Ergebnis: SURE+ ist nicht nur besser darin, Fehler zu vermeiden, sondern auch besser darin, zu sagen: „Ich bin mir nicht sicher", wenn er wirklich nicht weiterweiß. Er ist robuster und verlässlicher als alle vorherigen Modelle.

Warum ist das wichtig? (Die Analogie mit dem Autopiloten)

Stell dir einen Autopiloten im Auto vor.

  • Wenn er nur auf „Fehler bei bekannten Straßen" trainiert ist, könnte er bei einem plötzlichen Sturm (neue Daten) panisch das Lenkrad herumreißen, weil er denkt, er sei auf einer bekannten Straße.
  • Wenn er nur auf „Sturm erkennen" trainiert ist, könnte er auf einer normalen, aber rutschigen Straße bremsen, obwohl er fahren könnte.

Mit dem neuen Ansatz (SURE+ und den neuen Messlatten) bauen wir ein Auto, das sagt: „Ich erkenne, dass der Sturm zu stark ist, ich fahre nicht weiter" ODER „Ich erkenne, dass die Straße rutschig ist, ich bremse vorsichtig". Es ist ein System, das weiß, wann es wissen kann und wann es schweigen sollte.

Fazit

Die Botschaft der Forscher ist einfach:
Vertraue nicht auf KI, die nur einen Sicherheitscheck macht. Wir brauchen Systeme, die zwei Checks gleichzeitig machen: „Ist das überhaupt mein Gebiet?" und „Bin ich mir sicher?". Nur so können wir KI wirklich sicher in der echten Welt einsetzen, wo Dinge schiefgehen und Dinge völlig neu sind.