SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Each language version is independently generated for its own context, not a direct translation.

🚨 Das Problem: Der verwirrte KI-Kellner

Stell dir vor, du hast einen sehr intelligenten Kellner (eine Künstliche Intelligenz), der darauf trainiert wurde, fünf verschiedene Arten von Pizza zu erkennen: Margherita, Pepperoni, Hawaii, Vegetarisch und Fisch.

Wenn ein Gast eine dieser fünf Pizzen bringt, sagt der Kellner sofort: "Ah, das ist eine Margherita!" – und das funktioniert super.

Aber was passiert, wenn der Gast eine Pizza mit Ananas und Schokolade (eine völlig neue, unbekannte Sorte) bringt?

Das alte Problem: Der Kellner ist so darauf trainiert, nur die fünf bekannten Sorten zu sehen, dass er verzweifelt versucht, die neue Pizza in eine der alten Kategorien zu zwängen. "Hmm, Ananas ist auf der Hawaii-Pizza... also muss das eine Hawaii-Pizza sein!" Er macht einen Fehler, weil er keine Option hat, zu sagen: "Das kenne ich gar nicht."
Die Gefahr: In der echten Welt (z. B. bei medizinischen Diagnosen oder selbstfahrenden Autos) ist dieser Fehler fatal. Wenn die KI eine unbekannte Krankheit als eine bekannte einstuft, könnte das katastrophale Folgen haben.

Das Ziel von OSR (Open-Set Recognition) ist es also, dem Kellner beizubringen, ehrlich zu sagen: "Das ist keine der fünf Pizzen, die ich kenne. Ich weiß nicht, was das ist."

🛠️ Die Lösung: SpHOR – Der neue Trainingsplan

Die Autoren des Papers haben eine neue Methode namens SpHOR entwickelt. Statt den Kellner einfach nur mehr Pizzen zeigen zu lassen, ändern sie die Art und Weise, wie er die Pizzen im Kopf speichert.

Stell dir das Gehirn des Kellners als einen riesigen, leeren Raum vor, in dem er die Pizzen ablegt.

1. Der sphärische Raum (Die Kugel-Regel)

Früher legten die Kellner die Pizzen in einem unendlichen, flachen Raum ab. Das war chaotisch.
SpHOR zwingt den Kellner, alle Pizzen auf die Oberfläche einer perfekten Kugel zu legen.

Warum? Auf einer Kugel ist alles gleich weit vom Zentrum entfernt. Das verhindert, dass die KI "verrückt" wird, wenn sie etwas sieht, das ihr nicht passt. Es schafft einen klaren Rand: Wenn etwas nicht auf der Kugel liegt oder in einem leeren Bereich zwischen den Pizzen schwebt, ist es "unbekannt".

2. Orthogonale Label (Die 90-Grad-Regel)

Das größte Problem ist die "Vertrautheits-Falle" (Familiarity Trap). Wenn eine neue Pizza der Margherita sehr ähnlich sieht, rutscht sie im Gehirn des Kellners oft direkt neben die Margherita.
SpHOR nutzt eine spezielle Regel: Die verschiedenen Pizzen müssen sich im Gehirn des Kellners genau im rechten Winkel (90 Grad) zueinander befinden.

Der Vergleich: Stell dir vor, die Pizzen sind wie Pfeile, die von der Mitte der Kugel wegzeigen. Bei SpHOR zeigen die Pfeile für "Margherita" und "Pepperoni" in völlig unterschiedliche Richtungen, so weit wie möglich voneinander entfernt.
Der Effekt: Wenn eine neue, unbekannte Pizza kommt, passt sie nicht in die Nähe von einem dieser Pfeile. Sie landet in der leeren Mitte oder im "Niemandsland" zwischen den Pfeilen. Dort erkennt der Kellner sofort: "Aha, hier ist Platz für etwas Neues!"

3. Mixup & Label Smoothing (Das Koch-Training)

Um den Kellner noch robuster zu machen, nutzen die Autoren zwei Tricks beim Training:

Mixup: Sie mischen zwei Pizzen digital zu einer neuen, seltsamen Pizza zusammen (z. B. 50% Margherita, 50% Hawaii). Der Kellner lernt, dass es Grauzonen gibt. Das hilft ihm, besser zu verstehen, wo die Grenzen zwischen den Sorten liegen.
Label Smoothing: Statt zu sagen "Das ist zu 100% eine Margherita", sagt das Training: "Das ist zu 90% Margherita, aber vielleicht auch ein bisschen etwas anderes." Das verhindert, dass der Kellner zu selbstsicher wird und Fehler macht.

📊 Das Ergebnis: Warum ist das so gut?

Die Autoren haben ihre Methode an vielen Tests geprüft, von einfachen Bildern bis hin zu sehr feinen Unterschieden (z. B. verschiedene Vogelarten oder Autotypen).

Bessere Trennung: Dank der "Kugel-Regel" und der "90-Grad-Pfeile" sind die bekannten Dinge im Gehirn der KI viel klarer getrennt.
Keine Verwirrung: Wenn eine unbekannte Sache kommt, fällt sie nicht versehentlich in eine bekannte Kategorie. Sie bleibt dort, wo sie hingehört: im "Unbekannten"-Bereich.
Rekordwerte: SpHOR hat in Tests besser abgeschnitten als alle bisherigen Methoden. Es erkennt unbekannte Dinge zuverlässiger, ohne dabei die bekannten Dinge falsch zu identifizieren.

🎯 Zusammenfassung in einem Satz

SpHOR ist wie ein neuer Trainingsplan für eine KI, der ihr beibringt, ihre Welt nicht als chaotischen Haufen, sondern als eine perfekt organisierte Kugel mit klar getrennten Zonen zu sehen – damit sie sofort merkt, wenn etwas Neues hereinkommt, das nicht in ihre bekannten Schubladen passt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Hintergrund:
Deep Neural Networks (DNNs) werden zunehmend in sicherheitskritischen Anwendungen eingesetzt. Herkömmliche Klassifikatoren arbeiten jedoch im „Closed-Set"-Modus: Sie gehen davon aus, dass alle Testdaten zu den während des Trainings bekannten Klassen gehören. In der Realität treten jedoch oft unbekannte Klassen auf (Open-Set-Szenario).

Die Herausforderung:
Das Hauptproblem beim Open-Set Recognition (OSR) ist die Unterscheidung zwischen bekannten und unbekannten Klassen, insbesondere bei feingranularen semantischen Verschiebungen (fine-grained semantic shifts).

Familiarity Trap: Wenn unbekannte Klassen semantisch sehr ähnlich zu bekannten Klassen sind (z. B. verschiedene Vogelarten), neigen DNNs dazu, diese unbekannten Eingaben fälschlicherweise einer bekannten Klasse mit hoher Konfidenz zuzuordnen.
Limitationen bestehender Ansätze: Die meisten OSR-Methoden trainieren den Feature-Extraktor und den Klassifikator gemeinsam (end-to-end). Dies führt oft zu Feature-Repräsentationen, die nicht explizit für unbekannte Daten strukturiert sind. Andere Methoden nutzen generische Techniken (wie überwachtes kontrastives Lernen), die nicht spezifisch für die Anforderungen von OSR (z. B. die Schaffung von „Open Space") entwickelt wurden.

Ziel:
Die Entwicklung einer Methode, die den Feature-Raum explizit so gestaltet, dass unbekannte Klassen klar von bekannten Klassen getrennt werden können, ohne dabei die Genauigkeit auf bekannten Klassen zu opfern.

2. Methodik: SpHOR

Die Autoren schlagen SpHOR (Spherical Hyper-Orthogonal Representation) vor, einen zweistufigen, entkoppelten Trainingsansatz, der den Feature-Raum durch überwachtes Representation Learning explizit formt.

Kerninnovationen:

Orthogonale Trennung klassenspezifischer Features:
- Um die „Familiarity Trap" zu vermeiden, werden Features, die klassenübergreifend geteilt werden, unterdrückt.
- Stattdessen werden orthogonale Label-Embeddings eingeführt. Jede Klasse erhält ein Embedding, das orthogonal zu allen anderen Klassen-Embeddings im hochdimensionalen Raum steht. Dies erzwingt die Trennung in disjunkte lineare Unterräume.
Sphärische Repräsentation (von Mises-Fisher Verteilung):
- Anstatt den unbeschränkten euklidischen Raum zu nutzen, werden die Features auf eine Hypersphäre projiziert ( $L_2$ -Normalisierung).
- Die Klassen werden als Mixture von von Mises-Fisher (vMF)-Verteilungen modelliert. Dies ermöglicht eine mathematisch fundierte Behandlung von Winkel und Dichte im Feature-Raum.
- Dies fördert Alignment (Features einer Klasse liegen nahe am Klassen-Zentrum) und Uniformity (Klassen-Zentren sind gleichmäßig über die Sphäre verteilt).
Integration von Mixup und Label Smoothing (LS):
- Diese Techniken werden direkt in das Representation-Learning-Stadium integriert, nicht nur in den Klassifikator.
- Mixup erzeugt synthetische Trainingsbeispiele durch Mischen von Bildern und Labels. Dies simuliert „ambigüe" Samples, die dem „Open Space" (dem Raum zwischen den Klassen) näher sind, und zwingt das Modell, diesen Raum besser zu modellieren.
- Label Smoothing verhindert, dass das Modell zu selbstsicher wird, und unterstützt die Uniformität der Verteilung.

Der Trainingsprozess:

Stufe 1 (Representation Learning):
- Ein Encoder extrahiert Features, die durch ein Projektionsnetzwerk auf eine Sphäre projiziert werden.
- Eine neue Verlustfunktion, vMFAL (von Mises-Fisher Alignment Loss), wird verwendet. Sie minimiert den Abstand zwischen Feature-Vektoren und ihren Label-Embeddings (Alignment) und maximiert gleichzeitig die Distanz zwischen den Embeddings selbst (Uniformity/Orthogonalität).
- Ein Orthogonality Regularizer ( $R_{Ortho}$ ) erzwingt explizit die Orthogonalität der Label-Embeddings, um Kollaps (Label Embedding Collapse) zu verhindern.
Stufe 2 (Classifier Training):
- Der Encoder wird eingefroren. Ein einfacher linearer Klassifikator wird auf den gelernten Features trainiert (nur Cross-Entropy Loss).
- Dies ermöglicht eine effiziente Anpassung ohne Störung der bereits optimierten Feature-Struktur.

Bewertungsmetriken für OSR:

Die Autoren führen zwei neue Metriken ein, um die Qualität der Repräsentation zu quantifizieren:

Angular Separability (AS): Misst, wie nah unbekannte Samples im Winkel zu den nächsten bekannten Klassen liegen (niedriger ist besser).
Norm Separability (NS): Misst die Unterscheidbarkeit basierend auf der Länge (Norm) der Feature-Vektoren (höher ist besser).

3. Wichtige Beiträge

Neue Zwei-Stufen-OSR-Methode: SpHOR trennt das Lernen der Repräsentation vom Klassifikator-Training, wobei der Fokus auf der expliziten Strukturierung des Feature-Raums liegt.
Theoretische Fundierung: Analytischer Nachweis, wie der vorgeschlagene Loss-Function Alignment und Uniformity induziert und wie Orthogonalität die Diskriminierungsfähigkeit verbessert.
Neue Metriken: Einführung von Angular Separability (AS) und Norm Separability (NS) zur Quantifizierung der Effektivität von OSR-Methoden jenseits reiner Klassifikationsgenauigkeit.
State-of-the-Art Ergebnisse: SpHOR erreicht auf verschiedenen Benchmarks (sowohl grob- als auch feingranular) die besten Ergebnisse.

4. Ergebnisse

Die Evaluation erfolgte auf zwei Haupt-Benchmark-Kategorien:

A. Semantic Shift Benchmark (SSB) – Feingranulare Szenarien:

Datensätze: CUB (Vögel), Stanford Cars, FGVC-Aircraft.
Ergebnisse: SpHOR erzielt State-of-the-Art (SOTA) Ergebnisse in AUROC und OSCR (Open Set Classification Rate).
- Auf dem SSB-Benchmark wurden Verbesserungen von bis zu 5,1% in OSCR und 5,2% in AUROC gegenüber den besten bestehenden Methoden (wie MLS+Mixup oder SupCon) erzielt.
- SpHOR ist robust gegenüber der Wahl des Scoring-Algorithmus (MaxLogit, KNN, etc.) und zeigt eine geringere Sensitivität als Vergleichsmethoden.
- Die Methode funktioniert auch ohne ImageNet-Vorab-Training (from scratch) sehr gut, was die Stabilität der sphärischen Repräsentation unterstreicht.

B. Legacy CNN-32 Benchmarks – Grobgranulare Szenarien:

Datensätze: SVHN, CIFAR-10, Tiny-ImageNet.
Ergebnisse: Auch hier erreicht SpHOR die besten AUROC-Werte, mit einer Verbesserung von ca. 0,8% bis 1% gegenüber dem zweitbesten Verfahren (ConOSR bzw. RCSSR).

Ablationsstudien:

Die Kombination aus Mixup und Label Smoothing führt zu den besten Ergebnissen, da sie sich gegenseitig ergänzen: Mixup verbessert die Winkel-Trennung (AS), während LS die Norm-Trennung (NS) verbessert.
Der Orthogonalitäts-Regularizer ( $R_{Ortho}$ ) erhöht die Dispersion der Klassen-Zentren und verbessert nachweislich die Erkennung unbekannter Klassen.
Effizienz: SpHOR hat eine lineare Trainingskomplexität $O(B \cdot C)$ (im Gegensatz zu $O(B^2)$ bei SupCon), was es besonders für große Batch-Größen und viele Klassen effizient macht.

5. Bedeutung und Fazit

Das Paper SpHOR adressiert eine kritische Lücke im Deep Learning: Die Fähigkeit, unbekannte Klassen in feingranularen Szenarien zuverlässig zu erkennen, ohne dabei die Genauigkeit auf bekannten Klassen zu verlieren.

Paradigmenwechsel: Statt sich nur auf den Klassifikator zu verlassen, wird der Feature-Raum selbst explizit für OSR optimiert.
Lösung des Familiarity Trap: Durch die Kombination aus orthogonaler Trennung, sphärischer Modellierung und Data-Augmentation (Mixup/LS) wird verhindert, dass unbekannte, aber ähnliche Klassen fälschlicherweise als bekannt klassifiziert werden.
Praktische Relevanz: Die Methode ist rechnerisch effizient, robust gegenüber fehlender Vorab-Training und liefert konsistent bessere Ergebnisse auf modernen, schwierigen Benchmarks.

Zusammenfassend bietet SpHOR einen theoretisch fundierten und empirisch überlegenen Ansatz, der die Grenzen des Open-Set Recognition durch eine gezielte Gestaltung der Repräsentationsgeometrie erweitert.