SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een zeer slimme, digitale arts hebt die gespecialiseerd is in het herkennen van vijf soorten huidkanker. Deze arts is getraind op duizenden foto's van die vijf specifieke soorten. In de echte wereld werkt dit echter niet altijd zo simpel. Wat gebeurt er als de arts een foto ziet van een zesde, onbekende soort huidkanker die hij nooit heeft gezien?

Een standaard computerprogramma (een 'gesloten' systeem) zou proberen die onbekende ziekte te forceren in één van de vijf bekende categorieën. Het zou zeggen: "Dit is zeker type 3!" en een fout maken. Dat is gevaarlijk.

Open-Set Recognition (OSR) is de oplossing: het systeem moet durven zeggen: "Ik weet niet wat dit is, dit is een onbekend type."

De auteurs van dit paper, SpHOR, hebben een nieuwe manier bedacht om deze 'digitale arts' slimmer te maken. Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vertrouwensval"

Stel je voor dat je een museum hebt met een zaal voor "Hond" en een zaal voor "Kat".

Grote verschuiving: Als er een foto van een auto in de zaal valt, is dat makkelijk te herkennen. Het past er niet bij.
Kleine verschuiving (Het echte probleem): Wat als er een foto van een wolf in de zaal valt? Een wolf lijkt op een hond. Een standaard AI denkt: "Oh, dit is een hond!" en valt in de vertrouwensval. Het is te zeker van zijn zaak, terwijl het eigenlijk een onbekend dier is.

De oude methoden leerden de AI om alles in de bekende dozen te proppen. SpHOR doet iets anders: het bouwt eerst een perfecte kaart van de wereld voordat het de dozen (de klassen) erop zet.

2. De Oplossing: SpHOR (De Slimme Kaartbouwer)

SpHOR werkt in twee stappen, net als het bouwen van een stad voordat je de huizen erin zet.

Stap 1: Het Bouwen van de Sfeer (De Kogel)

In plaats van een platte kaart (zoals een gewone computergeheugenruimte), bouwen ze een kogel (een bol).

De Regel: Alle bekende dingen (honden, katten) moeten op het oppervlak van deze kogel liggen.
De Orthogonaliteit (De Rechte Hoek): Stel je voor dat elke soort dier een eigen straal heeft die uit het midden van de kogel komt. Bij SpHOR zorgen ze ervoor dat deze stralen perfect haaks op elkaar staan. Een hond-straal raakt de kat-straal nooit. Dit zorgt ervoor dat ze heel ver uit elkaar liggen, zelfs als ze op elkaar lijken.
De Mengeling (Mixup & Gladdering): Tijdens het leren maken ze "tussen-dingen". Ze nemen een foto van een hond en een kat, en maken er een wazige, gemengde foto van. De AI moet leren dat dit gemengde ding geen van beide is, maar ergens in het "lege ruimte" tussen de stralen ligt. Dit helpt de AI om de grenzen van de bekende dozen scherper te definiëren en de lege ruimte (waar onbekende dingen wonen) groter te maken.

Stap 2: De Wacht (De Classifier)

Pas nadat de kogel en de stralen perfect zijn opgebouwd, zetten ze de "wachters" (de klassificatiekop) erop. Omdat de kaart al zo goed is, hoeft de wachter niet hard te werken om de grenzen te trekken; ze liggen er al.

3. Waarom werkt dit zo goed?

De auteurs hebben twee nieuwe meetlatjes bedacht om te zien of het werkt:

De Hoek-maat (Angular Separability): Hoe ver staan de bekende dingen uit elkaar? Bij SpHOR staan ze ver uit elkaar, zodat een wolf (die ergens tussenin zit) niet per ongeluk in de honden-doos valt.
De Kracht-maat (Norm Separability): Hoe sterk is de "zekerheid"? Onbekende dingen krijgen een zwakker signaal. Als de AI iets ziet dat niet op de kogel past, zegt het systeem: "Ik voel me hier niet zeker over, dit is onbekend."

4. Het Resultaat

Wanneer ze dit testen op moeilijke taken (zoals het onderscheiden van heel specifieke vogelsoorten of auto's), wint SpHOR het van alle andere methoden.

Het maakt veel minder fouten bij het herkennen van onbekende dingen.
Het is zelfs beter als de computer niet is voorgeprogrammeerd met kennis van de hele wereld (zonder "pre-training").
Het werkt sneller en efficiënter dan de huidige top-methoden.

Kort samengevat:
Standaard AI's proberen alles in bekende vakjes te proppen, ook als het er niet in past. SpHOR bouwt eerst een ruimte waar de bekende dingen ver uit elkaar staan en waar er veel "lege ruimte" is voor onbekende dingen. Als er iets onbekends binnenkomt, past het niet in een vakje en valt het in die lege ruimte. Dan zegt de AI: "Ik weet het niet," in plaats van een gevaarlijke gok te wagen.

Dit is een enorme stap voor veiligheid, bijvoorbeeld in medische diagnoses of zelfrijdende auto's, waar het herkennen van "iets wat we niet kennen" net zo belangrijk is als het herkennen van wat we wel kennen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Deep Neural Networks (DNN's) worden steeds vaker ingezet in veiligheidskritische toepassingen, maar ze opereren doorgaans binnen een gesloten-set (closed-set) kader. Dit betekent dat ze ervan uitgaan dat alle testdata tot bekende klassen behoren die tijdens het trainingstadium zijn gezien. In de realiteit kunnen testdata echter tot onbekende klassen behoren.

Het probleem van Open-Set Recognition (OSR) is dat DNN's onbekende data vaak foutief classificeren als een bekende klasse (de "familiarity trap"), in plaats van ze als "onbekend" te markeren. Bestaande OSR-methoden hebben twee belangrijke beperkingen:

Ze trainen vaak de feature-extractor en de classifier gezamenlijk, wat leidt tot feature-representaties die niet optimaal zijn voor het onderscheiden van onbekende data.
Andere methoden gebruiken generieke objectives (zoals Supervised Contrastive Learning) die niet specifiek zijn ontworpen voor de unieke uitdagingen van OSR, zoals het onderscheiden van semantische verschuivingen (nieuwe klassen) versus covariaten-verschuivingen.

De kernuitdaging is dat onbekende klassen vaak dicht bij bekende klassen in de feature-ruimte liggen, wat ze moeilijk te scheiden maakt.

Methodologie: SpHOR

De auteurs stellen SpHOR voor, een tweestapsmethode die de representatielering (feature learning) expliciet vormgeeft voordat een classifier wordt getraind. De methode baseert zich op drie kerninnovaties:

Sferische Representaties (von Mises-Fisher Distributions):
In plaats van Euclidische ruimte, projecteren SpHOR de features naar een hypersfeer door middel van L2-normalisatie. Hierdoor worden de representaties gemodelleerd als een mengsel van von Mises-Fisher (vMF) distributies. Dit beperkt de "open space" (de ruimte voor onbekende klassen) en maakt het mogelijk om representaties te analyseren via de lens van alignment (uitlijning) en uniformity (uniformiteit).
Orthogonale Label Embeddings:
Om de "familiarity trap" te voorkomen, worden de label-embeddings (de centra van de klassen) geforceerd om orthogonaal op elkaar te staan. Dit zorgt ervoor dat elke klasse een eigen lineaire deelruimte inneemt, wat voorkomt dat onbekende klassen per ongeluk dicht bij een bekende klasse worden geprojecteerd.
Integratie van Mixup en Label Smoothing:
De auteurs integreren Mixup (het lineair combineren van afbeeldingen en labels) en Label Smoothing direct in de representatieleringfase. Dit creëert ambigue voorbeelden die de model helpen om de ruimte tussen klassen beter te modelleren en onbekende data beter te detecteren.

Het Trainingsproces:

Fase 1 (Representatielering): Een encoder leert features die aligneren met orthogonale label-embeddings op een hypersfeer. De lossfunctie bestaat uit een vMF Alignment Loss (die de features naar de juiste label-centra trekt) en een Orthogonality Regularizer (die de label-centra uit elkaar houdt). Mixup en Label Smoothing worden hier toegepast.
Fase 2 (Classifier Training): De encoder wordt "bevroren" en een nieuwe classifier wordt getraind op de gegenereerde features met een standaard cross-entropy loss.

Nieuwe Evaluatiemetrics:
Om de effectiviteit te kwantificeren, introduceren de auteurs twee nieuwe metrics:

Angular Separability (AS): Meet hoe ver onbekende samples verwijderd liggen van de dichtstbijzijnde bekende klassen in termen van hoek (geometrische scheiding).
Norm Separability (NS): Meet of onbekende samples een andere norm (lengte) hebben dan bekende samples, wat een eenvoudige detectiemogelijkheid biedt.

Kernbijdragen

Nieuwe Tweestaps-OSR Methode: Een decoupled trainingstrategie die eerst klasspecifieke representaties leert met orthogonale embeddings en vMF-distributies, gevolgd door een fijne afstemming van de classifier.
Theoretische Inzichten: Een analytische toonwijzing van hoe de voorgestelde lossfunctie Alignment en Uniformity in de representaties bevordert, wat essentieel is voor OSR.
Nieuwe Metrics: Introductie van Angular Separability en Norm Separability om de kwaliteit van de feature-ruimte voor OSR te meten.
State-of-the-Art Resultaten: SpHOR presteert beter dan bestaande methoden op zowel grof- als fijnkorrelige benchmarks.

Resultaten

De methode is getest op diverse benchmarks, waaronder de Semantic Shift Benchmark (SSB) (met datasets als CUB, Stanford Cars, en FGVC-Aircraft) en legacy CNN-32 benchmarks.

Prestaties: SpHOR behaalt state-of-the-art resultaten op de SSB-benchmarks. Op de "Hard" splits (waar onbekende klassen semantisch zeer lijken op bekende klassen) wordt een verbetering van tot 5,1% in OSCR (Open Set Classification Rate) en 5,2% in AUROC bereikt ten opzichte van de beste concurrenten.
Robuustheid: De methode presteert consistent goed, zelfs zonder ImageNet-pretraining, en is minder gevoelig voor de keuze van de scoringsregel (bijv. MaxLogit, KNN) dan andere methoden.
Efficiëntie: In tegenstelling tot contrastieve methoden (zoals SupCon) die een kwadratische complexiteit hebben ( $O(B^2)$ ), heeft SpHOR een lineaire complexiteit ( $O(B \cdot C)$ ). Dit maakt het zeer efficiënt en robuust, zelfs bij kleine batchgroottes.
Ablatie Studies: De studies bevestigen dat de combinatie van Mixup en Label Smoothing de Norm Separability en Angular Separability optimaliseert, en dat de orthogonale regularisatie essentieel is voor het maximaliseren van de spreiding van de klassen.

Significantie

SpHOR markeert een verschuiving in het OSR-veld van het puur optimaliseren van de classifier-grens naar het expliciet vormgeven van de feature-representatie. Door de feature-ruimte te structureren met orthogonale sferische constraints en data-augmentatie, lost de methode fundamentele problemen op zoals de "familiarity trap".

De resultaten tonen aan dat het ontwerpen van representaties specifiek voor OSR (in plaats van het vertrouwen op generieke closed-set training) leidt tot aanzienlijk betere detectie van onbekende klassen, zelfs in uitdagende, fijnkorrelige scenario's. Dit maakt SpHOR een veelbelovende oplossing voor veilige AI-toepassingen in de echte wereld, waar het correct identificeren van onbekende situaties cruciaal is.

SphOR: A Representation Learning Perspective on Open-set Recognition for Identifying Unknown Classes in Deep Learning Models

1. Het Probleem: De "Vertrouwensval"

2. De Oplossing: SpHOR (De Slimme Kaartbouwer)

Stap 1: Het Bouwen van de Sfeer (De Kogel)

Stap 2: De Wacht (De Classifier)

3. Waarom werkt dit zo goed?

4. Het Resultaat

Probleemstelling

Methodologie: SpHOR

Kernbijdragen

Resultaten

Significantie

Meer zoals dit

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation