Enhancing Out-of-Distribution Detection with Extended Logit Normalization

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe we AI leren om "niet te weten" wanneer het iets onbekends ziet

Stel je voor dat je een zeer slimme robot hebt die alle soorten appels kan herkennen. Hij is getraind met duizenden foto's van rode, groene en gele appels. Als je hem een foto van een appel geeft, zegt hij: "Dat is een appel!" met 100% zekerheid.

Maar wat gebeurt er als je hem een foto van een banaan geeft? Of een stoel?
Omdat de robot zo zeker van zijn zaak is, denkt hij misschien: "Oh, dit is een rare, gele appel!" en geeft hij een antwoord alsof hij het zeker weet. In de echte wereld is dit gevaarlijk. Als een zelfrijdende auto denkt dat een plastic zak een steen is, kan dat leiden tot ongelukken.

Dit probleem heet Out-of-Distribution (OOD) detectie: het vermogen van een AI om te zeggen: "Ik ken dit niet, ik durf dit niet te voorspellen."

Het probleem met de oude methode

De auteurs van dit paper kijken naar een bestaande techniek genaamd LogitNorm. Je kunt je dit voorstellen als een "drukker" op de knop van de robot. Als de robot te zeker wordt (bijvoorbeeld 99,9% zekerheid over een banaan), drukt LogitNorm die zekerheid iets naar beneden, zodat hij minder arrogant wordt.

Maar er zit een groot nadeel aan deze oude methode:
Stel je voor dat je de robot dwingt om alle appels heel dicht bij elkaar te houden in zijn hoofd (in zijn "geheugenruimte"). Door ze zo dicht bij elkaar te duwen, beginnen de appels op elkaar te lijken alsof ze allemaal in één klein hoekje zitten.

Het gevolg: De robot verliest het onderscheid tussen de verschillende soorten appels (hij wordt minder goed in het herkennen van echte appels) en hij raakt in de war als hij iets vreemds ziet, omdat alles in dat ene hoekje nu ook vreemd lijkt. Het is alsof je alle boeken in een bibliotheek in één kast duwt; je vindt ze sneller, maar je kunt ze niet meer goed vinden.

De nieuwe oplossing: ELogitNorm

De auteurs van dit paper hebben een nieuwe, slimme manier bedacht om de robot te trainen, genaamd ELogitNorm.

In plaats van de robot te dwingen om alles naar één centraal punt (het midden van de kast) te duwen, leren ze de robot om te kijken naar de randen van de kast.

De analogie van de muur:
Stel je voor dat elke soort appel (rood, groen, geel) zijn eigen kamer heeft in een groot huis.

De oude methode (LogitNorm) probeerde alle appels naar het midden van het huis te duwen. Daardoor raakten ze de muren kwijt en wisten ze niet meer waar de grens was.
De nieuwe methode (ELogitNorm) leert de robot om precies te weten waar de muren (de grenzen) tussen de kamers zitten.

Wanneer de robot een nieuwe foto ziet, kijkt hij niet alleen naar hoe dicht hij bij een bekende appel zit, maar vooral naar hoe ver hij van de muur af staat.

Als hij ver van de muur staat, zegt hij: "Ik weet zeker dat dit een rode appel is."
Als hij vlak bij de muur staat (of zelfs de muur raakt), zegt hij: "Hé, dit is raar. Dit zou een groene appel kunnen zijn, of misschien wel een banaan. Ik weet het niet zeker."

Waarom is dit zo goed?

Geen "Feature Collapse": De robot houdt zijn geheugenruimte groot en overzichtelijk. De verschillende appels blijven goed gescheiden, dus hij wordt niet minder slim in het herkennen van echte appels.
Beter herkennen van vreemds: Omdat de robot precies weet waar de grenzen liggen, voelt hij zich onzeker zodra hij iets ziet dat die grenzen overstijgt. Hij zegt dan direct: "Ik ken dit niet!" in plaats van een verkeerd antwoord te geven.
Geen ingewikkelde instellingen: De nieuwe methode werkt vanzelf. De ontwikkelaars hoeven geen lastige knoppen te draaien of extra data te verzamelen. Het is een "plug-and-play" oplossing.

De resultaten

In hun experimenten hebben ze getest met verschillende soorten robots (neural networks) en verschillende datasets (van kleine foto's tot grote foto's van ImageNet).

Resultaat: De robots met de nieuwe methode (ELogitNorm) waren niet alleen beter in het herkennen van vreemde objecten (banaan, stoel, etc.), maar ze waren ook nog steeds net zo goed in het herkennen van de echte appels.
Ze overtroffen zelfs de beste bestaande methoden, vooral bij objecten die heel erg leken op de echte data (zoals een groene appel die op een groene peer lijkt).

Conclusie

Kortom: De auteurs hebben een manier gevonden om AI-modellen te trainen zodat ze niet alleen slim zijn, maar ook bescheiden. Ze leren de AI om te weten wat ze niet weten. Door de "grenzen" in het geheugen van de AI beter te definiëren, voorkomen ze dat de AI zelfverzekerd fouten maakt. Dit maakt AI veiliger en betrouwbaarder voor toepassingen in de echte wereld, zoals medische diagnose of zelfrijdende auto's.

Each language version is independently generated for its own context, not a direct translation.

Titel: Enhancing Out-of-Distribution Detection with Extended Logit Normalization (ELogitNorm)

Auteurs: Yifan Ding, Xixi Liu, Jonas Unger, Gabriel Eilertsen (Linköping University & Imperial College London)

1. Het Probleem

De betrouwbaarheid van machine learning-modellen is cruciaal voor veilige toepassingen. Deep learning-modellen gaan er vaak ten onrechte van uit dat trainings- en testdata uit dezelfde verdeling komen. In de praktijk komen modellen echter vaak Out-of-Distribution (OOD) samples tegen (data die fundamenteel afwijkt van de trainingsdata), wat leidt tot onbetrouwbare voorspellingen.

Bestaande methoden voor OOD-detectie vallen vaak in twee categorieën:

Post-hoc methoden: Deze gebruiken de bestaande modeloutput (logits, features) om een score te berekenen. Deze zijn vaak suboptimaal als het model alleen met standaard Cross-Entropy (CE) is getraind.
Trainingsmethoden: Deze proberen het model tijdens het trainen te kalibreren (bijv. LogitNorm). LogitNorm normaliseert de logit-vector om oververtrouwen te voorkomen.

De beperkingen van LogitNorm:
Hoewel LogitNorm de prestaties verbetert, introduceert het twee kritieke problemen:

Feature Collapse: De geleerde features "instorten" naar de oorsprong (origin) van de feature-ruimte en worden gecomprimeerd in een paar dominante richtingen. Dit vermindert de expressiviteit van het model.
Trade-off: LogitNorm gaat vaak ten koste van de nauwkeurigheid voor In-Distribution (ID) classificatie en werkt niet goed met alle post-hoc scoringsmethoden.

2. Methodologie: Extended Logit Normalization (ELogitNorm)

De auteurs analyseren eerst waarom LogitNorm faalt en stellen vervolgens een nieuwe, hyperparameter-vrije loss-functie voor.

Analyse van LogitNorm

De auteurs identificeren twee vormen van instorting:

Dimensionele instorting: De singulariteitswaarden van de features lopen naar nul, wat betekent dat informatie verloren gaat.
Instorting naar de oorsprong (Origin Collapse): OOD-samples worden door het model afgebeeld dicht bij de oorsprong (nabijheid tot 0) in de feature-ruimte, in plaats van verspreid te zijn over de ruimte.
- Oorzaak: LogitNorm normaliseert op basis van de norm van de logit-vector ( $||f||$ ). Omdat $||f||$ evenredig is met de feature-norm $||z||$ , dwingt de loss-functie het model om features met een kleine norm te produceren. Dit creëert een bias waarbij OOD-data (die vaak lage normen hebben) onterecht dicht bij ID-data of de oorsprong wordt geduwd.

De Oplossing: ELogitNorm

In plaats van de afstand tot de oorsprong ( $||z||$ ) als schalingsfactor te gebruiken, introduceert ELogitNorm een schalingsfactor gebaseerd op de afstand tot de beslissingsgrenzen (decision boundaries).

Concept: Samples dicht bij een beslissingsgrens hebben hogere onzekerheid, terwijl samples ver weg een hogere zekerheid hebben. Een goede kalibratie moet deze relatieve positie vastleggen.
Berekening: Voor een gegeven feature-vector $z$ wordt de gemiddelde afstand tot de beslissingsgrenzen van alle andere klassen berekend ( $D(z)$ ).
$D(z) := \frac{1}{c-1} \sum_{i \neq f_{max}} \frac{|(w_{f_{max}} - w_i)^T z + (b_{f_{max}} - b_i)|}{\|w_{f_{max}} - w_i\|_2}$
Loss-functie: De standaard LogitNorm loss wordt aangepast door de temperatuur/scaling factor te vervangen door $D(z)$ in plaats van $||f||$ (of $||z||$ ).
$L_{ELogitNorm} = -\log \frac{e^{f_y / D(z)}}{\sum e^{f_i / D(z)}}$

Voordelen van deze aanpak:

Geen Feature Collapse: De minimale schalingsfactor is niet meer een enkel punt (de oorsprong), maar een affiene deelruimte met een veel hogere dimensie ( $m - c + 1$ ). Dit voorkomt dat features instorten naar een singulier punt.
Hyperparameter-vrij: Er zijn geen extra hyperparameters nodig (in tegenstelling tot LogitNorm dat vaak een temperatuur $\tau$ vereist).
Compatibiliteit: Het werkt naadloos samen met bestaande post-hoc methoden.

3. Belangrijkste Bijdragen

Identificatie van Feature Collapse: De auteurs tonen theoretisch en empirisch aan dat LogitNorm leidt tot een instorting van features naar de oorsprong, wat de prestaties beperkt.
ELogitNorm: Een nieuwe trainingsdoelstelling die de afstand tot beslissingsgrenzen gebruikt in plaats van de afstand tot de oorsprong. Dit verbetert de OOD-detectie en ID-kalibratie zonder de classificienauwkeurigheid te verlagen.
Superieure Prestaties: De methode verbetert de prestaties van een breed scala aan bestaande post-hoc OOD-detectoren (zoals MSP, ReAct, KNN, SCALE) aanzienlijk, vooral op "far-OOD" benchmarks.
Robuustheid: In tegenstelling tot LogitNorm, degradeert ELogitNorm niet bij bepaalde post-hoc methoden en behoudt het de stabiliteit tijdens het trainen.

4. Resultaten

De methode is getest op standaard benchmarks (CIFAR-10, CIFAR-100, ImageNet-200, ImageNet-1K) met verschillende architecturen (ResNet-18, ResNet-50).

OOD Detectie:
- ELogitNorm verbetert de AUROC (Area Under the Receiver Operating Characteristic Curve) en verlaagt de FPR95 (False Positive Rate bij 95% True Positive Rate) significant ten opzichte van Cross-Entropy en LogitNorm.
- De verbetering is het grootst bij far-OOD datasets (bijv. +10.48% AUROC en -54.31% FPR95 voor de SCALE-methode op ImageNet-1K).
- Het verbetert ook bestaande "enhancing" methoden zoals ReAct en SCALE, die vaak moeite hebben met kleine datasets.
Classificienauwkeurigheid (ID):
- Waar LogitNorm vaak een daling in ID-nauwkeurigheid veroorzaakt, behoudt ELogitNorm de nauwkeurigheid van de standaard Cross-Entropy baseline (soms zelfs een lichte verbetering).
Kalibratie:
- ELogitNorm levert de laagste Expected Calibration Error (ECE), wat betekent dat de voorspelde betrouwbaarheid van het model beter overeenkomt met de werkelijke nauwkeurigheid.
Efficiëntie:
- De berekening van de paar-voor-paar afstanden heeft een theoretische complexiteit van $O(C^2D)$ , maar in de praktijk is de overhead verwaarloosbaar (minder dan 1% extra rekentijd op CIFAR-100 en ~10% op ImageNet-1K) omdat het alleen op de laatste laag gebeurt en volledig vectoriseerbaar is op GPU.

5. Betekenis en Conclusie

Dit paper biedt een fundamentele verbetering voor het trainen van betrouwbare classificatoren in open-wereld scenario's.

Theoretisch inzicht: Het paper legt een verband tussen de geometrie van de feature-ruimte (instorting naar de oorsprong) en de prestaties van OOD-detectie.
Praktische toepasbaarheid: Omdat ELogitNorm hyperparameter-vrij is en compatibel met bestaande post-hoc methoden, is het een directe "plug-in" oplossing die de betrouwbaarheid van AI-systemen kan verhogen zonder complexe tweestaps-training of generatieve modellen te vereisen.
Toekomst: Het werk benadrukt het belang van het begrijpen van de geometrische structuur van features en opent de deur voor verdere research in grens-bewuste kalibratie en adaptieve schalingsmechanismen.

Kortom, ELogitNorm lost het probleem van feature collapse op dat LogitNorm introduceerde, en levert hierdoor een robuustere, nauwkeurigere en beter gekalibreerde oplossing voor OOD-detectie.