ConjNorm: Tractable Density Estimation for Out-of-Distribution Detection

Each language version is independently generated for its own context, not a direct translation.

Die große Herausforderung: Der "Fremde" im Klassenzimmer

Stell dir vor, du hast einen sehr klugen Lehrer (ein KI-Modell), der jahrelang nur Bilder von Hunden und Katzen gelernt hat. Er ist ein Experte für diese Tiere.

Jetzt kommt ein Schüler in den Raum und hält ein Bild hoch.

Szenario A: Es ist ein Bild von einem Golden Retriever. Der Lehrer nickt: "Ah, ein Hund! Ich kenne das." (Das nennt man In-Distribution oder ID).
Szenario B: Es ist ein Bild von einem Elefanten. Der Lehrer starrt darauf. Er weiß nicht, was das ist. Aber wie kann er wissen, dass er es nicht weiß?

Das ist das Problem der Out-of-Distribution (OOD) Erkennung. Wir wollen, dass die KI nicht nur Dinge erkennt, sondern auch sicher sagen kann: "Hey, das hier passt nicht in mein Lehrbuch!"

Das alte Problem: Der falsche Maßstab

Bisher haben viele Forscher versucht, das zu lösen, indem sie eine Art "Wahrscheinlichkeits-Rechner" bauten. Sie sagten: "Wenn das Bild sehr ähnlich zu den Trainingsdaten ist, ist die Wahrscheinlichkeit hoch. Wenn nicht, ist sie niedrig."

Aber hier gab es ein großes Problem: Die Rechenarbeit war zu schwer.
Um die Wahrscheinlichkeit genau zu berechnen, muss man einen riesigen "Normalisierungsfaktor" (eine Art mathematischen Nenner) berechnen. Stell dir vor, du willst die Dichte von Wasser in einem Ozean messen, aber du musst jeden einzelnen Wassertropfen zählen, um den genauen Wert zu bekommen. Das dauert ewig und ist oft unmöglich.

Deshalb haben viele alte Methoden einfach angenommen, wie die Daten verteilt sind (z. B. "Alles ist wie eine Glockenkurve"). Das ist wie wenn man annimmt, dass alle Menschen die gleiche Körpergröße haben. Das funktioniert für die meisten, aber wenn jemand ein Riese oder ein Zwerg ist, passt die Annahme nicht mehr, und die KI macht Fehler.

Die neue Lösung: CONJNORM – Der flexible Lineal-Meister

Die Autoren dieses Papiers haben eine neue Methode namens CONJNORM entwickelt. Hier ist, wie sie es gemacht haben, ohne komplizierte Mathematik:

1. Der neue theoretische Rahmen (Das "Bregman-Divergenz"-Konzept)

Stell dir vor, du hast einen riesigen Werkzeugkasten voller verschiedener Lineale (mathematische Abstandsmaße).

Ein Lineal misst die gerade Distanz (wie ein gerader Strich).
Ein anderes Lineal misst die Distanz, wenn man um Ecken geht (wie in einer Stadt).
Ein drittes Lineal misst Distanzen, die sich krümmen.

Früher haben die Forscher immer nur ein Lineal benutzt (meist das gerade, das "Gaußsche" Lineal). Aber die Welt ist nicht immer gerade! Manchmal sind die Daten krumm oder unregelmäßig.

CONJNORM sagt: "Wir nehmen nicht nur ein Lineal. Wir suchen uns das perfekte Lineal für genau diesen Datensatz aus." Sie nutzen ein mathematisches Prinzip (Bregman-Divergenz), das ihnen sagt, welches Lineal am besten zu den Daten passt, ohne dass sie die ganze Welt neu berechnen müssen.

2. Die "Norm"-Suche (Der p-Wert)

Das Herzstück ist die Suche nach dem richtigen "p-Wert". Stell dir das vor wie den Drehregler an einem Radio.

Wenn du den Regler auf "2" drehst, bekommst du das klassische, gerade Lineal (Gauß).
Wenn du ihn auf "2,5" oder "3" drehst, bekommst du ein Lineal, das besser mit krummen Daten umgehen kann.

CONJNORM probiert einfach verschiedene Einstellungen aus, bis es den "Sweet Spot" findet, bei dem die KI am besten zwischen "bekanntem Hund" und "fremdem Elefanten" unterscheiden kann.

3. Das Problem mit dem "Zähler" (Die Partition Function)

Aber wie berechnet man die Wahrscheinlichkeit, ohne jeden Tropfen im Ozean zu zählen?
Hier kommt der geniale Trick: Importance Sampling (Wichtigkeits-Stichprobe).

Stell dir vor, du willst wissen, wie viele Fische in einem riesigen See sind.

Der alte Weg: Den ganzen See leeren und zählen (unmöglich).
Der CONJNORM-Weg: Du wirfst ein Netz an 10 zufälligen, aber repräsentativen Stellen aus. Du zählst die Fische dort und rechnest hoch. Das ist nicht 100% genau, aber es ist sehr schnell und statistisch gesehen fair und korrekt (unverzerrt).

Dank dieser Technik können sie die Wahrscheinlichkeit berechnen, ohne die KI zu überlasten.

Was hat das gebracht? (Die Ergebnisse)

Die Forscher haben CONJNORM auf vielen verschiedenen Tests (wie CIFAR-100 und ImageNet) ausprobiert.

Das Ergebnis: Die neue Methode ist deutlich besser als alle bisherigen.
Die Metapher: Wenn die alten Methoden bei einem Test 80% richtig lagen, lag CONJNORM bei 93% oder mehr.
Der Vorteil: Sie funktioniert nicht nur bei perfekten, glatten Daten, sondern auch bei chaotischen, realen Daten, wo die alten "Gauß-Annahmen" versagt hätten.

Zusammenfassung in einem Satz

CONJNORM ist wie ein KI-System, das aufhört, stur anzunehmen, wie die Welt aussieht, sondern stattdessen flexibel das richtige "Messwerkzeug" für jede Aufgabe sucht und dabei clever schätzt, statt alles mühsam nachzuzählen – und dadurch Fremde viel besser erkennt als alle Vorgänger.

Das Papier zeigt also, dass man durch eine kluge mathematische Kombination (Bregman-Divergenz + flexible Normen + intelligente Schätzung) KI-Systeme viel sicherer und zuverlässiger machen kann, wenn sie mit unbekannten Situationen konfrontiert werden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Im Bereich des maschinellen Lernens arbeiten Modelle oft unter der Annahme einer geschlossenen Welt, in der Testdaten derselben Verteilung wie die Trainingsdaten (In-Distribution, ID) entstammen. In realen Szenarien treten jedoch häufig Daten auf, die von dieser Verteilung abweichen (Out-of-Distribution, OOD). Diese OOD-Daten können die Stabilität und Leistung von Modellen gefährden, insbesondere in sicherheitskritischen Anwendungen.

Das Ziel der OOD-Erkennung besteht darin, einen Klassifikator zu entwickeln, der nicht nur ID-Daten korrekt klassifiziert, sondern auch OOD-Daten zuverlässig als solche erkennt. Ein vielversprechender Ansatz ist die post-hoc OOD-Erkennung, bei der ein bereits trainiertes Modell genutzt wird, um eine Score-Funktion zu berechnen, die die Dichte der ID-Daten schätzt.

Herausforderungen bestehender Methoden:

Logit- und Distanzbasierte Ansätze: Methoden wie MSP (Maximum Softmax Probability) oder Mahalanobis-Distanz liefern Scores, die nicht notwendigerweise der wahren Datenverteilung entsprechen.
Annahmen über Verteilungen: Dichtebasierte Methoden (z. B. GEM) nehmen oft spezifische Verteilungen an (z. B. Gauß-Verteilung), um die Normalisierungskonstante (Partitionsfunktion) berechenbar zu machen. Diese starken Annahmen sind in der Praxis oft nicht haltbar und führen zu suboptimalen Ergebnissen, wenn die Daten nicht genau dieser Verteilung folgen.
Berechenbarkeit: Die Berechnung der Partitionsfunktion für die Normalisierung der Dichtefunktion ist bei allgemeinen Verteilungen oft rechnerisch nicht handhabbar (intractable).

2. Methodik: CONJNORM

Die Autoren schlagen CONJNORM vor, einen neuen theoretischen Rahmen, der auf Bregman-Divergenzen und der exponentiellen Familie von Verteilungen basiert.

Theoretischer Rahmen

Exponentielle Familie: Anstatt sich auf eine spezifische Verteilung (wie Gauß) zu beschränken, modellieren die Autoren die ID-Daten als Teil einer breiten exponentiellen Familie von Verteilungen.
Bregman-Divergenz: Sie nutzen den Zusammenhang zwischen der exponentiellen Familie und der Bregman-Divergenz. Ein zentrales Theorem zeigt, dass jede reguläre Verteilung dieser Familie durch eine eindeutig bestimmte Bregman-Divergenz dargestellt werden kann.
Konjugationsbedingung: Das Kernstück der Theorie ist die Entdeckung einer Konjugationsbedingung. Um die Dichtefunktion $g_\theta(z, k)$ optimal zu gestalten, muss sie der Struktur der zugehörigen Bregman-Divergenz entsprechen.

Der CONJNORM-Ansatz

Statt eine komplexe Verteilung zu lernen, wird die Suche nach der optimalen Dichtefunktion auf die Suche nach dem optimalen Norm-Koeffizienten $p$ reduziert:

Wahl der Norm: Die Autoren wählen die $l_p$ -Norm als konvexe Funktion $\psi$ für die exponentielle Familie.
Konjugiertes Paar: Die konjugierte Funktion $\phi$ (für die Bregman-Divergenz) entspricht dann der $l_q$ -Norm, wobei $1/p + 1/q = 1$.
Optimierung: Anstatt die Verteilung parametrisch zu lernen, wird $p$ als Hyperparameter behandelt. Für einen gegebenen Datensatz wird ein optimaler Wert $p_{opt}$ (typischerweise im Bereich von 2 bis 3) durch eine effiziente Suche gefunden. Dies ermöglicht eine flexible Anpassung an die tatsächliche Datenstruktur ohne starre Gauß-Annahmen.

Schätzung der Partitionsfunktion

Ein Hauptproblem bei der Dichteschätzung ist die Berechnung der Partitionsfunktion $\Phi(k)$ (die Normalisierungskonstante).

Baselines: Herkömmliche Methoden nutzen entweder die Annahme, dass die Partitionsfunktion konstant ist (Self-Normalization), oder Kernel-Density-Estimation (KDE), was rechenintensiv und unflexibel ist.
Importance Sampling (IS): CONJNORM schlägt einen unverzerrten und analytisch handhabbaren Schätzer mittels Monte-Carlo-basiertem Importance Sampling vor.
- Es wird eine einfache Stichprobenverteilung (z. B. Uniform über die Trainingsdaten) verwendet.
- Die Partitionsfunktion wird durch eine gewichtete Summe der unnormalisierten Dichten geschätzt.
- Dieser Ansatz ist theoretisch unverzerrt und deutlich effizienter als KDE.

3. Wichtige Beiträge

Einheitlicher theoretischer Rahmen: Die Arbeit verbindet bestehende post-hoc OOD-Methoden (wie Energy-basierte Ansätze und Mahalanobis-Distanz) unter einem gemeinsamen Dach der exponentiellen Familie und Bregman-Divergenzen.
Entdeckung der Konjugationsbedingung: Die Autoren leiten eine theoretische Bedingung ab, die besagt, dass die Gestaltung der Dichtefunktion durch das konjugierte Paar von Normen ( $l_p$ und $l_q$ ) bestimmt wird.
CONJNORM Algorithmus: Ein neuer Algorithmus, der die Dichtefunktion designen, indem er den optimalen $l_p$ -Norm-Koeffizienten für den Datensatz sucht, anstatt eine starre Verteilung anzunehmen.
Effiziente Partitionsfunktion-Schätzung: Einführung eines Importance-Sampling-basierten Schätzers, der die Normalisierung ohne starke Verteilungsannahmen ermöglicht.
State-of-the-Art Ergebnisse: Umfassende Experimente zeigen, dass die Methode in verschiedenen Szenarien überlegen ist.

4. Ergebnisse

Die Methode wurde auf mehreren Standard-Benchmarks getestet und übertraf den aktuellen State-of-the-Art (SOTA) deutlich:

CIFAR-100: CONJNORM verbesserte den FPR95 (False Positive Rate bei 95% True Positive Rate) im Vergleich zur besten bestehenden Methode um 13,25 %.
ImageNet-1K: Auf diesem großen Datensatz wurde eine Verbesserung von 28,19 % im FPR95 erzielt.
Robustheit: Die Methode funktioniert gut auf verschiedenen Architekturen (DenseNet, ResNet, MobileNet) und in schwierigen Szenarien wie:
- Hard OOD: Wenn OOD-Daten semantisch sehr ähnlich zu ID-Daten sind.
- Long-Tailed OOD: Wenn die Trainingsdaten eine unausgeglichene Klassenverteilung aufweisen.
- Kontrastives Lernen: Die Methode ist kompatibel mit Features, die durch kontrastives Lernen (SupCon, CIDER) gewonnen wurden.

Die Ablationsstudien zeigten, dass die Leistung stark von der Wahl des $p$ -Werts abhängt und dass Werte zwischen 2 und 3 oft optimal sind, was die Limitierung reiner Gauß-Annahmen ( $p=2$ ) unterstreicht.

5. Bedeutung und Ausblick

CONJNORM stellt einen Paradigmenwechsel in der OOD-Erkennung dar. Anstatt sich auf heuristische Score-Funktionen oder starre Verteilungsannahmen zu verlassen, bietet es einen datengetriebenen, theoretisch fundierten Ansatz zur Dichteschätzung.

Theoretische Tiefe: Die Arbeit liefert eine klare theoretische Begründung dafür, warum bestimmte Distanzmetriken funktionieren und wie sie optimiert werden können.
Praktische Anwendbarkeit: Da die Methode nur eine Suche nach einem Hyperparameter ( $p$ ) und eine einfache Importance-Sampling-Schätzung erfordert, ist sie leicht in bestehende Post-hoc-Pipelines integrierbar, ohne das Modell neu trainieren zu müssen.
Zukunft: Die Autoren sehen Potenzial darin, diese Prinzipien auf große vortrainierte Vision-Language-Modelle (VLMs) und komplexere Bregman-Divergenzen zu erweitern.

Zusammenfassend bietet CONJNORM eine robuste, effiziente und theoretisch fundierte Lösung für das Problem der OOD-Erkennung, die die Grenzen bestehender Methoden überwindet.