FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der verwirrte Sicherheitsbeamte

Stellen Sie sich vor, Sie haben einen hochintelligenten Sicherheitsbeamten (das ist die KI), der an einem Flughafen oder in einer Fabrik arbeitet. Seine Aufgabe ist es, sofort zu erkennen, wenn etwas „falsch" ist – zum Beispiel ein unbekanntes Tier auf der Straße oder ein fremdes Objekt, das einen Roboterarm beschädigen könnte.

Bisherige Methoden (die sogenannten Normalizing Flows) funktionieren wie ein Beamter, der nur die „normalen" Passagiere kennt. Er hat eine riesige Datenbank mit Fotos von normalen Menschen in normalen Kleidern.

Das Problem: Wenn ein Passagier in einem Clownskostüm hereinkommt, denkt der Beamte: „Hmm, das sieht zwar seltsam aus, aber vielleicht ist das ja auch nur ein normaler Mensch in einem anderen Kontext." Oder schlimmer: Er ignoriert den Clown, weil er sich zu sehr auf die Details der Kleidung konzentriert und nicht versteht, dass es sich um ein ganzes unbekanntes Objekt handelt.
Die Folge: In komplexen Umgebungen (wie einer belebten Straße oder im Weltraum) versagen diese Systeme oft, weil sie nicht wissen, was nicht normal ist. Sie können nur sehr schlecht zwischen „bekannt" und „unbekannt" unterscheiden.

Die Lösung: FlowCLAS – Der neue Ansatz

Die Forscher von FlowCLAS haben eine clevere Idee entwickelt, um diesen Sicherheitsbeamten schlauer zu machen. Sie nennen ihr System FlowCLAS.

Stellen Sie sich vor, wir geben dem Beamten nicht nur Fotos von normalen Passagieren, sondern wir mischen auch absichtlich fremde Objekte (wie einen Ananas, einen Stuhl oder einen Alien-Anzug) in die Trainingsbilder.

Hier ist der Trick, wie FlowCLAS lernt:

Der alte Weg (Nur Likelihood): Früher wurde der Beamte nur gelehrt: „Mache dir ein Bild von normalen Dingen. Wenn etwas nicht in dieses Bild passt, ist es falsch." Das war wie ein Lehrer, der nur sagt: „Das ist richtig." Aber er sagte nie: „Das hier ist definitiv falsch!"
Der neue Weg (Kontrastives Lernen): FlowCLAS nutzt eine Technik namens kontrastives Lernen. Das ist wie ein Spiel „Finde den Unterschied".
- Der Beamte bekommt ein Bild mit einem normalen Auto und daneben ein Bild mit einem fremden Objekt (z. B. einem Hubschrauber auf der Straße).
- Er wird explizit bestraft, wenn er diese beiden Dinge im „Gedächtnis" (dem latenten Raum) zu ähnlich findet.
- Er muss lernen, die normalen Dinge in eine Ecke des Raumes zu drängen und die fremden Dinge weit weg in eine andere Ecke zu schieben.

Die Analogie: Der Musikclub

Stellen Sie sich den „latenten Raum" (das Gedächtnis der KI) als einen großen Musikclub vor.

Die normalen Gäste (Inlier): Das sind die Leute, die immer kommen. Sie tanzen alle im gleichen Bereich, tragen ähnliche Kleidung und kennen die Musik.
Die alten KI-Modelle: Sie haben nur eine Liste der normalen Gäste. Wenn jemand hereinkommt, schauen sie auf die Liste. Wenn der Name nicht draufsteht, sind sie verwirrt. Vielleicht denken sie, der neue Gast ist nur ein normaler Gast, der sich heute anders kleidet.
FlowCLAS: FlowCLAS bringt absichtlich fremde Gäste (Outlier) in den Club, während die Party noch läuft.
- Der Türsteher (die KI) lernt jetzt: „Aha! Diese Gruppe hier tanzt wild und trägt Neonfarben. Die gehören nicht in den normalen Bereich!"
- Durch diesen Kontrast lernt der Türsteher viel schneller und sicherer, wer rein darf und wer nicht. Er trennt die Gruppen im Raum klar voneinander.

Warum ist das so wichtig?

In der Robotik (z. B. beim autonomen Fahren oder bei Weltraumrobotern) ist Sicherheit alles.

Ein autonomes Auto muss erkennen, dass ein Kind im Kostüm auf der Straße kein normales Auto ist, auch wenn es sich bewegt.
Ein Roboterarm im Weltraum muss wissen, dass ein schwebender Schrottteil kein Teil des Raumschiffs ist.

FlowCLAS ist jetzt der beste „Türsteher" auf dem Markt. In Tests hat es gezeigt, dass es fremde Objekte viel besser erkennt als alle bisherigen Methoden, die nur auf Wahrscheinlichkeiten basierten. Es schließt die Lücke zwischen den unsicheren „generativen" Modellen und den sehr guten, aber oft zu starren „diskriminierenden" Modellen.

Zusammenfassung

Das Problem: Alte KI-Modelle waren zu gut darin, Normales zu beschreiben, aber zu schlecht darin, Fremdes zu erkennen.
Die Lösung: FlowCLAS trainiert die KI, indem es absichtlich „falsche" Dinge in die Bilder mischt und sie zwingt, diese klar von den „richtigen" Dingen zu trennen.
Das Ergebnis: Ein System, das in chaotischen, echten Welten (Straßen, Weltraum) viel sicherer arbeitet und Ausreißer sofort erkennt, bevor es zu einem Unfall kommt.

Es ist im Grunde wie ein Sicherheitsbeamter, der nicht nur die Gesichter der Stammgäste kennt, sondern auch gelernt hat, genau zu sagen: „Du gehörst hier nicht hin!", sobald ein Fremder den Club betritt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Anomalie-Segmentierung ist eine kritische Aufgabe für sicherheitsrelevante Robotikanwendungen (z. B. autonomes Fahren und Weltraumrobotik), bei der Objekte erkannt und lokalisiert werden müssen, die nicht den erwarteten Mustern der Trainingsdaten entsprechen (Out-of-Distribution, OoD).

Herausforderung bei Normalizing Flows (NF): Herkömmliche generative Modelle wie Normalizing Flows modellieren effizient die Verteilung normaler Daten. Sie funktionieren gut in kontrollierten Umgebungen (z. B. industrielle Inspektion), scheitern jedoch in dynamischen Szenen mit komplexen, multimodalen Datenverteilungen. Standard-NFs neigen dazu, sich auf niedrige Pixelstatistiken zu konzentrieren und können OoD-Stichproben fälschlicherweise hohe Likelihood-Werte zuweisen, da sie keine explizite Trennung zwischen normalen und anomalen Merkmalen im latenten Raum lernen.
Herausforderung bei diskriminativen Methoden: State-of-the-Art (SOTA) diskriminative Modelle (z. B. UNO) erzielen zwar gute Ergebnisse, agieren jedoch oft als „Blackbox" ohne explizite probabilistische Interpretierbarkeit und garantieren keine Robustheit gegenüber stark abweichenden Ausreißern.

2. Methodik: FlowCLAS

FlowCLAS (Flow via Contrastive Learning for Anomaly Segmentation) ist ein hybrides Framework, das die probabilistischen Stärken von Normalizing Flows mit der diskriminativen Kraft des Contrastive Learning kombiniert.

Architektur:
- Ein eingefrorener, vortrainierter Vision-Encoder (z. B. DINOv2) extrahiert diskriminative 2D-Feature-Maps aus den Eingabebildern.
- Diese Features werden durch ein Normalizing Flow-Netzwerk ( $f_\theta$ ) in einen latenten Raum transformiert.
Training mit Outlier Exposure (OE):
- Anstatt nur normale Daten zu verwenden, werden während des Trainings Anomalien synthetisch erzeugt, indem Objekte aus einem Hilfsdatensatz (z. B. COCO) per Copy-Paste in normale Trainingsbilder eingefügt werden.
- Dies erzeugt gemischte Bilder ( $I_{mix}$ ) und reine Ausreißerbilder ( $I_{out}$ ).
Hybride Verlustfunktion:
Das Modell wird mit einer Kombination aus drei Komponenten optimiert:
1. Maximum Likelihood Loss ( $L_{ml}$ ): Trainiert das NF, um die Dichte normaler Regionen im latenten Raum zu modellieren (Annäherung an eine Multivariate Gauß-Verteilung).
2. Contrastive Loss ( $L_{con}$ ): Dies ist der Kerninnovation. Durch eine Projektionskopf-Schicht werden latente Vektoren in einen niedrigerdimensionalen Raum projiziert. Ein InfoNCE-Loss erzwingt eine explizite Trennung: Latente Repräsentationen von normalen und anomalen Features werden im Projektionsraum voneinander getrennt, während gleiche Klassen näher zusammenrücken. Dies verhindert, dass Ausreißer hohe Likelihood-Werte erhalten.
3. Segmentierungs-Loss ( $L_{ce} + L_{Lovasz}$ ): Ein leichter Segmentierungs-Head hilft beim Lernen hochsemantischer Merkmale.
Inferenz:
- Die Anomalie-Score-Karte wird basierend auf der negativen Log-Likelihood der latenten Vektoren berechnet.
- Masken-basiertes Glätten: Um inkonsistente Scores innerhalb eines Objekts zu vermeiden, werden Scores innerhalb von Objektmasken (erzeugt durch SAM 2) geglättet, indem der häufigste Score-Wert (Modus) für alle Pixel der Maske übernommen wird.

3. Wichtige Beiträge

Neues Framework: Einführung von FlowCLAS, das die klassische NF-Dichteschätzung durch einen diskriminativen, kontrastiven Verlust erweitert, um einen trennscharfen latenten Raum zu lernen.
Überlegenheit des Contrastive Learning: Durch umfangreiche Ablationsstudien wird gezeigt, dass der kontrastive Ansatz anderen Strategien zur Behandlung von Ausreißern (wie reiner Likelihood-Minimierung oder Standard-Segmentierungs-Loss) überlegen ist. Er erzwingt eine semantische Trennung, die für dynamische Szenen essenziell ist.
State-of-the-Art Leistung: FlowCLAS erzielt neue Bestwerte auf vier herausfordernden Robotik-Benchmarks und schließt die Leistungslücke zwischen generativen und führenden diskriminativen Methoden.

4. Ergebnisse

FlowCLAS wurde auf folgenden Datensätzen evaluiert:

Fishyscapes Lost & Found (FS-L&F): FlowCLAS erreicht 88,8 % AUPRC und 0,7 % FPR95 (besser als alle vorherigen Methoden, inkl. UNO und RPL).
Road Anomaly: Erzielt 93,0 % AUPRC und 3,3 % FPR95.
SegmentMeIfYouCan (SMIYC): State-of-the-Art auf dem ObstacleTrack-Subset (94,2 % AUPRC).
ALLO (Weltraumrobotik): FlowCLAS übertrifft sowohl unsupervisierte NF-Methoden (wie FastFlow) als auch überwachte Mask2Former-basierte Methoden (wie UNO) mit 88,4 % AUPRC.

Qualitative Ergebnisse:
In visuellen Vergleichen (z. B. bei einem Helikopter in einer Weltraum-Szene) scheitern reine NF-Methoden (FastFlow) oft daran, das gesamte Objekt zu erkennen (fokussieren nur auf Textur/low-level Muster), während FlowCLAS die gesamte Objektstruktur korrekt segmentiert. Die Histogramme der Anomalie-Scores zeigen eine deutlich bessere Trennung zwischen Inlier- und Outlier-Verteilungen.

5. Bedeutung und Fazit

FlowCLAS adressiert eine fundamentale Schwäche von Normalizing Flows in komplexen Umgebungen: die Unfähigkeit, hochsemantische Anomalien von normalen Daten zu unterscheiden. Durch die Integration von Contrastive Learning und Outlier Exposure erhält das generative Modell die notwendige diskriminative Kraft, behält aber seine probabilistische Interpretierbarkeit bei.

Das Paper zeigt, dass die Kombination aus leistungsstarken vortrainierten Encodern (Foundation Models) und einem kontrastiven Lernziel eine effektive Strategie ist, um die Lücke zwischen generativen und diskriminativen Ansätzen in der Anomalie-Segmentierung zu schließen. Dies ist besonders für sicherheitskritische Anwendungen in der Robotik von großer Bedeutung, wo sowohl Zuverlässigkeit als auch die Fähigkeit, unbekannte Objekte zu erkennen, entscheidend sind.

FlowCLAS: Enhancing Normalizing Flow Via Contrastive Learning For Anomaly Segmentation

Das Problem: Der verwirrte Sicherheitsbeamte

Die Lösung: FlowCLAS – Der neue Ansatz

Die Analogie: Der Musikclub

Warum ist das so wichtig?

Zusammenfassung

1. Problemstellung

2. Methodik: FlowCLAS

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Beyond Hard Constraints: Budget-Conditioned Reachability For Safe Offline Reinforcement Learning

Efficient Embedding-based Synthetic Data Generation for Complex Reasoning Tasks

Between the Layers Lies the Truth: Uncertainty Estimation in LLMs Using Intra-Layer Local Information Scores

Scaling Attention via Feature Sparsity

Latent Semantic Manifolds in Large Language Models