TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein sehr kluger Detektiv, der darauf trainiert wurde, Fehler in Bildern zu finden – sei es ein Riss in einer Fliese, ein Fleck auf einem T-Shirt oder ein verdächtiger Bereich in einem medizinischen Scan.

Bisher hatten diese Detektiven ein großes Problem: Sie nutzten eine einzige, riesige "Fehler-Liste", um alles zu beschreiben.

Das alte Problem: Der "Einheits-Detektiv"

Stell dir vor, du hast einen Detektiv, der nur einen Satz gelernt hat: "Das hier ist kaputt."
Wenn er nun einen Riss in einer teuren Vase sieht, passt der Satz.
Wenn er aber einen Flecken auf einem weichen Teppich sieht, passt der Satz auch.
Und wenn er einen Tumor im Gehirn sieht? Auch da passt der Satz.

Das Problem ist: Der Detektiv versucht, alle diese völlig unterschiedlichen Fehler mit einem einzigen Begriff zu erklären. Er muss sich zwischen "Riss", "Fleck" und "Tumor" entscheiden. Da er nur einen Begriff hat, wird er bei den seltenen oder sehr spezifischen Fehlern oft unscharf. Er wird den Riss in der Vase vielleicht erkennen, aber den winzigen Fleck auf dem Teppich übersehen, weil sein "Fehler-Begriff" zu allgemein ist.

In der Technik nennt man das "indiskriminierte Ausrichtung" (indiscriminate alignment). Alle Bildteile werden mit derselben Text-Beschreibung verglichen.

Die Lösung: TokenCLIP – Das "Spezialisten-Team"

Die Forscher von TokenCLIP haben sich etwas Cleveres überlegt. Statt einem einzigen Detektiv mit einer Liste, geben sie dem System ein Team von Spezialisten.

Stell dir vor, das Bild ist ein riesiges Puzzle aus vielen kleinen Teilen (die "Tokens").

TokenCLIP sagt: "Jedes kleine Puzzleteil bekommt sein eigenes, passendes Team von Beschreibungen."

Ein Puzzleteil, das eine Kante zeigt, bekommt Hilfe von einem Spezialisten für "Formen".
Ein Puzzleteil, das eine seltsame Farbe hat, bekommt Hilfe von einem Spezialisten für "Farben".
Ein Puzzleteil im Hintergrund bekommt Hilfe von einem Spezialisten für "Umgebung".

Das System erstellt also nicht eine Liste, sondern viele kleine, spezialisierte Unter-Listen (die "orthogonalen Text-Subräume").

Der Trick: Wie finden sie den richtigen Spezialisten? (Optimal Transport)

Jetzt stellt sich die Frage: Wie weiß das System, welches Puzzleteil welchen Spezialisten braucht? Wenn man jedem Teil einen eigenen Spezialisten zuweisen würde, wäre das zu teuer und langsam (wie 10.000 Detektive für ein Bild).

Hier kommt der geniale Trick namens Optimaler Transport (OT) ins Spiel.

Stell dir vor, du hast eine Gruppe von Puzzleteilen (die Bilder) und eine Gruppe von Spezialisten (die Text-Listen).
Das System muss entscheiden: "Welcher Spezialist passt am besten zu welchem Teil?"

Früher haben die Systeme einfach gesagt: "Der Spezialist, der am ähnlichsten klingt, gewinnt." Das war wie ein gieriges Kind, das immer den gleichen Spielzeugkoffer nimmt, während die anderen Koffer leer stehen bleiben.

TokenCLIP macht es anders. Es nutzt eine Art intelligente Logistik:

Es schaut sich an, wie gut jeder Spezialist zu jedem Teil passt.
Es sorgt dafür, dass niemand leer ausgeht. Jeder Spezialist muss genug "Aufgaben" bekommen, um gut zu lernen.
Es sorgt dafür, dass die Spezialisten unterschiedliche Aufgaben übernehmen. Wenn ein Spezialist schon die "Risse" macht, darf er nicht auch noch die "Farben" machen. Sie müssen sich spezialisieren.

Das Ergebnis ist ein perfekter Plan: Jedes Bildteil bekommt genau die Mischung aus Spezialisten, die es braucht, um den Fehler zu erkennen.

Warum ist das so gut?

Feinere Details: Da jedes Bildteil genau die richtige Beschreibung bekommt, erkennt das System auch winzige, seltene Fehler (wie einen kleinen Riss in einem komplexen Muster), die vorher übersehen wurden.
Effizienz: Es braucht nicht tausende neue Wörter für jedes Bildteil. Es nutzt nur ein paar wenige Spezialisten-Listen und kombiniert sie geschickt. Das ist wie ein gut organisiertes Team, das viel schneller arbeitet als eine riesige, chaotische Menge.
Allgemeine Intelligenz: Das System lernt nicht nur, Fehler auf einem bestimmten Objekt zu finden, sondern versteht das Konzept von "Fehler" so gut, dass es es auch auf völlig neue Objekte (wie medizinische Scans) anwenden kann, ohne neu trainiert werden zu müssen.

Zusammenfassung in einem Satz

TokenCLIP ersetzt den langweiligen "Ein-Detektiv-für-alles"-Ansatz durch ein dynamisches Team von Spezialisten, das jedem kleinen Teil eines Bildes genau die richtige Beschreibung zuweist, um selbst die kleinsten und seltsamsten Fehler zu finden – und das alles, ohne das System zu überfordern.

Es ist der Unterschied zwischen einem Generalisten, der alles ein bisschen kann, und einem Team von Meistern, die genau wissen, was sie tun.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Paper adressiert die Herausforderung der Zero-Shot-Anomalieerkennung (ZSAD), bei der Modelle Anomalien in Objekten erkennen sollen, die während des Trainings nicht gesehen wurden. Bisherige Ansätze, die auf dem Foundation-Modell CLIP basieren, leiden unter einem zentralen Mangel: Sie nutzen einen einzigen, token-agnostischen textuellen Raum, um alle visuellen Token (Bildpatches) eines Bildes abzugleichen.

Das Kernproblem: Diese „indiskriminierende Ausrichtung" (indiscriminate alignment) zwingt das Modell, einen Kompromiss zwischen sehr unterschiedlichen semantischen Token einzugehen (z. B. ein Riss in einem Teppich vs. ein Tumor im Gehirn).
Die Folge: Das Modell neigt dazu, häufige Anomalien zu bevorzugen und seltene oder feingranulare Anomalie-Semantiken zu vernachlässigen.
Alternative und deren Grenzen: Ein naiver Ansatz wäre, jedem visuellen Token einen eigenen, einzigartigen Text-Embedding-Raum zuzuweisen. Dies ist jedoch aus zwei Gründen unpraktisch:
1. Hoher Rechenaufwand: Für ein Bild mit tausenden von Patches müssten tausende separate Text-Prompts kodiert werden.
2. Unterfitting: Da jeder spezifische Text-Embedding nur einmal pro Trainingsschritt aktualisiert wird, ist die Optimierung unzureichend.

2. Methodik: TokenCLIP

TokenCLIP schlägt einen feingranularen Anpassungsrahmen vor, der eine dynamische Ausrichtung auf Token-Ebene ermöglicht, ohne den oben genannten Rechenaufwand zu verursachen.

A. Multi-Head Text Prompt Learning

Statt eines einzigen Text-Raums wird ein Basis-Text-Raum in mehrere orthogonale textuelle Teilräume (subspaces) projiziert.

Es werden separate Prompts für globale (bildweite) und lokale (pixelweise) Anomalien gelernt.
Durch einen Multi-Head-Projektionsmechanismus werden diese Basis-Embeddings in $Q$ orthogonale Teilräume zerlegt.
Eine Orthogonalitäts-Regularisierung sorgt dafür, dass diese Teilräume semantisch divers sind und sich nicht überlappen.

B. Dynamische Ausrichtung via Optimaler Transport (OT)

Der Kerninnovation ist die Formulierung der Zuordnung zwischen visuellen Token und textuellen Teilräumen als Optimal-Transport-Problem (OT).

Prinzip: Visuelle Patches (Querverteilung) werden zu den textuellen Teilräumen (Zielverteilung) transportiert.
Kostenmatrix: Basierend auf der kosinussähnlichkeit zwischen visuellen und textuellen Repräsentationen.
Ziel: Minimierung der Transportkosten unter Einhaltung von Randbedingungen (Marginal Constraints).
- Die Randbedingung stellt sicher, dass alle Teilräume ausreichend optimiert werden (kein Teilraum wird ignoriert).
- Die Minimierung der Kosten fördert die Spezialisierung: Jeder Teilraum konzentriert sich auf eine bestimmte semantische Gruppe (z. B. Hintergrund vs. Vordergrund vs. spezifische Defekte), da das Mischen verschiedener Cluster in einem Teilraum hohe Kosten verursacht (Theorem 3.1).
Lösung: Der Sinkhorn-Knopp-Algorithmus wird verwendet, um den Transportplan effizient zu berechnen.
Sparsifizierung: Um die Interpretierbarkeit und Effizienz zu erhöhen, wird nur die Top-K Zuordnung pro visuellem Token beibehalten (Top-K-Masking). Dies erzeugt eine sparse, gewichtete Kombination von Teilräumen für jedes Token.

C. Training und Inferenz

Das Modell wird end-to-end trainiert, um globale Anomalie-Scores (Bildniveau) und segmentierte Anomalie-Karten (Pixelniveau) zu erzeugen. Der Gesamtverlust kombiniert globale Verluste, Basis-Lokale Verluste, dynamische Ausrichtungsverluste (OT) und einen Hinge-Loss zur Trennung von Normal- und Anomaliebereichen.

3. Hauptbeiträge

Erkenntnis: Die Autoren identifizieren, dass die aktuelle „indiskriminierende Ausrichtung" die Fähigkeit des Modells einschränkt, umfassende Anomalie-Semantiken zu erfassen.
TokenCLIP Framework: Einführung eines neuen Rahmens, der jedem visuellen Token eine gewichtete Kombination semantisch bewusster textueller Teilräume zuweist. Dies ermöglicht eine Token-Level-Überwachung für feingranulare Anomalieerkennung.
OT-Formulierung: Die dynamische Ausrichtung wird als Optimal-Transport-Problem modelliert. Dies garantiert durch die mathematischen Eigenschaften von OT (Randbedingungen und Kostenminimierung) sowohl eine ausreichende Optimierung aller Teilräume als auch deren semantische Spezialisierung.
Effizienz: Durch die Nutzung von Teilräumen statt individueller Embeddings pro Token wird der Rechenaufwand im Vergleich zu naiven Ansätzen drastisch reduziert, während die Leistung steigt.

4. Ergebnisse

Das Paper evaluiert TokenCLIP auf einer Vielzahl von Datensätzen in zwei Domänen: Industrielle Inspektion (z. B. MVTec AD, VisA) und Medizinische Diagnostik (z. B. Hautläsionen, Gehirn-MRT).

Industrielle Domäne: TokenCLIP übertrifft den aktuellen State-of-the-Art (SOTA) wie AnomalyCLIP, WinCLIP und FAPrompt deutlich.
- Auf MVTec AD erreicht es 92.2% AUROC und 87.9 PRO (Pixel-Level), was eine deutliche Verbesserung gegenüber AnomalyCLIP (91.1 AUROC, 81.4 PRO) darstellt.
- Die Verbesserungen im PRO-Score unterstreichen die Fähigkeit, feine und subtile Anomalien zu detektieren.
Medizinische Domäne: Auch bei der direkten Übertragung auf medizinische Datensätze (Zero-Shot) zeigt TokenCLIP konsistent bessere Ergebnisse als alle Vergleichsmethoden (z. B. 96.0% AUROC auf HeadCT).
Effizienz: Im Vergleich zu FAPrompt (das mehrere Prompts lernt) bietet TokenCLIP eine bessere Leistung bei deutlich geringerem Rechenaufwand und Speicherverbrauch.

5. Bedeutung und Schlussfolgerung

TokenCLIP stellt einen Paradigmenwechsel in der Zero-Shot-Anomalieerkennung dar. Anstatt sich auf einen einzigen, allgemeinen Text-Raum zu verlassen, nutzt es die mathematische Struktur des Optimalen Transports, um eine dynamische, token-spezifische und semantisch spezialisierte Ausrichtung zu erreichen.

Wissenschaftlicher Wert: Das Paper zeigt, dass die Entkopplung von globalen und lokalen Semantiken sowie die Einführung orthogonaler Teilräume in Kombination mit OT die Grenzen aktueller CLIP-basierter Modelle überwinden.
Praktische Relevanz: Die Methode ist besonders für Anwendungen in der Smart Manufacturing und medizinischen Bildgebung relevant, wo die Erkennung seltener und feiner Defekte in bisher unbekannten Objekten entscheidend ist.
Zukunftsausblick: Die Arbeit legt den Grundstein für weitere Forschung zu feingranularen, token-basierten Prompt-Learning-Methoden, die über die reine Bildklassifizierung hinausgehen.

Zusammenfassend beweist TokenCLIP, dass eine dynamische, semantisch gesteuerte Zuordnung von Text-Teilräumen zu Bild-Patches die Genauigkeit der Anomalieerkennung signifikant steigern kann, ohne dabei die Skalierbarkeit zu opfern.