WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein hochqualifizierter Qualitätskontrolleur in einer Fabrik oder ein erfahrener Arzt. Deine Aufgabe ist es, sofort zu erkennen, ob etwas „falsch" ist – sei es ein winziger Kratzer auf einem Handy-Display oder eine kleine Anomalie in einem Röntgenbild.

Das Problem: Du hast noch nie diese spezifische Art von Fehler gesehen. Es gibt keine Schulungsmaterialien dafür. Das ist wie wenn du zum ersten Mal einen neuen, unbekannten Vogel siehst und sofort sagen musst: „Ist das ein gesunder Vogel oder krank?"

Genau hier kommt die neue Methode WMoE-CLIP ins Spiel. Die Forscher haben einen cleveren Trick entwickelt, der auf einer KI namens CLIP aufbaut. Hier ist die Erklärung, wie das funktioniert, ohne komplizierte Fachbegriffe:

1. Das Grundproblem: Starre Regeln vs. flexible Intuition

Bisherige KI-Modelle benutzten wie ein starres Skript. Sie hatten festgeschriebene Sätze wie „Das ist ein perfektes Produkt" oder „Das ist ein kaputtes Produkt". Das Problem: Diese Sätze waren zu starr. Sie konnten die feinen Nuancen nicht verstehen, besonders wenn der Fehler sehr klein oder ungewöhnlich war. Es war, als würde man versuchen, ein komplexes Gemälde nur mit drei Farben zu beschreiben.

2. Die Lösung: WMoE-CLIP als „Super-Detektiv"

Die neuen Forscher haben dem KI-Modell drei superkräfte gegeben, damit es flexibler und schärfer wird:

A. Der „Wetter-Experte" (CTDS – Variational Autoencoder)

Stell dir vor, du willst beschreiben, wie ein „perfekter Tag" aussieht. Ein starrer Satz sagt nur: „Sonne und blau". Aber ein echter Experte weiß: „Es könnte leicht bewölkt sein, vielleicht ein bisschen Wind, aber trotzdem ein guter Tag."

Die Methode CTDS macht genau das. Anstatt einen starren Text zu nutzen, nutzt sie einen „Wetter-Experten" (einen VAE), der lernt, wie die gesamte Vielfalt normaler Objekte aussieht. Sie erzeugt dann einen Text-Prompt, der diese ganze Bandbreite einfängt.

Die Analogie: Statt zu sagen „Das ist ein Auto", sagt die KI jetzt: „Das ist ein Auto, das so aussieht, wie alle guten Autos aussehen, mit all ihren kleinen, normalen Variationen." Das hilft der KI, wirklich zu verstehen, was „normal" ist, bevor sie nach dem „Fehler" sucht.

B. Der „Lupe für Unsichtbares" (WCMA – Wavelet-Enhanced)

Manche Fehler sind so winzig, dass das menschliche Auge (oder eine normale Kamera) sie übersieht. Sie liegen oft in den feinen Details, den „Rauschen" oder den hochfrequenten Mustern eines Bildes.

Die Methode nutzt eine Wavelet-Zerlegung (eine mathematische Art, ein Bild in verschiedene Frequenzen zu zerlegen). Stell dir vor, du hast ein Bild. Normalerweise siehst du nur die groben Formen (das Haus, der Baum). Die Wavelet-Technik schaut aber auch auf die feinsten Strukturen: die Textur der Rinde, die winzigen Risse im Mauerwerk.

Die Analogie: Es ist, als würde die KI eine magische Lupe benutzen, die nicht nur das Bild vergrößert, sondern speziell nach den „Zittern" und „Vibrationen" im Bild sucht, die auf einen Fehler hindeuten. Sie passt den Text-Prompt so an, dass er diese feinen Details besonders beachtet.

C. Das „Team aus Spezialisten" (SA-MoE – Mixture of Experts)

Früher versuchte ein einziges großes Gehirn, alles auf einmal zu lösen. Das war oft überfordert.
Die neue Methode nutzt ein Mixture-of-Experts-Modell. Stell dir ein Team von Detektiven vor:

Einer ist gut im Erkennen von Farben.
Einer ist gut im Erkennen von Formen.
Einer ist gut im Erkennen von Texturen.

Ein „Router" (ein Koordinator) schaut sich das Bild an und sagt: „Für dieses spezielle Problem brauchen wir den Farb-Experten und den Textur-Experten." Nur diese beiden werden aktiviert, um das Urteil zu fällen.

Die Analogie: Es ist wie ein Schweizer Taschenmesser, bei dem du nicht das ganze Messer herausziehst, sondern nur das genau richtige Werkzeug (den Schraubenzieher oder die Schere), das für die aktuelle Aufgabe perfekt passt.

Das Ergebnis: Warum ist das so toll?

Die Forscher haben ihre Methode an 14 verschiedenen Datensätzen getestet – von industriellen Produkten (wie Schrauben und Flaschen) bis hin zu medizinischen Bildern (wie Gehirnscans und Hautkrebs).

Das Ergebnis ist beeindruckend:

Die KI findet Fehler, die andere Modelle übersehen.
Sie funktioniert auch dann, wenn sie das Objekt noch nie zuvor gesehen hat (Zero-Shot).
Sie ist besonders gut darin, winzige, subtile Fehler zu finden, die wie ein „Nadel im Heuhaufen" sind.

Zusammenfassend:
WMoE-CLIP ist wie ein Qualitätskontrolleur, der nicht nur stur Regeln abhakt, sondern ein tiefes Verständnis für „Normalität" hat, eine magische Lupe für winzige Details benutzt und ein flexibles Team von Spezialisten einsetzt, um jeden Fehler zu finden – egal wie neu oder fremd er ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Zero-Shot Anomalieerkennung (ZSAD) zielt darauf ab, Anomalien in Bildern zu erkennen, ohne dass für diese spezifischen Anomalien Trainingsdaten vorliegen. Dies ist besonders wichtig in industriellen und medizinischen Anwendungen, wo Anomalien selten, vielfältig und oft durch Datenschutzbestimmungen (z. B. Patientendaten) schwer zu beschaffen sind.

Obwohl Vision-Language-Modelle wie CLIP durch ihr großes Vorwissen vielversprechende Generalisierungsfähigkeiten zeigen, leiden bestehende ZSAD-Ansätze unter zwei Hauptproblemen:

Starre Text-Prompts: Viele Methoden verwenden feste oder nur begrenzt anpassbare Text-Prompts. Diese erfassen oft nicht die komplexen semantischen Nuancen verschiedener Anomaliearten und führen zu einer Überanpassung an einen eingeschränkten semantischen Raum.
Fokus auf den Ortsbereich (Spatial Domain): Bestehende Modelle verlassen sich fast ausschließlich auf räumliche Merkmale. Dies schränkt die Fähigkeit ein, subtile Defekte zu erkennen, die oft in hochfrequenten Details oder feinen Texturveränderungen liegen, die im reinen Ortsbereich schwer zu isolieren sind.

2. Methodik: WMoE-CLIP

Die Autoren schlagen WMoE-CLIP vor, eine Erweiterung des CLIP-Modells, die drei Kernkomponenten integriert, um die Bild-Text-Interaktion zu stärken und die Erkennungsgenauigkeit zu erhöhen:

A. Class Token Distribution Sampling (CTDS)

Um die Anpassungsfähigkeit der Text-Prompts an den spezifischen Bildkontext zu verbessern, wird ein Variational Autoencoder (VAE) eingesetzt.

Der globale Klassen-Token ( $x_c$ ) des Bildencoders wird in einen latenten Raum projiziert, um Mittelwert ( $\mu$ ) und Varianz ( $\sigma$ ) zu berechnen.
Durch Re-Parameterisierung wird eine latente Variable $s_c$ gesampelt.
Diese repräsentiert eine globale semantische Verteilung, die in die lernbaren Prompt-Vektoren integriert wird.
Ziel: Die Prompts werden dynamisch angereichert mit globalen semantischen Informationen, was die Flexibilität gegenüber verschiedenen Anomalie-Mustern erhöht.

B. Wavelet-Enhanced Cross-Modal Attention (WCMA)

Dieser Modul adressiert die Vernachlässigung von Frequenzinformationen.

Eine Haar-Wavelet-Transformation zerlegt die Bildmerkmale in niederfrequente Anteile ( $F_L$ ) und hochfrequente Anteile ( $F_H$ , bestehend aus horizontalen, vertikalen und diagonalen Komponenten).
Hochfrequente Anteile enthalten entscheidende Details für subtile Anomalien.
Ein Aufmerksamkeitsmechanismus (Cross-Attention) nutzt diese frequenzbasierten Merkmale, um die Text-Embeddings dynamisch zu verfeinern. Die Text-Queries interagieren mit den frequenzangereicherten Bild-Keys und Values.
Ziel: Präzise Ausrichtung von Text und Bild durch Einbeziehung von Frequenzinformationen, was die Detektion feiner Defekte ermöglicht.

C. Semantic-Aware Mixture-of-Experts (SA-MoE)

Um den Kontext besser zu nutzen, wird ein Mixture-of-Experts (MoE)-Ansatz eingeführt.

Ein Router-Gate bewertet die Relevanz verschiedener „Experten"-Netzwerke basierend auf kontextuellen Merkmalen (abgeleitet aus Patch-Features mehrerer Schichten).
Die Top- $k$ Experten werden aktiviert, um kontextuelle semantische Informationen zu aggregieren.
Die Ausgabe wird mit dem ursprünglichen Klassen-Token kombiniert, um einen finalen Anomalie-Score zu berechnen.
Ziel: Robuste Bild-level-Anomaliebewertung durch adaptive Aggregation von Kontextwissen.

Verlustfunktion: Das Modell wird durch eine Kombination aus globalen (Binary Cross-Entropy) und lokalen (Focal + Dice Loss) Verlusten sowie den VAE-spezifischen Verlusten (KL-Divergenz und Rekonstruktionsverlust) optimiert.

3. Hauptbeiträge

Neuartiger Ansatz: Einführung von WMoE-CLIP, das Prompt-Learning mit Wavelet-Transformation und Mixture-of-Experts kombiniert, um die Zero-Shot-Anomalieerkennung zu revolutionieren.
Verbesserte Multimodalität: Nutzung eines VAE zur Modellierung globaler Feature-Verteilungen für dynamische Prompts und Integration von Frequenzbereichs-Features zur Stärkung der Bild-Text-Ausrichtung.
Kontextuelle Aggregation: Entwicklung eines semantikbewussten MoE-Moduls, das kontextuelle Informationen effizient zusammenführt.
Umfassende Evaluation: Validierung auf 14 Datensätzen (6 industriell, 8 medizinisch), was die breite Anwendbarkeit unterstreicht.

4. Ergebnisse

Die Methode wurde auf 14 öffentlichen Datensätzen getestet und mit fünf State-of-the-Art-Methoden (WinCLIP, CLIP-AD, AnomalyCLIP, AdaCLIP, AA-CLIP) verglichen.

Industrielle Datensätze (z. B. MVTec-AD, VisA): WMoE-CLIP erzielt konsistent die besten Ergebnisse. Auf MVTec-AD verbessert sich der Bild-Level-AUROC im Vergleich zum zweitbesten Modell (AA-CLIP) um 1,9 % (auf 92,4 %). Auf VisA beträgt die Steigerung sogar 2,7 %.
Medizinische Datensätze (z. B. HeadCT, BrainMRI, ISIC): Das Modell zeigt starke Generalisierungsfähigkeiten und erreicht State-of-the-Art-Performance sowohl auf Bild- als auch auf Pixelebene.
Ablationsstudie: Die Studie bestätigt, dass jeder der drei Komponenten (CTDS, WCMA, SA-MoE) einen signifikanten positiven Beitrag zur Gesamtperformance leistet. Besonders die Kombination aller Module führt zu den höchsten AUROC-Werten.
Visualisierung: Die Anomalie-Lokalisierung ist präziser, insbesondere bei schwierigen medizinischen Szenarien, was auf die verbesserte Kreuzmodale Interaktion zurückzuführen ist.

5. Bedeutung und Fazit

WMoE-CLIP adressiert kritische Lücken in der aktuellen Forschung zur Zero-Shot-Anomalieerkennung. Durch die Überwindung der Beschränkungen starrer Prompts und die Einbeziehung von Frequenzinformationen (Wavelets) gelingt es dem Modell, subtile Anomalien zu erkennen, die von rein räumlichen Modellen übersehen werden.

Die Arbeit demonstriert, dass die Kombination aus generativer Modellierung (VAE), Frequenzanalyse (Wavelets) und dynamischer Experten-Auswahl (MoE) ein leistungsfähiges Paradigma für robuste, datenarme Anomalieerkennung in kritischen Bereichen wie der Industrie und der Medizin darstellt. Dies ermöglicht eine zuverlässige Überwachung auch bei neuen Produktlinien oder seltenen Krankheitsbildern ohne umfangreiche manuelle Annotation.