WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

WMOE-CLIP: De Slimme "Vreemdelingen"-Detector

Stel je voor dat je een supersterke camera hebt die alles kan zien wat er normaal uitziet. Maar wat als je die camera wilt gebruiken om fouten te vinden in producten die je nog nooit eerder hebt gezien, of in medische scans van patiënten waar je geen voorbeelden van hebt? Dat is precies wat Zero-Shot Anomaly Detection (ZSAD) doet: het vinden van rare dingen zonder dat je de computer eerst duizenden voorbeelden van die rare dingen hebt getoond.

De auteurs van dit paper, Peng Chen en Chao Huang, hebben een nieuwe methode bedacht genaamd WMoE-CLIP. Laten we uitleggen hoe dit werkt met een paar simpele metaforen.

Het Probleem: De Stijve Vertaler

Tot nu toe gebruikten computers een soort "vertaler" (een Vision-Language model zoals CLIP) om afbeeldingen te begrijpen. Ze kregen een vaste tekst zoals "een foto van een goed product" of "een foto van een beschadigd product".

Het probleem: Deze tekst is te star. Het is alsof je een vertaler hebt die alleen woorden uit een woordenboek mag gebruiken, maar niet kan improviseren als de situatie complex is.
Het tweede probleem: De camera kijkt alleen naar het "oppervlak" (ruimtelijke details). Maar soms zit een foutje verstopt in de subtiele trillingen of patronen die je met het blote oog niet ziet, net zoals je een rimpel in een laken niet ziet als je alleen naar de kleur kijkt.

De Oplossing: WMoE-CLIP

De auteurs hebben drie slimme trucjes bedacht om deze "vertaler" slimmer en scherper te maken.

1. De "Droomfabriek" (CTDS)

Stel je voor dat je een tekstschrijver hebt die een beschrijving moet maken van een product. In plaats van één vaste zin te gebruiken, laten we de schrijver dromen.

Hoe het werkt: Ze gebruiken een Variational Autoencoder (VAE). Dit is als een droommachine die duizenden variaties van "wat een goed product eruitziet" bedenkt.
De metafoor: In plaats van te zeggen "Dit is een goed product", zegt de computer: "Dit is een goed product, maar ik heb ook dromen over hoe het eruit zou kunnen zien in verschillende situaties." Hierdoor wordt de tekstbeschrijving veel rijker en flexibeler. De computer kan zich beter voorstellen hoe een fout eruit zou zien, zelfs als hij die fout nog nooit heeft gezien.

2. De "Prisma-bril" (WCMA)

Normaal kijkt de computer naar een foto alsof hij door een gewone bril kijkt. Maar sommige fouten zijn heel subtiel, zoals een haartje dat net niet goed zit.

Hoe het werkt: Ze gebruiken Wavelet-decompositie. Dit is alsof je een foto door een prisma haalt. Het licht (de foto) wordt opgesplitst in verschillende kleuren (frequenties).
- De lage frequenties zijn de grote vormen (de basis).
- De hoge frequenties zijn de fijne details, de randjes en de trillingen.
De metafoor: De computer kijkt nu niet alleen naar de grote vorm, maar ook door een speciale bril die alleen de "trillende" details ziet. Deze details worden gebruikt om de tekstbeschrijving (de vertaling) te verfijnen. Als de computer een heel klein krasje ziet in de "trillende" details, past hij de tekst aan zodat hij zegt: "O, dit is niet helemaal normaal!"

3. Het "Expert-panel" (SA-MoE)

Stel je voor dat je een moeilijke vraag hebt. Je vraagt het niet aan één persoon, maar aan een panel van experts.

Hoe het werkt: Ze gebruiken een Mixture-of-Experts (MoE) module. Dit is een groepje gespecialiseerde "neural networks" (experts).
De metafoor: Er is een Router (een manager) die kijkt naar de afbeelding en denkt: "Voor dit type fout heb ik Expert A nodig, voor dat type Expert B." De manager schakelt alleen de juiste experts in om samen een oordeel te vellen. Hierdoor wordt de beslissing veel nauwkeuriger, omdat het systeem weet welke "specialist" het beste past bij de situatie.

Wat levert dit op?

De auteurs hebben hun nieuwe systeem getest op 14 verschillende datasets, variërend van industriële producten (zoals flessen, chips en handdoeken) tot medische scans (zoals hersenscans en huidafwijkingen).

Resultaat: WMoE-CLIP doet het beter dan alle vorige methoden.
Waarom? Omdat het niet alleen naar de foto kijkt, maar ook "droomt" over variaties, door een "prisma" kijkt voor subtiele details, en een "expertpanel" raadpleegt voor de beste beslissing.

Conclusie

Kortom: WMoE-CLIP is als het geven van een superkracht aan een camera. Het maakt de computer niet alleen slimmer in het begrijpen van tekst, maar ook scherper in het zien van de kleinste, meest verborgen foutjes, zelfs als het systeem die fouten nooit eerder heeft gezien. Dit is een enorme stap voorwaarts voor het automatisch controleren van producten in fabrieken en het vinden van ziektes in medische beelden.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Het doel van anomaliedetectie is het identificeren van afwijkingen die afwijken van normale patronen, wat essentieel is in industriële en medische toepassingen. Traditionele methoden kampen echter met twee grote uitdagingen:

Data-schaarste: Het verzamelen van voldoende trainingsdata voor zeldzame of nieuwe anomalieën is vaak moeilijk vanwege privacyregels (medisch) of gebrek aan representatieve monsters (nieuwe productielijnen).
Beperkingen van bestaande Zero-Shot Methoden (ZSAD): Hoewel Vision-Language-modellen zoals CLIP veelbelovend zijn voor zero-shot detectie, hebben huidige aanpakken twee kritieke tekortkomingen:
- Ze vertrouwen vaak op vaste tekstuele prompts die te weinig semantische rijkdom bieden en leiden tot overfitting in een beperkte semantische ruimte.
- Ze focussen uitsluitend op ruimtelijke domein-features, waardoor ze moeite hebben om subtiele, fijne anomalieën te detecteren die vaak in de frequentie-informatie van een afbeelding schuilgaan.

Methodologie: WMoE-CLIP

De auteurs stellen WMoE-CLIP voor, een nieuwe methode die CLIP combineert met een variabele auto-encoder (VAE), wavelet-decompositie en een "Mixture-of-Experts" (MoE) architectuur. De methode bestaat uit drie kerncomponenten:

1. Class Token Distribution Sampling (CTDS)

Om de beperking van vaste prompts te overwinnen, wordt een Variational Autoencoder (VAE) ingezet om de globale semantische representaties te modelleren.

De globale "class token" uit de beeldencoder wordt via een VAE in een latente ruimte geprojecteerd om een mean ( $\mu$ ) en variantie ( $\sigma$ ) te genereren.
Er wordt een latente variabele gesampled en gereconstrueerd. Deze gesamplede representaties worden geïntegreerd in de leerbare tekstuele prompts (bijv. "een foto van een goed/beschadigd [object]").
Doel: Dit verrijkt de prompts met contextuele, afbeeldingsspecifieke semantische informatie, waardoor het model adaptiever wordt voor diverse anomaliepatronen.

2. Wavelet-Enhanced Cross-Modal Attention (WCMA)

Om subtiele defecten te detecteren, wordt gebruikgemaakt van frequentiedomein-informatie.

Wavelet-decompositie: De beeldfeatures worden opgesplitst in laagfrequente (globale structuur) en hoogfrequente componenten (details, randen) via een Haar-wavelet-transformatie.
Cross-Attention: De hoogfrequente componenten worden gebruikt om de tekstuele embeddings dynamisch te verfijnen via een cross-attention mechanisme.
Doel: Dit zorgt voor een betere uitlijning tussen tekst en beeld, waarbij de fijne details (hoogfrequente informatie) die cruciaal zijn voor subtiele anomalieën, expliciet worden benut om de tekstuele representaties aan te passen.

3. Semantic-Aware Mixture-of-Experts (SA-MoE)

Om de betrouwbaarheid van de anomalie-score te verhogen, wordt een MoE-module geïntroduceerd.

Een routeringsgate selecteert dynamisch de meest relevante "experts" (neuronale netwerken) op basis van contextuele informatie die is geaggregeerd uit meerdere lagen van de beeldencoder.
De output van deze experts wordt gecombineerd met de globale class token.
Doel: Dit module aggregeert rijke contextuele semantische informatie, waardoor het model beter in staat is om complexe en diverse anomaliepatronen te herkennen en een robuuste beeldniveauscore te genereren.

Verliesfunctie: Het model wordt getraind met een combinatie van een globale verliesfunctie (Binary Cross-Entropy voor beeldniveaus) en een lokale verliesfunctie (Focal en Dice loss voor pixelniveaus), aangevuld met de VAE-verliezen (KL-divergentie en reconstructie).

Belangrijkste Bijdragen

Nieuwe Architectuur: WMoE-CLIP is een innovatieve CLIP-gebaseerde methode die beeld-taal interacties verbetert door VAE, wavelet-decompositie en MoE te combineren.
Semantische en Frequentie-verbetering: Het introduceert een unieke aanpak waarbij globale distributies worden gemodelleerd (via VAE) en frequentiedomein-features worden gebruikt om cross-modale interacties te versterken.
State-of-the-Art Prestaties: Uitgebreide experimenten tonen aan dat de methode de huidige stand van de techniek overtreft op zowel industriële als medische datasets.

Resultaten

De methode is getest op 14 datasets (6 industrieel en 8 medisch) in een zero-shot setting.

Industriële Datasets: Op de MVTec-AD dataset verbeterde WMoE-CLIP de beeldniveaus-AUROC met 1.9% ten opzichte van de vorige beste methode (AA-CLIP). Op de VisA dataset was de verbetering 2.7%.
Medische Datasets: Het model behaalde state-of-the-art resultaten op alle geteste medische datasets (zoals HeadCT, BrainMRI, ISIC), zowel op beeld- als pixelniveau.
Ablatie-studies: Experimenten bevestigen dat elke component (CTDS, WCMA, SA-MoE) bijdraagt aan de totale prestatie. De combinatie van alle modules levert de hoogste nauwkeurigheid op.
Visualisatie: De anomalie-localisatie is preciezer, vooral in uitdagende medische scenario's, dankzij de verbeterde cross-modale interactie.

Betekenis en Impact

WMoE-CLIP adresseert fundamentele beperkingen van bestaande zero-shot anomaliedetectiemethoden door niet alleen te vertrouwen op ruimtelijke features, maar ook frequentie-informatie en dynamische semantische prompts te integreren.

Generalisatie: De methode toont aan dat het mogelijk is om robuust te generaliseren naar onbekende productcategorieën en complexe omgevingen zonder specifieke trainingsdata voor die anomalieën.
Toepasbaarheid: De resultaten suggereren een grote potentie voor praktische toepassingen in de industrie (kwaliteitscontrole) en de gezondheidszorg (diagnose van afwijkingen in scans), waar het verzamelen van defecte monsters vaak problematisch is.
Technische Innovatie: De integratie van wavelet-decompositie in prompt learning voor vision-language modellen opent nieuwe wegen voor het detecteren van subtiele, hoogfrequente afwijkingen die eerder onzichtbaar waren voor deze modellen.