WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un ispettore della qualità in una fabbrica di biscotti o in un ospedale. Il tuo compito è trovare il biscotto bruciato o la macchia strana sulla pelle, anche se non hai mai visto quel tipo di difetto prima d'ora.

Fino a poco tempo fa, per insegnare a un computer a fare questo lavoro, gli mostravamo migliaia di esempi di "biscotti perfetti" e "biscotti rotti". Ma cosa succede se il computer deve controllare un nuovo tipo di biscotto o un nuovo tipo di malattia per cui non abbiamo foto di addestramento? È qui che entra in gioco il problema.

Questo articolo presenta una nuova intelligenza artificiale chiamata WMoE-CLIP. È come dare all'ispettore un super-potere per vedere cose che prima gli sfuggivano, senza bisogno di studiare nuovi manuali.

Ecco come funziona, spiegato con parole semplici e qualche metafora:

1. Il Problema: L'ispettore "testardo"

I sistemi precedenti erano come ispettori che leggevano solo un manuale fisso. Se il manuale diceva "cerca un biscotto bruciato", l'ispettore cercava solo quello. Se il difetto era una crepa sottile o una macchia strana, il manuale non lo menzionava e l'ispettore lo ignorava. Inoltre, guardavano solo la "superficie" dell'immagine, ignorando i dettagli nascosti.

2. La Soluzione: WMoE-CLIP (Il Super-Ispettore)

I ricercatori hanno creato un sistema che combina tre trucchi magici:

A. Il "Trucco del Variabile" (CTDS) – L'ispettore che immagina

Invece di usare una descrizione fissa (come "biscotto perfetto"), il sistema usa un Variational Autoencoder (VAE).

L'analogia: Immagina di chiedere a un artista di disegnare un "biscotto perfetto". Invece di disegnare sempre lo stesso identico biscotto, l'artista immagina mille varianti leggermente diverse di quel biscotto perfetto.
Cosa fa: Il sistema prende queste "immaginazioni" e le mescola con le parole scritte. Così, quando l'ispettore legge "biscotto perfetto", non pensa a un solo modello rigido, ma a un'idea flessibile che si adatta a qualsiasi tipo di biscotto stia guardando. Questo lo rende molto più adattabile.

B. Gli "Occhi a Raggi X" (WCMA) – Vedere l'invisibile

Le immagini sono fatte di colori e forme, ma anche di "frequenze" (come le note di una canzone: basse per i suoni gravi, alte per i fischietti).

L'analogia: Guardare un'immagine normale è come ascoltare una canzone solo con le note basse. I difetti sottili sono spesso come i "fischietti" (alte frequenze) che si perdono nel rumore di fondo.
Cosa fa: Il sistema usa la Trasformata Wavelet (un tipo di matematica) per separare l'immagine in "note basse" (la forma generale) e "note alte" (i dettagli fini). Poi, usa queste "note alte" per correggere e affinare le parole che l'ispettore sta leggendo. È come se l'ispettore indossasse degli occhiali speciali che gli permettono di vedere le crepe microscopiche che prima erano invisibili.

C. Il "Comitato di Esperti" (SA-MoE) – Non una sola opinione

Quando l'ispettore deve decidere se un oggetto è rotto, spesso si basa su un solo parere. Ma se fosse un consiglio di esperti?

L'analogia: Immagina di dover giudicare un quadro. Invece di chiedere a una sola persona, chiedi a un gruppo di esperti: uno guarda i colori, uno la tecnica, uno la storia. Ognuno dà il suo parere, e un "capo" sceglie i migliori per formare una decisione finale.
Cosa fa: Il sistema ha diversi "esperti" (reti neurali) che analizzano il contesto. Se un difetto è strano, il sistema attiva l'esperto giusto che sa come riconoscerlo, aggregando tutte le informazioni per dare un voto di sicurezza molto più preciso.

3. I Risultati: La prova sul campo

I ricercatori hanno testato questo sistema su 14 diversi scenari, dai biscotti e le bottiglie nelle fabbriche fino alle radiografie e alle immagini mediche.

Il risultato: WMoE-CLIP ha battuto tutti i record precedenti. È riuscito a trovare difetti che gli altri sistemi ignoravano, sia nelle immagini grandi (trovare il biscotto rotto) che nei dettagli piccoli (trovare la crepa precisa).

In sintesi

WMoE-CLIP è come aver dato a un ispettore:

Una mente flessibile che immagina le possibilità (grazie al VAE).
Occhi speciali che vedono i dettagli nascosti (grazie alle Wavelet).
Un consiglio di esperti che collabora per prendere la decisione migliore (grazie al Mixture-of-Experts).

Il risultato è un sistema che può controllare qualsiasi cosa, anche cose nuove e mai viste prima, con una precisione incredibile, senza bisogno di essere riaddestrato ogni volta. È un grande passo avanti per la sicurezza industriale e la diagnosi medica!

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

La rilevazione di anomalie (Anomaly Detection - AD) è cruciale in settori come l'industria manifatturiera e la diagnostica medica. Tuttavia, l'approccio tradizionale soffre della scarsità di campioni anomali per l'addestramento. Le tecniche di Zero-Shot Anomaly Detection (ZSAD) basate su modelli Vision-Language (come CLIP) offrono una soluzione, permettendo di rilevare anomalie non viste in precedenza senza supervisione specifica.

Nonostante i progressi, gli approcci esistenti presentano due limiti critici:

Prompt Testuali Fissi: Utilizzano prompt testuali statici o poco adattivi che faticano a catturare semantiche complesse e specifiche del contesto, portando a un sovrapprendimento in uno spazio semantico ristretto.
Dipendenza dal Dominio Spaziale: Si basano esclusivamente su caratteristiche spaziali delle immagini, trascurando le informazioni di frequenza. Questo limita la capacità di rilevare difetti sottili o dettagli fini che sono spesso critici nelle anomalie.

2. Metodologia: WMoE-CLIP

Gli autori propongono WMoE-CLIP, un metodo innovativo basato su CLIP che integra l'apprendimento di prompt potenziato da ondelette (wavelet) e una struttura Mixture-of-Experts (MoE). L'architettura si compone di tre moduli principali (illustrati nella Figura 1 del paper):

A. Class Token Distribution Sampling (CTDS)

Per superare la rigidità dei prompt fissi, questo modulo utilizza un Variational Autoencoder (VAE) per modellare la distribuzione globale delle caratteristiche dell'immagine.

Funzionamento: Il token di classe globale ( $x_c$ ) estratto dal codificatore di immagini viene proiettato in uno spazio latente per ottenere media e varianza. Vengono campionate rappresentazioni latenti che vengono fuse con vettori di prompt apprendibili.
Obiettivo: Arricchire i prompt con informazioni semantiche globali specifiche per l'immagine, migliorando l'adattabilità a diversi pattern di anomalia. La perdita include termini di ricostruzione e divergenza KL per garantire coerenza.

B. Wavelet-Enhanced Cross-Modal Attention (WCMA)

Questo modulo affronta il limite della dipendenza dal solo dominio spaziale introducendo l'analisi in frequenza.

Decomposizione: Viene applicata una trasformata wavelet (Haar) alle feature dell'immagine per separare le componenti a bassa frequenza (struttura globale) e le componenti ad alta frequenza (dettagli, bordi, texture).
Interazione Cross-Modale: Le bande ad alta frequenza, cruciali per difetti sottili, vengono aggregate e utilizzate per generare pesi di attenzione. Questi pesi guidano un meccanismo di Cross-Attention che affina dinamicamente gli embedding testuali ( $F_T$ ) basandosi sulle feature visive multirisoluzione.
Risultato: Le rappresentazioni testuali diventano più sensibili ai dettagli fini dell'immagine, migliorando l'allineamento multimodale.

C. Semantic-Aware Mixture-of-Experts (SA-MoE)

Per aggregare informazioni contestuali robuste, viene introdotto un modulo MoE.

Architettura: Utilizza un "router" (gate) che calcola un punteggio di rilevanza per ciascun "esperto" (una rete neurale) basandosi sulle feature contestuali aggregate.
Selezione Dinamica: Vengono attivati dinamicamente i top- $k$ esperti per aggregare le informazioni semantiche globali. Le uscite degli esperti selezionati vengono combinate e fuse con il token di classe originale.
Scoring: Il punteggio di anomalia finale è una combinazione della similarità tra il token di classe potenziato e le feature testuali, e il valore massimo della mappa di anomalia generata.

Funzione di Loss: L'ottimizzazione avviene tramite una combinazione di perdita globale (Binary Cross-Entropy per la classificazione dell'immagine) e perdita locale (Focal + Dice per la segmentazione dei pixel), più le perdite del VAE.

3. Contributi Chiave

Nuovo Framework WMoE-CLIP: Un approccio basato su CLIP che migliora significativamente l'interazione immagine-testo, aumentando sia l'accuratezza che la generalizzazione nella ZSAD.
Integrazione di Feature Globali e di Frequenza: L'uso di un VAE per modellare distribuzioni globali nei prompt e l'uso della decomposizione wavelet per estrarre feature di frequenza, rafforzando l'interazione cross-modale.
Modulo SA-MoE: Introduzione di un meccanismo Mixture-of-Experts consapevole della semantica per aggregare informazioni contestuali, migliorando la robustezza del punteggio di anomalia.
Validazione Estensiva: Sperimentazioni su 14 dataset (6 industriali e 8 medici), dimostrando prestazioni state-of-the-art.

4. Risultati Sperimentali

Il metodo è stato valutato su dataset industriali (MVTec-AD, VisA, BTAD, ecc.) e medici (HeadCT, BrainMRI, ISIC, ecc.), confrontandosi con metodi SOTA come WinCLIP, AnomalyCLIP, AdaCLIP e AA-CLIP.

Prestazioni Industriali: Su MVTec-AD, WMoE-CLIP ha raggiunto un AUROC a livello di immagine del 92.4% e un AP del 96.9%, superando AA-CLIP (il precedente leader) di circa 1.9% in AUROC. Anche su VisA e BTAD ha mostrato miglioramenti consistenti.
Prestazioni Mediche: Ha ottenuto risultati SOTA su tutti i 8 dataset medici testati, dimostrando una forte capacità di generalizzazione in scenari complessi (es. HeadCT con AUROC 98.2%).
Localizzazione: Le visualizzazioni (Figura 2) mostrano che WMoE-CLIP localizza le anomalie con maggiore precisione, specialmente in scenari medici difficili, grazie all'allineamento potenziato dalle ondelette.
Ablazione: Gli studi di ablazione (Tabella 2) confermano che ogni modulo (CTDS, WCMA, SA-MoE) contribuisce positivamente alle prestazioni finali, con il modello completo che ottiene i punteggi più alti.

5. Significato e Impatto

Il lavoro di WMoE-CLIP rappresenta un avanzamento significativo nel campo della rilevazione di anomalie zero-shot.

Superamento dei Limiti Semantici: Dimostra che l'arricchimento dinamico dei prompt con informazioni latenti globali supera i limiti dei prompt fissi.
Importanza del Dominio delle Frequenze: Evidenzia come l'integrazione di feature di frequenza (tramite wavelet) sia essenziale per rilevare difetti sottili che i modelli puramente spaziali potrebbero ignorare.
Versatilità: La capacità di funzionare efficacemente sia su dati industriali che medici suggerisce che l'approccio è robusto e adattabile a diversi domini applicativi, offrendo una soluzione pratica per scenari dove i dati anomali sono scarsi o inesistenti.

In sintesi, WMoE-CLIP stabilisce un nuovo stato dell'arte combinando l'apprendimento di prompt avanzato, l'analisi multirisoluzione delle immagini e l'architettura MoE per una rilevazione di anomalie più precisa e generalizzabile.