VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere un ispettore di qualità in una fabbrica o un medico che guarda una radiografia. Il tuo compito è trovare qualcosa di "strano" o "rotto" (un'anomalia) in oggetti o immagini che non hai mai visto prima, senza avere un manuale di istruzioni che ti mostri esattamente come appare quel difetto specifico.

Fino a poco tempo fa, i computer facevano fatica a fare questo lavoro da soli. Dovevano essere addestrati su migliaia di esempi di "cosa è normale" e "cosa è rotto" per ogni singolo oggetto. Se arrivava un nuovo prodotto o una nuova malattia, dovevano ricominciare tutto da zero.

Ecco che entra in gioco VisualAD, la soluzione proposta in questo paper.

Il Problema: Troppi "Traduttori" inutili

I metodi precedenti (come quelli basati su CLIP) funzionavano un po' come un traduttore automatico che cerca di spiegare un'immagine usando le parole.

Come funzionavano: Prendevano un'immagine, la mostravano a un "cervello" che capisce le immagini e a un "cervello" che capisce le parole. Poi chiedevano: "Questa immagine assomiglia più alla parola 'normale' o alla parola 'rotto'?".
Il difetto: Questo sistema è pesante, instabile e richiede di mantenere in vita due cervelli (uno per le immagini e uno per le parole) che devono costantemente "parlarsi". È come se dovessi usare un dizionario per capire se un quadro è bello, invece di guardarci direttamente.

La Soluzione: VisualAD (Solo Occhi, Niente Parole)

Gli autori si sono chiesti: "Ma davvero abbiamo bisogno delle parole per capire se qualcosa è strano? Non basta guardare?"

Hanno creato VisualAD, un sistema che non usa assolutamente le parole. È puramente visivo.

Ecco come funziona, con un'analogia semplice:

1. I Due "Detective" Interni (I Token)

Immagina di avere un sistema di sicurezza (la rete neurale Vision Transformer) che guarda un'immagine e la divide in tanti piccoli tasselli (patch), come un mosaico.
Invece di usare le parole "Normale" e "Anomalia", VisualAD inserisce direttamente nel mosaico due detective invisibili:

Detective Normale: Il suo compito è imparare a riconoscere come dovrebbe essere un oggetto perfetto.
Detective Anomalia: Il suo compito è cercare qualsiasi cosa stia storta.

Questi due detective non parlano, ma osservano. Guardano i tasselli dell'immagine e, attraverso un processo di "chiacchierata" interna (attenzione), imparano a dire: "Ehi, questo tassello qui sembra fuori posto rispetto a come ci aspettiamo che sia!".

2. La Mappa del Tesoro (Attenzione Spaziale)

A volte, i detective potrebbero guardare l'immagine in modo troppo generico. Per aiutarli, VisualAD usa due trucchi magici:

SCA (Attenzione Consapevole dello Spazio): È come dare ai detective una lente d'ingrandimento che sa esattamente dove guardare. Invece di guardare tutto il muro, la lente si concentra sui dettagli specifici (come una graffetta arrugginita su una superficie liscia) e dice al detective: "Guarda qui, c'è qualcosa di strano!".
SAF (Auto-Allineamento): È come un filtro per la polvere. A volte i tasselli dell'immagine sono un po' confusi o rumorosi. Questo filtro li pulisce e li rende più chiari prima che i detective facciano la loro valutazione finale.

Il Risultato: Più Veloce, Più Preciso, Più Semplice

Il risultato è sorprendente:

Niente Parole: Hanno eliminato il "cervello delle parole". Il sistema è diventato molto più leggero (99% di parametri in meno!).
Più Stabile: I metodi vecchi con le parole spesso "oscillavano" (a volte funzionavano bene, a volte male). VisualAD è come un treno su binari dritti: impara in modo costante e sicuro.
Funziona Ovunque: È stato testato su 13 diversi scenari, dalle fabbriche (per trovare difetti su chip, cavi, tessuti) fino agli ospedali (per trovare tumori o lesioni in risonanze magnetiche e scansioni oculari).

In Sintesi

VisualAD è come un ispettore visivo super-intelligente che non ha bisogno di leggere un manuale. Guarda un'immagine, ha due "istinti" interni (uno per la normalità, uno per l'errore) e sa esattamente dove guardare per trovare il problema, anche se non ha mai visto quel tipo di oggetto prima d'ora.

Ha dimostrato che, per trovare le anomalie, non serve tradurre l'immagine in parole: basta guardare con gli occhi giusti.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Rilevamento di Anomalie Zero-Shot (ZSAD)

Il rilevamento di anomalie (AD) è cruciale in settori critici come l'ispezione industriale e la diagnosi medica. Tuttavia, i metodi tradizionali (supervisionati o semi-supervisionati) richiedono la raccolta di grandi quantità di dati "normali" e talvolta di anomalie etichettate per ogni nuova categoria, il che è costoso e spesso impraticabile in scenari reali (situazione di "cold-start").

Il Zero-Shot Anomaly Detection (ZSAD) mira a rilevare anomalie in categorie mai viste durante l'addestramento, senza utilizzare immagini di quelle categorie.

Stato dell'arte attuale: La maggior parte dei metodi ZSAD si basa su modelli Vision-Language (VLM) come CLIP. Questi approcci utilizzano prompt testuali (fatti a mano o appresi) per descrivere stati "normali" e "anomali", calcolando poi la similarità tra le immagini e questi prompt testuali.
Limiti degli approcci esistenti: Questa dipendenza dal modulo testuale introduce complessità, instabilità nell'addestramento, ridondanza parametrica e richiede un allineamento cross-modale. Inoltre, i prompt testuali possono essere sensibili alla formulazione e non sempre catturano efficacemente le deviazioni strutturali o statistiche visive.

2. Metodologia: VisualAD

Gli autori propongono VisualAD, un framework puramente visivo che elimina la necessità del ramo testuale, dimostrando che le caratteristiche discriminative per l'anomalia possono essere apprese direttamente dallo spazio delle caratteristiche visive.

Architettura Principale

Il modello si basa su un Vision Transformer (ViT) pre-addestrato e congelato (es. CLIP ViT-L/14 o DINOv2).

Token Apprendibili (Learnable Tokens): Invece di usare un encoder testuale, VisualAD inserisce direttamente nella sequenza di token del ViT due token globali apprendibili:
- Un token Anomalia ( $t_a$ ).
- Un token Normalità ( $t_n$ ).
  Questi token interagiscono con i token delle patch dell'immagine attraverso l'attenzione multi-strato, acquisendo gradualmente concetti di alto livello di normalità e anomalia.
Modulo SCA (Spatial-Aware Cross-Attention):
- I token globali spesso mancano di un ancoraggio spaziale preciso. Il modulo SCA inietta evidenze spaziali localizzate nei token.
- Utilizza un piccolo set di query di ancoraggio ( $m$ query apprendibili) per aggregare evidenze spaziali dai token delle patch.
- Un meccanismo di gating guidato dal token adatta dinamicamente queste evidenze spaziali ai token globali, permettendo loro di aggiornarsi in base alla struttura locale dell'immagine di test.
Funzione di Auto-Allineamento (SAF - Self-Alignment Function):
- Prima del calcolo del punteggio di anomalia, le caratteristiche delle patch vengono ricalibrate da una piccola rete MLP (SAF).
- Questo passo allinea le caratteristiche delle patch con l'evoluzione dei token di normalità e anomalia, migliorando la coerenza semantica.
Scoring e Mappatura:
- Viene calcolato un punteggio di anomalia per ogni patch basandosi sulla differenza di similarità coseno tra la patch ricalibrata e i token $t_a$ e $t_n$ .
- Le mappe di anomalia di diversi livelli intermedi del ViT (es. layer 6, 12, 18, 24) vengono fuse per ottenere una mappa finale ad alta risoluzione.
- Il punteggio a livello di immagine è la media dei punteggi dei pixel più anomali (top-1%).

Obiettivo di Addestramento

Il modello viene addestrato su dati di categorie visibili (es. dataset industriali) mantenendo il backbone ViT congelato. Vengono aggiornati solo i token, i moduli SCA e le funzioni SAF. La funzione di perdita combina:

Perdita di classificazione (BCE): A livello di immagine.
Perdita di segmentazione (Focal + Dice): A livello di pixel.
Perdita di contrasto (Cosine Margin): Per massimizzare la distanza angolare tra i token $t_a$ e $t_n$ nello spazio latente.

3. Contributi Chiave

Ridefinizione della necessità del testo: Lo studio dimostra che il linguaggio non è indispensabile per lo ZSAD; le caratteristiche discriminative possono essere apprese puramente visivamente, riducendo i parametri addestrabili del 99% rispetto a metodi basati su CLIP.
Framework VisualAD: Un approccio basato su ViT che utilizza token globali apprendibili per codificare direttamente normalità e anomalia.
Moduli SCA e SAF: Innovazioni che migliorano l'ancoraggio spaziale e l'allineamento delle caratteristiche, permettendo una localizzazione precisa senza encoder testuali.
Prestazioni SOTA: Risultati all'avanguardia su 13 benchmark (industriali e medici), con una generalizzazione robusta a domini non visti.

4. Risultati Sperimentali

Il paper valuta VisualAD su 13 dataset reali, inclusi MVTec-AD, VisA, BTAD (industriali) e OCT17, BrainMRI, CVC-ClinicDB (medici).

Prestazioni: VisualAD raggiunge lo stato dell'arte (SOTA) su quasi tutti i dataset, sia a livello di immagine (AUROC, F1-max) che a livello di pixel.
- Utilizzando il backbone CLIP ViT-L/14, ottiene risultati superiori nella classificazione.
- Utilizzando DINOv2, mostra prestazioni eccellenti nella segmentazione a livello di pixel.
Efficienza: Rispetto a metodi come AnomalyCLIP, VisualAD riduce drasticamente i parametri addestrabili (da milioni a poche migliaia) mantenendo o migliorando la precisione.
Stabilità: Le curve di valutazione mostrano che VisualAD ha una convergenza più stabile e meno oscillante rispetto ai metodi basati su prompt testuali.
Visualizzazione: Le mappe di attenzione mostrano che i token apprendono pattern complementari: i layer intermedi catturano i dettagli delle difformità (bordi), mentre i layer profondi catturano il contesto globale normale.

5. Significato e Impatto

VisualAD rappresenta un cambio di paradigma significativo nel rilevamento di anomalie zero-shot:

Semplificazione: Rimuove la complessità dell'allineamento cross-modale (testo-immagine), rendendo il sistema più semplice, stabile e facile da implementare.
Generalizzazione: Dimostra che la semantica di "anomalia" è intrinsecamente visiva e può essere appresa senza la mediazione linguistica, aprendo la strada a soluzioni più robuste per scenari reali dove i dati etichettati sono scarsi.
Versatilità: La capacità di adattarsi a diversi backbones (CLIP, DINOv2) e di funzionare bene sia su dati industriali che medici ne fa una soluzione universale per il controllo qualità e la diagnostica assistita.

In sintesi, il lavoro conferma che per il rilevamento di anomalie, un approccio "visivo puro" basato su token apprendibili e attenzione spaziale può superare i complessi modelli multimodali, offrendo prestazioni superiori con un costo computazionale e parametrico drasticamente inferiore.