TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un detective super-intelligente (chiamiamolo CLIP) che è stato addestrato a riconoscere milioni di cose: cani, gatti, automobili, alberi. Questo detective è bravissimo a dire "Questo è un cane" o "Quello è un albero".

Ma c'è un problema: se gli mostri un tappeto con una macchia strana o un cervello con un piccolo tumore, e gli chiedi "C'è qualcosa di sbagliato qui?", il detective potrebbe andare in confusione. Perché? Perché finora, gli abbiamo dato un'unica, grande lente d'ingrandimento per guardare tutto.

Ecco come funziona il problema e come la soluzione proposta in questo paper, chiamata TokenCLIP, risolve la situazione con un approccio geniale.

1. Il Problema: La "Lente Unica" (Allineamento Indiscriminato)

Fino ad oggi, i metodi per trovare anomalie (difetti) in immagini nuove usavano un approccio "taglia unica".

L'analogia: Immagina di dover ispezionare un'auto per trovare graffi, ruggine e crepe nel motore. Se usi un solo tipo di occhiali per guardare tutto, potresti vedere bene il ruggine sulla carrozzeria, ma potresti perdere il piccolo graffio sul parabrezza o la crepa nel motore.
La realtà: I vecchi metodi provavano a far corrispondere tutti i pezzi dell'immagine (i "token") con una sola descrizione testuale generica. Risultato? Il modello faceva un compromesso: diventava bravo a trovare i difetti comuni, ma ignorava quelli strani o rari.

2. La Soluzione: TokenCLIP (L'Approccio "Token per Token")

Gli autori di questo paper dicono: "Non diamo al detective una sola lente. Diamogli un kit di lenti specializzate e lasciamogli scegliere quale usare per ogni singola parte dell'immagine".

Ecco come funziona, passo dopo passo, con un'analogia semplice:

A. Il Kit di Lenti Specializzate (Sottospazi Testuali)

Invece di avere un solo "spazio testuale", TokenCLIP crea diversi sottospazi ortogonali.

Metafora: Immagina di avere un team di esperti:
- L'Esperto A è specializzato in difetti sui bordi.
- L'Esperto B è specializzato in difetti al centro.
- L'Esperto C è specializzato in difetti sui colori.
- L'Esperto D è specializzato nelle texture lisce.
  Ognuno di loro ha una "lente" diversa.

B. L'Assegnazione Dinamica (Il Trasporto Ottimale)

Qui entra in gioco la parte più intelligente: come decide quale esperto guardare ogni pezzo dell'immagine?
Il modello usa una matematica complessa chiamata Trasporto Ottimale (Optimal Transport).

L'analogia del "Treno dei Passeggeri":
- Immagina che ogni piccolo pezzo dell'immagine (un "token") sia un passeggero in una stazione.
- Gli esperti (i sottospazi) sono le stazioni di destinazione.
- Il problema è: "Quali passeggeri devono salire su quale treno per arrivare alla destinazione più vicina e veloce?"
- Il Trasporto Ottimale è come un regista super-efficiente che organizza i passeggeri. Non dice "tutti sul treno rosso". Guarda ogni passeggero e dice: "Tu, che hai un graffio sul bordo, sali sul treno dell'Esperto A. Tu, che sei una texture liscia, sali sul treno dell'Esperto B".
- Inoltre, il regista ha una regola d'oro: assicurarsi che ogni treno abbia abbastanza passeggeri (per allenarsi bene) e che ogni treno si specializzi in un tipo di difetto (così non finiscono tutti sullo stesso treno).

C. La Scelta Intelligente (Top-K)

A volte, un passeggero potrebbe essere un po' indeciso tra due treni. Il sistema dice: "Ok, scegliamo i top 2 treni più adatti per te e ti diamo una priorità". Questo rende la decisione più precisa e veloce.

3. Perché è così potente?

Precisione: Non tratta tutti i difetti allo stesso modo. Un difetto su un tessuto viene analizzato diversamente da un difetto su un metallo.
Efficienza: Invece di creare un nuovo esperto per ogni singolo pixel (che costerebbe una fortuna in termini di calcolo), crea un piccolo team di esperti (es. 3 o 4) e li fa lavorare insieme in modo intelligente.
Risultati: Nei test, questo metodo ha trovato difetti molto più piccoli e strani rispetto ai metodi precedenti, sia nelle fabbriche (difetti su prodotti) che in medicina (tumori o lesioni).

In Sintesi

TokenCLIP è come passare da un detective che usa un solo occhiale a un squadra di detective specializzati.
Invece di dire "Guarda tutto con la stessa lente", il sistema dice: "Per questa parte dell'immagine, usa la lente dell'esperto per i bordi; per quest'altra, usa quella per le texture". E usa un algoritmo matematico (il Trasporto Ottimale) per assicurarsi che ogni esperto sia ben allenato e che nessuno si perda nel lavoro.

Il risultato? Un sistema che vede le anomalie in modo molto più preciso, veloce e "intelligente", anche su oggetti che non ha mai visto prima.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Limiti dell'Allineamento Indiscriminato

L'adattamento dei modelli fondazionali (in particolare CLIP) per la rilevazione di anomalie su oggetti non visti (zero-shot anomaly detection - ZSAD) ha mostrato grande potenziale. Tuttavia, i metodi esistenti presentano una limitazione fondamentale:

Allineamento Indiscriminato: Le approcci attuali mappano tutti i token visivi (patch dell'immagine) in un unico spazio testuale token-agnostico.
Conseguenza: Questo approccio "grossolano" costringe lo spazio testuale a fare compromessi tra semantiche diverse. Ad esempio, un'unica descrizione testuale deve adattarsi sia a un crack su un tappeto che a un tumore in una risonanza magnetica.
Risultato: Il modello tende a favorire le anomalie comuni, compromettendo la capacità di catturare le semantiche delle anomalie rare o specifiche. La supervisione testuale manca di granularità a livello di token, impedendo un apprendimento fine delle caratteristiche visive locali.

2. Metodologia: TokenCLIP

Il paper propone TokenCLIP, un framework di adattamento fine-granularità che sostituisce l'allineamento indiscriminato con un allineamento dinamico a livello di token. L'obiettivo è assegnare a ogni token visivo una combinazione pesata di sottospazi testuali specifici per le sue caratteristiche semantiche.

Componenti Chiave:

Prompt Testuali Multi-Testa e Sottospazi Ortogonali:
- Invece di un unico embedding testuale, il modello genera un embedding base e lo proietta in Q sottospazi testuali ortogonali tramite un multi-head projection.
- Vengono utilizzati prompt separati per le anomalie globali (livello immagine) e locali (livello pixel), decouplando le semantiche.
- Una regolarizzazione di ortogonalità ( $L_{reg}$ ) garantisce che questi sottospazi catturino semantiche diverse e riducano la ridondanza.
Allineamento Dinamico tramite Trasporto Ottimo (Optimal Transport - OT):
- Assegnare un embedding testuale unico a ogni token visivo sarebbe computazionalmente proibitivo. TokenCLIP risolve questo problema formulando l'assegnazione come un problema di Trasporto Ottimo.
- Distribuzioni: I token visivi sono la distribuzione sorgente, i sottospazi testuali sono la distribuzione target.
- Costo: La matrice dei costi è basata sulla similarità coseno tra token visivi e sottospazi testuali.
- Vincoli:
  - Vincolo marginale: Garantisce che ogni sottospazio testuale sia ottimizzato sufficientemente (nessun sottospazio viene ignorato).
  - Minimizzazione del costo: Spinge i sottospazi a specializzarsi in semantiche visive distinte (evitando che un solo sottospazio assorba tutti i token).
- Piano di Trasporto: La soluzione dell'OT fornisce un piano di trasporto che assegna pesi a ogni combinazione token-sottospazio.
Sparsificazione Top-K:
- Per rendere l'assegnazione più discriminativa ed efficiente, si mantiene solo la combinazione Top-K di sottospazi per ogni token (scartando i pesi bassi). Questo crea un'assegnazione "soft" ma sparsa, dove ogni token è supervisionato dai sottospazi semanticamente più rilevanti.
Funzione di Perdita:
- Il modello è ottimizzato end-to-end combinando: perdita globale (livello immagine), perdita locale di base (allineamento indiscriminato iniziale), perdita di allineamento dinamico (basata sull'OT) e una hinge loss per separare nettamente regioni normali e anomale.

3. Contributi Principali

Rilevazione del Limite: Identificazione del fatto che l'allineamento indiscriminato limita la capacità dei modelli di catturare semantiche di anomalie complete e diversificate.
Framework Token-Wise: Proposta di TokenCLIP, che assegna dinamicamente una combinazione di sottospazi testuali a ogni token visivo, abilitando una supervisione testuale sensibile al contesto.
Formulazione OT: Innovazione nell'uso del Trasporto Ottimo per l'allineamento cross-modale a livello di pixel/token. I vincoli dell'OT garantiscono sia l'ottimizzazione sufficiente dei sottospazi sia la loro specializzazione semantica.
Efficienza: Dimostrazione che è possibile ottenere un allineamento fine-granularità senza il costo computazionale proibitivo di generare un embedding testuale unico per ogni singolo token.

4. Risultati Sperimentali

TokenCLIP è stato valutato su dataset industriali e medici, superando lo stato dell'arte (SOTA) in scenari Zero-Shot.

Rilevazione di Difetti Industriali (MVTec AD, VisA, ecc.):
- Su MVTec AD, TokenCLIP raggiunge 92.2 AUROC e 87.9 PRO a livello di pixel, superando il precedente leader (AnomalyCLIP: 91.1 AUROC, 81.4 PRO).
- I miglioramenti nel metrico PRO (Performance Relative to Overlap) indicano una superiorità nella rilevazione di anomalie sottili e fini.
Analisi Medica Cross-Dominio:
- Addestrato su dati industriali, il modello è stato testato direttamente su dataset medici (HeadCT, BrainMRI, ISIC) senza ri-addestramento.
- Ha mostrato prestazioni superiori rispetto ai metodi basati su prompt statici, dimostrando una forte capacità di generalizzazione delle semantiche di anomalie.
Analisi di Efficienza:
- Rispetto a metodi che usano molti prompt (es. FAPrompt), TokenCLIP offre un miglior compromesso tra prestazioni e costo computazionale (memoria GPU e tempo di inferenza), mantenendo un overhead minimo rispetto ai metodi base.

5. Significato e Impatto

Superamento del Compromesso Semantico: TokenCLIP risolve il problema del "trade-off" semantico forzato dai metodi precedenti, permettendo al modello di adattarsi dinamicamente alla complessità visiva locale.
Generalizzazione: La capacità di specializzare i sottospazi testuali tramite OT permette al modello di riconoscere pattern di anomalie molto diversi (da difetti meccanici a lesioni biologiche) senza bisogno di dati etichettati specifici per ogni dominio.
Impatto Industriale: Il lavoro ha implicazioni dirette per i sistemi di monitoraggio industriale intelligente e la diagnosi medica automatizzata, migliorando l'affidabilità della rilevazione di difetti su oggetti mai visti prima.

In sintesi, TokenCLIP rappresenta un passo avanti significativo verso l'uso efficiente ed efficace dei modelli fondazionali per la sicurezza e il controllo di qualità, spostando il paradigma dall'allineamento globale statico a un allineamento locale dinamico e semanticamente consapevole.