VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Détective qui n'a pas besoin de dictionnaire : VisualAD

Imaginez que vous travaillez dans une usine de fabrication de montres. Votre travail est de repérer les défauts sur les montres (une rayure, un bouton manquant, une couleur bizarre).

Le problème habituel :
Pour apprendre à un ordinateur à faire cela, on lui montre des milliers de photos de montres parfaites et de milliers de photos de montres abîmées. Mais que se passe-t-il si vous lancez une nouvelle ligne de production (des lunettes de soleil, par exemple) ou si vous devez inspecter des tumeurs dans un hôpital ?
Vous n'avez pas de photos de "lunettes abîmées" ou de "tumeurs" pour entraîner le modèle. C'est ce qu'on appelle le défi "Zero-Shot" (zéro exemple).

La solution actuelle (et ses défauts) :
Les méthodes récentes utilisent des modèles "Vision-Language" (comme CLIP). C'est comme donner à l'ordinateur un dictionnaire.

On lui dit : "Cherche le mot 'Normal'".
On lui dit : "Cherche le mot 'Anormal'".
L'ordinateur compare l'image à ces mots pour décider.
Le hic ? C'est lourd, lent, et parfois l'ordinateur se trompe parce qu'il essaie de comprendre le sens des mots plutôt que de regarder vraiment l'image. C'est comme essayer de trouver un défaut en lisant une description au lieu de regarder l'objet.

🚀 La Révolution VisualAD : "Regarde, ne lis pas !"

Les auteurs de VisualAD se sont dit : "Pourquoi on a besoin de mots pour trouver un défaut ?"
Un défaut visuel (une rayure, une tache) est avant tout une anomalie visuelle. On peut le voir sans avoir besoin de lire "rayure" ou "tache".

Voici comment VisualAD fonctionne, avec une analogie simple :

1. Le Corps de Garde Gelé (Le Modèle Gelé)

Imaginez un détective très expérimenté (le modèle d'IA pré-entraîné, comme CLIP ou DINOv2) qui a déjà vu des millions d'images. Il est gelé : on ne peut pas le rééduquer, il est déjà un expert.

L'astuce : Au lieu de lui donner un dictionnaire (texte), on lui colle deux post-it directement sur son cerveau visuel.

2. Les Deux Post-it Magiques (Les Tokens Apprenants)

VisualAD insère deux petits marqueurs invisibles dans le cerveau du détective :

Un post-it "Normal" (le standard).
Un post-it "Anormal" (le suspect).

Ces post-it ne sont pas des mots écrits, ce sont de petits vecteurs mathématiques qui apprennent directement à regarder les images.

3. La Conversation (L'Attention)

Le détective regarde l'image pièce par pièce (comme un puzzle).

Le post-it "Normal" dit aux pièces du puzzle : "Restez comme d'habitude, vous êtes bien."
Le post-it "Anormal" dit : "Attends, cette pièce ici a l'air bizarre ! Regarde-moi !".
Au fil du temps, le post-it "Anormal" apprend à pointer du doigt exactement là où il y a un problème, sans jamais avoir lu le mot "défaut".

4. Le Loupe Spatiale (Le Module SCA)

Parfois, le post-it "Anormal" est trop grand et flou. Il voit la forêt mais pas l'arbre.
VisualAD ajoute une loupe intelligente (le module SCA). Cette loupe permet au post-it de se concentrer sur des détails précis (une petite rayure sur une pièce de métal) en utilisant la position exacte de l'objet. C'est comme passer d'une vue satellite à une vue au microscope.

5. Le Calibrage Final (Le Module SAF)

Avant de tirer la conclusion, VisualAD fait un petit ajustement de dernière minute (le module SAF) pour s'assurer que la comparaison entre "Normal" et "Anormal" est parfaitement juste, comme un équilibriste qui ajuste sa balance.

🏆 Pourquoi c'est génial ? (Les Résultats)

Imaginez que vous deviez inspecter :

Des pièces de voiture (Industrie).
Des yeux humains (Médecine).
Des intestins (Médecine).

VisualAD est un caméléon.

Il a été entraîné uniquement sur des images industrielles.
Il est ensuite envoyé inspecter des yeux et des intestins sans aucun nouvel entraînement.
Résultat : Il fonctionne mieux que les méthodes qui utilisent des mots (texte), et il est 99% plus léger (moins de calculs, plus rapide).

L'analogie finale :
Les anciennes méthodes étaient comme un inspecteur qui doit lire un manuel de 500 pages pour chaque nouveau type de produit avant de pouvoir travailler.
VisualAD, lui, est un inspecteur qui a un sixième sens visuel. Il voit simplement ce qui ne va pas, peu importe l'objet, car il a appris à reconnaître la "forme" du défaut, pas juste le "nom" du défaut.

En résumé

VisualAD prouve que pour trouver l'aiguille dans la botte de foin, il n'est pas nécessaire de lire le mot "aiguille". Il suffit d'avoir un regard entraîné à repérer ce qui ne ressemble pas au foin. C'est plus simple, plus rapide, et ça marche partout !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La détection d'anomalies en zero-shot (ZSAD) vise à identifier et localiser des défauts dans des catégories jamais vues lors de l'entraînement, sans disposer d'échantillons anormaux pour ces nouvelles classes.

Limites des approches actuelles : Les méthodes dominantes reposent sur des modèles vision-langage (VLM) comme CLIP. Elles utilisent des encodages textuels (prompts) pour définir les concepts de "normal" et "anormal", puis calculent une similarité entre l'image et le texte.
Défauts identifiés : Cette dépendance à un encodeur textuel et à l'alignement cross-modal introduit une instabilité lors de l'entraînement, une redondance de paramètres et une sensibilité aux choix de formulation des prompts.
Hypothèse de départ : Les auteurs se demandent si la modalité textuelle est réellement indispensable. Ils postulent que les anomalies, étant des déviations structurelles ou statistiques (texture, forme, couleur), peuvent être apprises et détectées exclusivement à partir de signaux visuels.

2. Méthodologie : VisualAD

VisualAD est un cadre purement visuel construit sur des Vision Transformers (ViT) figés (frozen). Il élimine totalement la branche textuelle.

Architecture Principale

Tokens Apprenables : Au lieu de prompts textuels, deux tokens globaux apprenables sont injectés directement dans la séquence de tokens du ViT :
- Un token Anomalie ( $t_a$ ).
- Un token Normalité ( $t_n$ ).
  Ces tokens interagissent avec les tokens de patchs de l'image via l'attention multi-couches pour acquérir progressivement des notions de haut niveau de normalité et d'anomalie.
Module d'Attention Croisée Spatiale (SCA - Spatial-Aware Cross-Attention) :
- Les tokens globaux manquent souvent de ancrage spatial précis. Le module SCA injecte des preuves spatiales fines dans ces tokens.
- Il utilise un petit ensemble de requêtes d'ancrage apprenables ( $Q_{anchor}$ ) pour agréger les caractéristiques des patchs locaux.
- Un mécanisme de "gating" guidé par le token global permet d'injecter sélectivement ces informations spatiales dans les tokens $t_a$ et $t_n$ , les adaptant dynamiquement à la structure locale de l'image test.
Fonction d'Auto-Alignement (SAF - Self-Alignment Function) :
- Pour aligner les caractéristiques des patchs avec les tokens globaux évolutifs, une petite fonction MLP (Multi-Layer Perceptron) recalibre les caractéristiques des patchs à chaque couche sélectionnée.
- Cela assure que les patchs sont bien préparés avant le calcul de la similarité avec les tokens.
Scoring et Cartes d'Anomalie :
- Le score d'anomalie pour chaque patch est calculé comme la différence de similarité cosinus entre le patch recalibré et le token anomalie, moins la similarité avec le token normalité.
- Les cartes d'anomalie de plusieurs couches intermédiaires sont fusionnées (somme) pour obtenir une carte finale.
- Le score image est la moyenne des scores des $k$ pixels les plus anormaux (top-1%).

Objectif d'Entraînement

L'entraînement se fait uniquement sur des données industrielles auxiliaires (sans texte). La fonction de perte combine :

Perte de classification (BCE) : Pour le score image.
Perte de segmentation (Focal + Dice) : Pour la carte de pixels.
Perte de contraste (Cosine Margin) : Pour forcer une séparation angulaire stricte (> 120°) entre les tokens $t_a$ et $t_n$ dans l'espace latent.

3. Contributions Clés

Réévaluation du rôle du texte : Démonstration que la modalité textuelle n'est pas essentielle pour la ZSAD ; des caractéristiques discriminatives peuvent être apprises purement visuellement.
Framework VisualAD : Une architecture basée uniquement sur ViT, réduisant les paramètres entraînables de plus de 99% par rapport aux méthodes basées sur CLIP (en supprimant l'encodeur textuel).
Nouveaux Modules : Introduction du module SCA pour l'ancrage spatial et du module SAF pour le recalibrage des features, permettant un alignement multi-couche stable.
Généralisation Robuste : Capacité à s'adapter à différents backbones (CLIP ViT-L/14, DINOv2) et à généraliser à des domaines industriels et médicaux non vus.

4. Résultats Expérimentaux

Les expériences ont été menées sur 13 benchmarks couvrant l'industrie (MVTec-AD, VisA, etc.) et la médecine (OCT, IRM cérébrale, histopathologie, endoscopie).

Performance SOTA : VisualAD atteint l'état de l'art sur presque tous les ensembles de données, tant au niveau de l'image (classification) que du pixel (segmentation).
- Sur les données industrielles, il surpasse les méthodes comme WinCLIP, AnomalyCLIP et AdaCLIP.
- Sur les données médicales, il montre une capacité de localisation supérieure, avec des frontières plus nettes et moins de faux positifs.
Efficacité et Stabilité :
- Réduction massive des paramètres (99% de moins que les méthodes VLM).
- Courbes d'évaluation plus lisses et plus stables que les méthodes basées sur le texte, qui souffrent souvent d'oscillations.
Analyse Ablative :
- L'ajout des tokens seuls améliore déjà la séparation.
- Le module SCA est crucial pour la précision pixelique (localisation).
- La fusion multi-couches (couches 6, 12, 18, 24) est essentielle pour capturer à la fois les détails fins et le contexte global.
- L'utilisation de 4 ancres (anchors) dans le SCA s'avère être le compromis optimal.

5. Signification et Impact

Ce travail marque un changement de paradigme dans la détection d'anomalies en zero-shot. Il démontre que la complexité et l'instabilité introduites par l'alignement vision-langage peuvent être évitées au profit d'une approche purement visuelle.

Simplicité : En supprimant la branche textuelle, le modèle devient plus léger, plus rapide à entraîner et plus stable.
Adaptabilité : La méthode fonctionne aussi bien sur des défauts industriels (rayures, fissures) que sur des pathologies médicales complexes, prouvant que les signaux visuels d'anomalie sont universels et peuvent être appris sans médiation linguistique.
Accessibilité : Le code est public, facilitant l'adoption de cette approche plus efficace pour des déploiements réels dans des environnements à ressources limitées.

En résumé, VisualAD prouve que pour détecter l'inattendu, il suffit parfois de regarder, sans avoir besoin de le décrire.