TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Le Détective "Tout-terrain" qui se trompe souvent

Imaginez que vous avez un détective très intelligent (appelé CLIP) capable de reconnaître des objets et de dire s'ils sont "normaux" ou "abîmés". Ce détective est formé sur des millions de photos, mais il n'a jamais vu les objets spécifiques que vous lui présentez aujourd'hui (c'est ce qu'on appelle la détection d'anomalies en "zéro-shot").

Le problème actuel :
Jusqu'à présent, pour aider ce détective à repérer les défauts, les chercheurs lui donnaient une seule étiquette mentale (une seule "phrase" dans sa tête) pour décrire tous les défauts possibles.

Imaginez que vous demandez à ce détective de trouver un défaut sur un tapis (une tache de café) ET sur un cerveau (une tumeur).
Avec l'ancienne méthode, le détective utilise la même définition de "défaut" pour les deux. C'est comme essayer de décrire à la fois une égratignure sur une voiture et une fissure dans un mur avec le même mot.
Résultat : Le détective devient confus. Il est bon pour les défauts communs, mais il rate les détails subtils ou spécifiques. Il fait un compromis médiocre pour tout le monde.

💡 La Solution : TokenCLIP, le Chef d'Orchestre des Mots

Les auteurs de ce papier proposent TokenCLIP. Au lieu de donner une seule étiquette globale, ils donnent au détective une boîte à outils remplie de plusieurs étiquettes spécialisées.

Voici comment cela fonctionne, avec une analogie simple :

1. La Boîte à Outils (Les Sous-espaces Textuels)

Au lieu d'avoir un seul mot pour "défaut", TokenCLIP crée plusieurs "sous-dictionnaires" (appelés sous-espaces orthogonaux).

Le Dictionnaire A est spécialisé pour les défauts de texture (comme une rayure sur du métal).
Le Dictionnaire B est spécialisé pour les défauts de forme (comme un trou dans un tissu).
Le Dictionnaire C est spécialisé pour les couleurs bizarres.

Ces dictionnaires sont "orthogonaux", ce qui signifie qu'ils sont très différents les uns des autres, comme des couleurs primaires (rouge, bleu, jaune) qui ne se mélangent pas. Cela évite qu'ils se copient les uns les autres.

2. Le Chef d'Orchestre (L'Alignement Dynamique)

C'est ici que la magie opère. TokenCLIP ne force pas le détective à utiliser le même dictionnaire pour chaque partie de l'image.

Il regarde chaque petit morceau de l'image (un "token", comme une tuile de mosaïque).
Si le morceau est un tapis, le chef d'orchestre dit : "Utilise le Dictionnaire A pour cette partie, car c'est là qu'on voit la tache."
Si le morceau est un câble, il dit : "Utilise le Dictionnaire B pour cette partie, car c'est là qu'il manque un fil."

Chaque petit morceau de l'image reçoit donc sa propre combinaison personnalisée de dictionnaires. C'est comme si chaque pièce du puzzle avait son propre guide de réparation, au lieu d'avoir un seul guide pour toute la maison.

3. Le Transport Optimal (Le Taxis Intelligent)

Comment le système décide-t-il quel dictionnaire utiliser pour quel morceau ? Il utilise une mathématique élégante appelée Transport Optimal.

Imaginez que vous avez des passagers (les morceaux de l'image) et des taxis (les dictionnaires).
L'objectif est de mettre chaque passager dans le taxi le plus adapté, mais en veillant à ce que tous les taxis soient bien utilisés et ne restent pas vides.
Le système calcule le trajet le plus court et le plus logique. Cela garantit que les dictionnaires apprennent des choses différentes et ne se contentent pas de tous faire la même chose.

🚀 Pourquoi c'est génial ?

Précision chirurgicale : Comme chaque petit morceau de l'image est analysé avec le bon "dictionnaire", le système repère des défauts très fins (une petite fissure, une tache minuscule) que les anciennes méthodes rataient.
Économie d'énergie : Au lieu de créer un dictionnaire unique pour chaque pixel (ce qui serait trop lent et trop cher), TokenCLIP crée seulement quelques dictionnaires intelligents et les mélange intelligemment. C'est comme avoir 3 chefs cuisiniers spécialisés plutôt que 1000 cuisiniers qui font tous la même chose.
Adaptabilité : Cela fonctionne aussi bien pour inspecter des pièces industrielles (roues, vis) que pour analyser des images médicales (tumeurs, lésions de la peau).

🏆 Le Résultat

En résumé, TokenCLIP a remplacé l'approche "taille unique" (un seul mot pour tous les défauts) par une approche "sur mesure" (un mélange de mots spécialisés pour chaque partie de l'image).

Les tests montrent que cette méthode est bien meilleure pour trouver des anomalies invisibles à l'œil nu, que ce soit dans une usine ou dans un hôpital, tout en restant rapide et efficace. C'est comme passer d'un détective qui regarde l'ensemble de la scène avec des lunettes de soleil, à un détective équipé de jumelles qui zooment sur chaque détail avec la bonne lentille.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'adaptation des modèles de fondation (Foundation Models), en particulier CLIP, pour la détection d'anomalies en mode "zero-shot" (sur des objets non vus lors de l'entraînement) a montré un grand potentiel. Cependant, les méthodes existantes souffrent d'une limitation fondamentale : elles reposent sur un alignement indifférencié (indiscriminate alignment).

Le problème : Ces méthodes projettent tous les tokens visuels (patchs d'image) vers un unique espace textuel token-agnostique. Que l'on détecte une fissure sur un tapis ou une tumeur dans un scanner cérébral, le même espace textuel est utilisé pour s'aligner avec toutes les régions de l'image.
La conséquence : Cet alignement grossier force le modèle à faire des compromis entre des sémantiques très diverses. Le modèle tend à privilégier les anomalies courantes au détriment des anomalies rares ou spécifiques, ce qui empêche une capture précise des sémantiques d'anomalies à un niveau granulaire (token-level).
Les défis d'une solution naïve : Assigner un espace textuel unique à chaque token visuel serait théoriquement idéal pour la précision, mais cela entraînerait un coût computationnel prohibitif (encodage de milliers de prompts distincts) et un sous-ajustement (underfitting) des espaces textuels spécifiques en raison d'un nombre insuffisant de mises à jour lors de l'entraînement.

2. Méthodologie : TokenCLIP

Les auteurs proposent TokenCLIP, un cadre d'adaptation fine qui remplace l'alignement indifférencié par un alignement dynamique et token-wise. L'idée centrale est d'aligner chaque token visuel avec une combinaison pondérée de sous-espaces textuels orthogonaux, plutôt qu'un seul espace global.

Le framework se compose de deux modules clés :

A. Apprentissage de Prompts Textuels Multi-Têtes (Multi-Head Text Prompt)

Sémantique globale et locale : Le modèle utilise des prompts appris séparément pour les anomalies globales (image-level) et locales (pixel-level).
Base textuelle : Un prompt de base est appris pour capturer les sémantiques générales d'anomalie.
Projection multi-têtes : À partir de cette base, une projection multi-têtes (Multi-Head Projection) génère un ensemble de sous-espaces textuels orthogonaux ( $O = \{o_1, ..., o_Q\}$ ). Une contrainte d'orthogonalité est appliquée pour garantir la diversité sémantique entre ces sous-espaces et éviter la redondance.

B. Alignement Dynamique via Transport Optimal (OT)

Au lieu d'assigner manuellement un sous-espace à chaque token, TokenCLIP formule l'alignement comme un problème de Transport Optimal (Optimal Transport - OT) :

Formulation : Les tokens visuels (distribution source) sont transportés vers les sous-espaces textuels (distribution cible) en minimisant le coût de transport, défini par la distance cosinus entre les représentations visuelles et textuelles.
Contraintes et Objectifs :
- La contrainte marginale assure que chaque sous-espace textuel est suffisamment optimisé (aucun sous-espace n'est ignoré).
- L'objectif de coût minimal encourage les sous-espaces à se spécialiser dans des sémantiques visuelles distinctes (théoriquement prouvé par les auteurs : mélanger des clusters sémantiques différents dans un même sous-espace augmente le coût OT).
Résolution et Sparsification : Le problème OT est résolu efficacement via l'algorithme de Sinkhorn-Knopp avec régularisation entropique. Pour éviter un alignement trop dense et favoriser la spécialisation, un mécanisme de Top-K masking est appliqué : seuls les $K$ sous-espaces les plus pertinents pour chaque token sont conservés, et leurs poids sont normalisés pour former une affectation douce (soft assignment).

C. Entraînement

Le modèle est entraîné de manière end-to-end avec une perte totale combinant :

La perte de classification globale (Image-level).
La perte de segmentation de base (alignement indifférencié initial).
La perte d'alignement dynamique (basée sur l'affectation OT).
Une régularisation d'orthogonalité pour les sous-espaces.
Une perte "hinge" pour séparer explicitement les régions normales et anormales.

3. Contributions Clés

Identification de la limite de l'alignement indifférencié : Les auteurs démontrent que l'utilisation d'un seul espace textuel pour tous les tokens limite la capacité du modèle à capturer des sémantiques d'anomalies complètes et variées.
Framework TokenCLIP : Proposition d'un mécanisme d'alignement dynamique qui attribue à chaque token une combinaison pondérée de sous-espaces textuels, permettant une supervision textuelle au niveau du token sans coût computationnel explosif.
Formulation par Transport Optimal : Utilisation innovante de l'OT pour gérer l'alignement many-to-many entre tokens visuels et sous-espaces textuels. Cela garantit l'optimisation suffisante de chaque sous-espace et induit une spécialisation sémantique naturelle.
Performance supérieure : Démonstration expérimentale sur des benchmarks industriels et médicaux, surpassant l'état de l'art (SOTA) en détection d'anomalies zero-shot.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux domaines principaux : l'inspection industrielle et le diagnostic médical.

Détection d'anomalies industrielles (ZSAD) :
- Sur MVTec AD, TokenCLIP atteint 92.2% d'AUROC et 87.9% de PRO (Pixel-level), surpassant le précédent meilleur modèle (AnomalyCLIP) de manière significative, notamment sur la métrique PRO qui mesure la détection des anomalies fines.
- Sur VisA, le modèle obtient 95.9% d'AUROC et 88.5% de PRO.
- TokenCLIP surpasse également des méthodes concurrentes comme WinCLIP, VAND, AdaCLIP et FAPrompt.
Analyse Médicale (Cross-Domain) :
- Entraîné sur des données industrielles (MVTec), le modèle a été testé directement sur des données médicales (HeadCT, BrainMRI, ISIC, etc.) sans adaptation.
- TokenCLIP démontre une forte capacité de généralisation, obtenant les meilleurs résultats sur presque tous les ensembles de données médicaux (ex: 96.0% d'AUROC sur HeadCT, 91.6% sur ISIC), prouvant sa capacité à capturer des sémantiques d'anomalies généralisées.
Analyse d'ablation et Efficacité :
- Rôle de l'OT : Le remplacement de l'OT par une sélection basée uniquement sur la similarité cosinus (TokenCLIP-Van) entraîne une chute de performance, confirmant que la contrainte globale de l'OT est cruciale pour la spécialisation des sous-espaces.
- Spécialisation des sous-espaces : Les visualisations montrent que les sous-espaces appris se spécialisent naturellement : certains captent les objets (foreground), d'autres les arrière-plans ou les textures homogènes.
- Coût computationnel : TokenCLIP ajoute une surcharge minime par rapport à AnomalyCLIP (temps d'inférence légèrement supérieur, mais bien inférieur à FAPrompt qui nécessite plusieurs prompts apprenables), offrant un excellent compromis performance/coût.

5. Signification et Impact

TokenCLIP représente une avancée significative dans le domaine de la détection d'anomalies zero-shot.

Changement de paradigme : Il passe d'une approche "un texte pour tous" à une approche "texte adaptatif par token", permettant une compréhension beaucoup plus fine des défauts locaux.
Généralisation : La capacité à transférer les connaissances d'un domaine industriel à un domaine médical sans réentraînement souligne la robustesse de l'alignement dynamique basé sur l'OT.
Applications potentielles : Cette méthode est particulièrement pertinente pour l'industrie 4.0 (contrôle qualité automatisé) et le diagnostic médical assisté par IA, où la détection de défauts rares et variés sur des objets non vus est critique.

En résumé, TokenCLIP résout le compromis entre la granularité de l'alignement et l'efficacité computationnelle en utilisant le Transport Optimal pour orchestrer dynamiquement une famille de sous-espaces textuels spécialisés.