WMoE-CLIP: Wavelet-Enhanced Mixture-of-Experts Prompt Learning for Zero-Shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un inspecteur de qualité dans une usine ou un médecin dans un hôpital. Votre travail consiste à repérer immédiatement ce qui ne va pas : un produit défectueux sur une chaîne de montage ou une tumeur sur une radiographie.

Le problème ? Vous n'avez jamais vu ces défauts précis auparavant. C'est comme si on vous donnait un nouveau type de boulon à inspecter sans jamais vous avoir montré à quoi ressemble un boulon cassé. C'est ce qu'on appelle la détection d'anomalie "zéro-shot" (sans entraînement préalable sur le défaut).

Les méthodes actuelles utilisent des modèles intelligents (comme CLIP) qui comprennent le lien entre les images et le texte. Mais elles ont deux gros défauts :

Elles utilisent des "étiquettes" de texte trop rigides (comme un manuel d'instructions figé) qui ne s'adaptent pas bien aux nuances.
Elles regardent l'image comme une photo classique, en oubliant les détails fins (comme les vibrations ou les textures subtiles) qui trahissent souvent un problème.

Voici comment les auteurs de cette recherche, WMoE-CLIP, ont résolu ce problème avec une approche en trois étapes, que nous pouvons imaginer comme une équipe d'experts super-pouvoirs :

1. Le "Caméléon" (CTDS) : Adapter le texte à la situation

Imaginez que vous devez décrire un défaut. Au lieu d'utiliser une phrase fixe comme "Voici un boulon cassé", votre cerveau s'adapte instantanément à la situation.

L'analogie : Les anciennes méthodes utilisaient un script écrit à la main. WMoE-CLIP utilise un moteur de "caméléon" (un auto-encodeur variationnel). Il observe l'image globale, comprend son contexte unique, et réécrit dynamiquement la phrase de description pour qu'elle colle parfaitement à ce qui est devant lui.
Le résultat : Le modèle ne lit plus juste un texte rigide, il "ressent" le contexte de l'image pour mieux comprendre ce qu'il cherche.

2. Le "Détective des Fréquences" (WCMA) : Voir l'invisible

Une photo normale montre les couleurs et les formes. Mais un défaut subtil, comme une micro-fissure, est souvent caché dans les détails que l'œil humain (ou un modèle standard) ignore.

L'analogie : Imaginez que vous écoutez une chanson. Les basses (les graves) vous donnent le rythme global, mais les aigus (les hautes fréquences) contiennent les détails précis, comme le craquement d'un verre.
La solution : WMoE-CLIP utilise une décomposition en ondelettes. C'est comme passer l'image à travers un filtre magique qui sépare les "graves" (la forme globale) des "aigus" (les détails fins). Il utilise ensuite ces "aigus" pour affiner le texte. Si l'image a un détail bizarre dans les hautes fréquences, le texte s'ajuste immédiatement pour dire : "Attention, il y a quelque chose d'anormal ici !"

3. Le "Conseil d'Experts" (SA-MoE) : La sagesse collective

Parfois, un seul expert ne suffit pas pour juger d'une situation complexe.

L'analogie : Imaginez un jury de 8 experts différents. Chacun est spécialisé dans un type de contexte différent (certains sont bons pour les textures, d'autres pour les formes, d'autres pour les couleurs).
Le mécanisme : Au lieu de demander à un seul expert de décider, le modèle utilise un système de "Mixture-of-Experts". Un "chef d'orchestre" (le routeur) regarde la situation et choisit instantanément les 2 ou 3 experts les plus pertinents pour cette image précise. Ils combinent leurs avis pour donner une note de confiance finale très précise.

En résumé

WMoE-CLIP est comme un inspecteur de qualité qui :

S'adapte instantanément au contexte (le Caméléon).
Écoute les détails invisibles et les textures fines (le Détective des Fréquences).
Consulte une équipe d'experts spécialisés pour prendre la meilleure décision (Le Conseil).

Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode sur 14 jeux de données différents, allant des pièces d'usines (comme des bouteilles ou des écrous) aux images médicales (comme des cerveaux ou des polypes).
Résultat ? Leur méthode bat tous les records actuels. Elle trouve mieux les défauts, même ceux qu'elle n'a jamais vus auparavant, et elle les localise avec une précision chirurgicale, que ce soit pour une pièce industrielle ou une image médicale complexe.

C'est une avancée majeure pour rendre l'IA plus fiable, plus flexible et capable de nous aider à détecter les problèmes avant qu'ils ne deviennent catastrophiques.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection d'anomalies (Anomaly Detection - AD) vise à identifier des instances déviantes par rapport à des motifs normaux, avec des applications cruciales dans les secteurs industriel et médical. Cependant, l'acquisition de données d'entraînement étiquetées est souvent limitée en raison de la rareté des échantillons défectueux et des contraintes de confidentialité (notamment en médecine).

Les approches traditionnelles non supervisées peinent à généraliser à de nouveaux types d'anomalies. Récemment, les modèles Vision-Langage (comme CLIP) ont permis la Détection d'Anomalies Zero-Shot (ZSAD), détectant des anomalies jamais vues sans supervision spécifique. Néanmoins, les méthodes existantes souffrent de deux limitations majeures :

Prompts textuels fixes : Elles reposent souvent sur des prompts textuels statiques ou manuellement conçus, qui capturent mal les sémantiques complexes et manquent d'adaptabilité aux contextes visuels spécifiques.
Dépendance au domaine spatial : Elles se concentrent exclusivement sur les caractéristiques spatiales, limitant leur capacité à détecter des anomalies subtiles qui nécessitent une analyse fréquentielle fine.

2. Méthodologie : WMoE-CLIP

Les auteurs proposent WMoE-CLIP, une nouvelle approche basée sur CLIP qui intègre l'apprentissage par prompts (Prompt Learning) enrichi par des ondelettes et un mécanisme de "Mixture-of-Experts" (MoE). L'architecture se compose de trois modules clés :

A. Échantillonnage de la Distribution du Token de Classe (CTDS)

Pour surmonter la rigidité des prompts fixes, ce module utilise un Autoencodeur Variationnel (VAE) pour modéliser la distribution latente des caractéristiques globales de l'image.

Le token de classe global ( $x_c$ ) extrait par l'encodeur d'image est projeté dans un espace latent pour obtenir une moyenne ( $\mu$ ) et une variance ( $\sigma$ ).
Un échantillon latent est généré et reconstruit pour enrichir les vecteurs de prompts appris.
Cela permet d'injecter des informations sémantiques globales riches et adaptatives directement dans les prompts textuels ("a photo of a good/damaged..."), améliorant ainsi l'alignement image-texte.

B. Attention Cross-Modale Renforcée par Ondelettes (WCMA)

Ce module vise à capturer les détails fins et les anomalies subtiles en exploitant le domaine fréquentiel.

Une transformée en ondelettes de Haar décompose les caractéristiques de l'image en composantes basse fréquence (information globale) et haute fréquence (détails, textures, bords).
Les composantes haute fréquence (horizontale, verticale, diagonale) sont agrégées pour former une représentation riche en détails.
Un mécanisme d'attention croisée (Cross-Attention) utilise ces caractéristiques fréquentielles pour affiner dynamiquement les embeddings textuels. Cela permet au modèle de s'adapter aux spécificités de l'image et de mieux détecter des défauts subtils souvent invisibles dans le domaine spatial pur.

C. Mixture-of-Experts Sensible à la Sémantique (SA-MoE)

Pour consolider l'information contextuelle et améliorer le score d'anomalie global :

Un module d'adaptation (Adapter) projette les caractéristiques de patchs de plusieurs couches dans un espace unifié.
Un réseau de routage (Routing Gate) sélectionne dynamiquement les $k$ experts les plus pertinents parmi un ensemble de $N$ experts.
Les sorties des experts sélectionnés sont agrégées pour enrichir la représentation sémantique globale, permettant une perception plus robuste des motifs d'anomalies variés.

Fonction de Perte : L'optimisation combine une perte globale (classification binaire au niveau de l'image) et une perte locale (combinaison de Focal Loss et Dice Loss pour la segmentation pixel par pixel), plus les pertes de régularisation du VAE (KL-divergence et reconstruction).

3. Contributions Clés

Nouvelle Architecture WMoE-CLIP : Une méthode innovante basée sur CLIP qui améliore l'interaction image-texte pour la ZSAD, surpassant les méthodes actuelles en précision et en généralisation.
Intégration Multi-Domaine : Utilisation conjointe d'un VAE pour la modélisation de la distribution des caractéristiques globales et de la décomposition en ondelettes pour l'extraction de caractéristiques fréquentielles, renforçant l'alignement cross-modal.
Module SA-MoE : Introduction d'un module Mixture-of-Experts sensible à la sémantique pour agréger l'information contextuelle, améliorant la capacité du modèle à reconnaître des motifs d'anomalies diversifiés.

4. Résultats Expérimentaux

Les auteurs ont évalué WMoE-CLIP sur 14 jeux de données publics (6 industriels et 8 médicaux), incluant MVTec-AD, VisA, HeadCT, et ISIC.

Performance Globale : WMoE-CLIP obtient des performances State-of-the-Art (SOTA) sur la majorité des métriques (AUROC, F1-Max, AP) tant au niveau de l'image que du pixel.
Comparaison : Il surpasse les méthodes de référence récentes (WinCLIP, AnomalyCLIP, AdaCLIP, AA-CLIP). Par exemple, sur MVTec-AD, il améliore l'AUROC au niveau de l'image de 1,9 % par rapport à AA-CLIP (le précédent leader).
Généralisation : La méthode démontre une robustesse exceptionnelle sur les données médicales, un domaine où la généralisation est particulièrement difficile.
Études Ablatives : Les expériences montrent que chaque module (CTDS, WCMA, SA-MoE) contribue positivement aux performances. La combinaison des trois modules donne les meilleurs résultats, confirmant la synergie de l'architecture.
Visualisation : Les cartes d'anomalies générées montrent une localisation précise, en particulier dans les scénarios médicaux complexes, grâce à l'alignement amélioré par les ondelettes.

5. Signification et Impact

Ce travail est significatif car il adresse les lacunes fondamentales des approches ZSAD actuelles :

Il dépasse la limitation des prompts statiques en introduisant une adaptabilité dynamique via l'échantillonnage de distribution.
Il résout le problème de la détection d'anomalies subtiles en intégrant explicitement l'information fréquentielle (ondelettes), négligée par les modèles purement spatiaux.
Il démontre qu'une architecture modulaire combinant apprentissage par prompts, traitement du signal (ondelettes) et mécanismes d'experts peut considérablement améliorer la détection d'anomalies sans supervision, ouvrant la voie à des applications plus fiables dans l'industrie 4.0 et le diagnostic médical assisté par IA.