MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un inspecteur de la qualité dans une usine géante, mais aussi dans un hôpital. Votre travail est de repérer instantanément tout ce qui ne va pas : un bouton défectueux sur un vêtement, une fissure sur une pièce de moteur, ou une tumeur sur une radio.

Le problème ? Vous n'avez jamais vu ces objets avant. C'est ce qu'on appelle la détection d'anomalies "Zero-Shot" (zéro exemple). Vous devez deviner ce qui est "normal" et ce qui est "bizarre" sans avoir jamais vu l'objet spécifique auparavant.

Le Problème : Le "Marteau-Piqueur" Universel

Jusqu'à présent, les meilleurs systèmes (basés sur une intelligence artificielle appelée CLIP) fonctionnaient comme un marteau-piqueur universel.

Comment ça marchait ? Ils prenaient une image, la découpaient en petits morceaux (des "patchs"), et appliquaient exactement la même règle à chaque morceau.
Le défaut : C'est comme essayer de réparer une montre, un moteur de voiture et un cerveau humain avec le même tournevis. Un morceau d'image qui représente le fond (le ciel, le mur) n'a pas besoin de la même attention qu'un morceau qui représente un objet complexe ou une faille. Traiter tout de la même manière rend le système lent et moins précis pour repérer les détails fins.

La Solution : MoECLIP, le "Restaurant à la Carte"

Les auteurs de ce papier, de l'Université Yonsei en Corée, ont eu une idée géniale : au lieu d'un seul outil, pourquoi ne pas avoir une équipe d'experts spécialisés ?

Ils ont créé MoECLIP (Mixture of Experts CLIP). Voici comment cela fonctionne avec une analogie simple :

1. Le Chef de Cuisine (Le Routeur)

Imaginez un restaurant très sophistiqué. Quand un plat arrive en cuisine (l'image), un Chef de Cuisine (le routeur) regarde chaque ingrédient (chaque petit morceau de l'image).

Si le morceau est un fond uni (comme un ciel bleu), le Chef l'envoie à l'Expert Fond.
Si le morceau est une texture complexe (comme le pelage d'un animal), il l'envoie à l'Expert Texture.
Si le morceau semble avoir une anomalie (une tache bizarre), il l'envoie à l'Expert Anomalie.

Chaque expert est un petit cerveau (un module LoRA) très léger et spécialisé. Ils ne font que ce qu'ils savent faire de mieux.

2. Le Problème des Experts Qui Se Copient

Dans les systèmes précédents, même si on avait plusieurs experts, ils finissaient souvent par apprendre la même chose (comme si les 4 experts du restaurant étaient tous des experts en "pâtes"). C'est du gaspillage.

Pour éviter cela, MoECLIP utilise deux astuces magiques :

La Séparation des Tables (FOFS) : Au moment où les ingrédients arrivent, on les force à s'asseoir à des tables différentes. L'Expert 1 ne voit que les textures, l'Expert 2 ne voit que les formes. Ils ne peuvent pas se copier car ils regardent des choses différentes dès le début.
La Règle de l'Équidistance (ETF) : À la fin du repas, on vérifie que les opinions des experts sont bien différentes. Si l'Expert 1 dit "C'est une tache" et que l'Expert 2 dit "C'est une tache", on les punit ! On les force à avoir des avis très distincts (comme des points sur un cercle qui sont tous également espacés). Cela garantit que chaque expert apporte quelque chose d'unique.

Pourquoi c'est une Révolution ?

Précision Chirurgicale : Au lieu de regarder l'image d'un seul bloc, le système regarde chaque petit détail avec l'expert le plus adapté. C'est comme avoir un microscope pour les détails fins et un télescope pour les grandes structures, tout en même temps.
Généralisation Puissante : Comme les experts sont spécialisés mais légers, le système peut apprendre sur des objets industriels (comme des vis ou des tissus) et fonctionner très bien sur des objets médicaux (comme des radios de cerveau) sans avoir besoin de se réentraîner. C'est comme un médecin qui, après avoir vu des milliers de cas de fractures, sait immédiatement repérer une fracture sur un os qu'il n'a jamais vu, car il a appris la structure de la fracture, pas juste l'os.
Résultats Record : Les tests montrent que cette méthode bat tous les records précédents, aussi bien pour détecter des défauts dans des usines que pour repérer des maladies dans des hôpitaux.

En Résumé

MoECLIP remplace le "couteau suisse" (qui fait tout moyennement bien) par une équipe d'experts (chacun excellent dans son domaine).

L'entrée : Chaque morceau d'image est dirigé vers l'expert qui le comprend le mieux.
La règle : Les experts sont forcés de rester différents pour ne pas se copier.
Le résultat : Une détection d'anomalies ultra-rapide, ultra-précise, capable de voir l'invisible dans n'importe quel domaine, du textile à la médecine.

C'est une avancée majeure pour rendre l'intelligence artificielle plus intelligente, plus efficace et plus capable de nous aider à sauver des vies ou à améliorer la qualité de nos produits.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La Détection d'Anomalies Zero-Shot (ZSAD) vise à identifier des anomalies dans des catégories d'objets jamais vues lors de l'entraînement, en s'appuyant sur des modèles pré-entraînés comme CLIP (Contrastive Language-Image Pre-training). Bien que CLIP offre une excellente généralisation, il présente deux limites majeures pour cette tâche :

Inadéquation pour les anomalies locales : CLIP est pré-entraîné pour la compréhension sémantique globale, ce qui le rend sous-optimal pour détecter des anomalies localisées (défauts de surface, lésions médicales).
Limitation des approches existantes : Les méthodes actuelles (comme AdaCLIP, AnomalyCLIP) adaptent CLIP de manière agnostique aux patches (patch-agnostic). Elles appliquent une transformation uniforme à tous les patches d'une image, ignorant le fait que différentes régions (composants d'objets, arrière-plan, textures) possèdent des caractéristiques uniques nécessitant des traitements différents.

L'objectif est donc de spécialiser le modèle pour la détection d'anomalies tout en préservant la capacité de généralisation puissante de CLIP, sans sur-ajustement (overfitting) sur les données d'entraînement auxiliaires.

2. Méthodologie : MoECLIP

Les auteurs proposent MoECLIP, une architecture innovante intégrant un mécanisme de Mélange d'Experts (MoE) directement dans l'encodeur visuel de CLIP.

A. Architecture de Base

Adaptation par LoRA : Pour éviter de figer les poids de CLIP et de sur-entraîner, MoECLIP utilise des modules Low-Rank Adaptation (LoRA) légers comme experts. Les poids de CLIP restent figés.
Routage Dynamique par Patch : Au lieu d'appliquer une adaptation uniforme, un module de routage (Router) analyse chaque patch d'image individuellement et le dirige dynamiquement vers l'expert LoRA le plus approprié selon ses caractéristiques uniques.

B. Mécanismes de Spécialisation des Experts

Pour éviter que les experts ne deviennent redondants (c'est-à-dire qu'ils apprennent tous la même fonction), deux mécanismes complémentaires sont introduits :

Séparation Orthogonale des Features Gelée (FOFS - Frozen Orthogonal Feature Separation) :
- Appliquée à l'entrée des experts.
- L'espace des features d'entrée est divisé en $K$ sous-espaces orthogonaux non chevauchants.
- La matrice de projection descendante ( $A$ ) de chaque expert LoRA est initialisée comme une matrice orthogonale bloquée sur un sous-espace spécifique et gelée (non apprenable).
- Cela force chaque expert à se concentrer sur une partie distincte de l'information dès le départ, empêchant l'apprentissage de connaissances redondantes.
Perte de Cadre Équiangulaire Simplexe (ETF Loss) :
- Appliquée à la sortie des experts.
- Une fonction de perte régularise les sorties des experts pour qu'elles forment une structure de Simplex Equiangular Tight Frame (ETF).
- Cela maximise l'angle entre les vecteurs de sortie des différents experts (les rendant aussi distincts que possible), assurant une différenciation fonctionnelle claire même si les entrées se chevauchent légèrement.

C. Agrégation Multi-échelle (PAA)

Pour pallier la division fixe des patches de CLIP qui limite la détection d'anomalies de tailles variées, un module Patch Average Aggregation (PAA) est utilisé. Il agrège les features des patches voisins via des fenêtres glissantes de différentes tailles ( $s \in \{1, 3, 5\}$ ), permettant de capturer le contexte local et d'intégrer des motifs d'anomalies fragmentés.

3. Contributions Clés

Première architecture MoE pour la ZSAD : Introduction d'un paradigme d'adaptation au niveau du patch, où chaque patch est routé vers un expert spécialisé, rompant avec les approches uniformes précédentes.
Mécanismes de Spécialisation Innovants : Développement de la FOFS (séparation orthogonale à l'entrée) et de la perte ETF (diversité à la sortie) pour garantir que les experts LoRA apprennent des fonctions distinctes et non redondantes.
Performance État-de-l'Art (SOTA) : Démonstration de performances supérieures sur 14 jeux de données de référence couvrant à la fois les domaines industriels (MVTec-AD, VisA) et médicaux (IRM, CT, OCT, Colonoscopie).

4. Résultats Expérimentaux

Les expériences ont été menées sur 14 datasets (5 industriels, 9 médicaux) avec un entraînement sur VisA (industriel) et une évaluation Zero-Shot sur les autres.

Performance Globale : MoECLIP surpasse les méthodes SOTA existantes (WinCLIP, AnomalyCLIP, AA-CLIP, etc.).
- Industriel : Amélioration de +3,0 % en AUROC et +2,4 % en AP au niveau de l'image.
- Médical : Performance robuste même lors du transfert d'un domaine industriel vers un domaine médical, prouvant la généralisation des experts spécialisés.
Analyse de l'Ablation :
- La suppression de FOFS ou de la perte ETF entraîne une baisse de performance, confirmant leur rôle complémentaire pour éliminer la redondance fonctionnelle.
- L'analyse de similarité entre experts montre que sans ces mécanismes, les experts sont très similaires (redondance), tandis que MoECLIP force une différenciation quasi nulle (similarité proche de 0).
Visualisation : Les cartes de Grad-CAM montrent que les différents experts se concentrent sur des régions distinctes (ex: Expert 1 sur l'anomalie, Expert 2 sur le corps de l'objet, Expert 3 sur l'arrière-plan), validant le routage basé sur le contenu.

5. Signification et Impact

MoECLIP représente une avancée significative dans le domaine de la détection d'anomalies sans supervision :

Changement de Paradigme : Il passe d'une adaptation globale de l'image à une adaptation granulaire et dynamique au niveau du patch.
Efficacité et Généralisation : En combinant la légèreté du LoRA avec une spécialisation stricte des experts, le modèle évite le sur-ajustement tout en capturant des motifs d'anomalies complexes et variés.
Applicabilité Large : La capacité à performer aussi bien sur des défauts industriels que sur des lésions médicales, même avec un entraînement croisé entre domaines, ouvre la voie à des systèmes de détection d'anomalies plus robustes et universels.

En résumé, MoECLIP résout le problème fondamental de l'adaptation uniforme en introduisant une spécialisation dynamique et contrôlée, établissant une nouvelle référence pour la détection d'anomalies Zero-Shot.