When Anomalies Depend on Context: Learning Conditional Compatibility for Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Quand le contexte change la règle du jeu

Imaginez que vous êtes un gardien de sécurité très strict. Votre travail est de repérer les choses "bizarres".

Si vous voyez une voiture sur une autoroute, vous dites : "Tout va bien, c'est normal."
Mais si vous voyez la même voiture (exactement la même, même couleur, même modèle) au milieu d'un salon de cuisine, vous criez : "C'est une anomalie ! C'est bizarre !"

Le problème avec les anciennes méthodes de détection d'anomalies (les "gardiens" des ordinateurs), c'est qu'elles étaient un peu trop bêtes. Elles regardaient la voiture et disaient : "Ah, une voiture ! C'est normal." Elles ne se souciaient pas de où elle se trouvait. Elles pensaient que la voiture était "normale" en elle-même, peu importe le décor.

Mais dans la vraie vie, le contexte est roi. Une chose peut être parfaitement normale dans un endroit, et dangereuse ou bizarre dans un autre.

🛠️ La Solution : Le nouveau détective "CoRe-CLIP"

Les auteurs de ce papier ont créé un nouveau système, qu'ils appellent CoRe-CLIP. Au lieu de juste regarder l'objet, ce nouveau détective pose deux questions :

Qui est cet objet ? (Le sujet)
Où est-il ? (Le contexte)
Est-ce que ces deux-là s'entendent bien ? (La compatibilité)

C'est comme un chef cuisinier :

Si vous mettez du chocolat dans un gâteau, c'est délicieux (Normal).
Si vous mettez du chocolat dans une soupe, c'est bizarre (Anomalie).
Le chocolat n'a pas changé, c'est son association avec la soupe qui pose problème. CoRe-CLIP comprend cette logique.

🧪 Le Terrain de Jeu : CAAD-3K

Pour entraîner ce détective, les chercheurs ont dû créer un nouveau jeu d'entraînement spécial appelé CAAD-3K.
Imaginez un studio de cinéma où l'on filme des scènes :

On prend un acteur (par exemple, un enfant).
On le filme dans un parc (Scène A) : C'est normal.
On le filme sur une autoroute (Scène B) : C'est dangereux/anormal.

Le défi était de créer un jeu de données où l'acteur reste le même, mais où le décor change radicalement, pour forcer l'ordinateur à apprendre que c'est le mélange qui est le problème, pas l'acteur lui-même.

🧠 Comment ça marche ? (L'analogie du Chef d'Orchestre)

Le système CoRe-CLIP fonctionne un peu comme un chef d'orchestre qui écoute trois musiciens différents en même temps :

Le musicien "Sujet" : Il regarde uniquement l'objet (la voiture, l'enfant).
Le musicien "Contexte" : Il regarde uniquement le décor (l'autoroute, le parc).
Le musicien "Global" : Il regarde l'image entière.

Le chef d'orchestre (le module de raisonnement) écoute ces trois musiciens et utilise le langage (des mots écrits comme "voiture sur autoroute" vs "voiture dans un salon") pour décider :

"Attends, le musicien 'Sujet' dit que c'est une voiture. Le musicien 'Contexte' dit que c'est un salon. Le chef d'orchestre dit : Non, ça ne va pas ensemble !"

C'est cette capacité à écouter les trois voix et à les comparer avec le sens des mots qui rend le système si intelligent.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé leur détective sur plusieurs épreuves :

Sur leur nouveau jeu (CAAD-3K) : Il a écrasé tous les autres systèmes. Il a compris que la voiture dans le salon était bizarre, alors que les autres systèmes ne voyaient que la voiture.
Sur les jeux classiques (MVTec-AD, VisA) : Ces jeux contiennent des défauts physiques (comme une rayure sur une pièce métallique). Même si CoRe-CLIP est fait pour le contexte, il est aussi excellent pour voir les rayures. C'est comme un détective qui est bon pour trouver des suspects cachés et pour repérer des faux billets.

💡 En résumé

Ce papier nous dit qu'il ne suffit plus de regarder un objet pour savoir s'il est bizarre. Il faut regarder où il se trouve.

L'ancienne idée : "C'est une pomme, donc c'est normal."
La nouvelle idée (CoRe-CLIP) : "C'est une pomme, mais elle est dans une machine à laver. C'est une anomalie !"

C'est une avancée majeure pour rendre les intelligences artificielles plus intelligentes et plus sûres, capables de comprendre la logique du monde réel et pas seulement la forme des objets.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La détection d'anomalies en vision par ordinateur repose traditionnellement sur l'hypothèse que l'anormalité est une propriété intrinsèque d'une observation (par exemple, une rayure sur une pièce industrielle ou une texture inhabituelle). Dans cette approche, un échantillon est considéré comme anormal s'il s'écarte de la distribution des données normales, indépendamment de son environnement.

Cependant, les auteurs identifient une limitation fondamentale de cette hypothèse dans de nombreux scénarios réels : l'anomalie est souvent contextuelle. Un objet ou une action peut être parfaitement normal dans un environnement donné, mais devenir anormal dans un autre.

Exemple : Une personne courant dans un parc est normale, mais courir sur une autoroute est une anomalie contextuelle.
Défi : Les modèles actuels, entraînés sur des hypothèses d'étiquettes intrinsèques, échouent à distinguer ces cas car ils tendent à "effondrer" les distinctions dépendantes du contexte. Lorsque les étiquettes dépendent de la relation entre un sujet et son contexte plutôt que de l'apparence seule, les représentations intrinsèques deviennent non identifiables (un même vecteur de caractéristiques peut correspondre à une étiquette normale ou anormale selon le contexte).

2. Méthodologie : CoRe-CLIP et Apprentissage de Compatibilité Conditionnelle

Pour résoudre ce problème, les auteurs proposent de reformuler la détection d'anomalies comme un problème d'apprentissage de compatibilité conditionnelle. Au lieu de déterminer si une observation est globalement anormale, le modèle évalue si un sujet est compatible avec son contexte environnant.

Le modèle proposé, nommé CoRe-CLIP, s'appuie sur des représentations vision-langage (basées sur CLIP) et intègre trois composantes clés :

A. Décomposition des Représentations

Le modèle décompose l'image d'entrée en trois vues complémentaires pour éviter l'entrelacement des informations :

Représentation centrée sur le sujet ( $z_s$ ) : Se concentre sur l'entité principale (foreground).
Représentation centrée sur le contexte ( $z_c$ ) : Capture les informations de l'arrière-plan et de la scène.
Représentation globale ( $z_g$ ) : Une vue holistique de l'image complète.

B. Raffinement Adaptatif (CSR et Text Refinement)

Context-Selective Residuals (CSR) : Des adaptateurs résiduels légers et spécifiques à chaque branche (sujet, contexte, global) sont appliqués pour affiner les caractéristiques visuelles tout en préservant l'alignement pré-entraîné de CLIP. Cela permet au modèle d'apprendre des relations sujet-contexte sans réapprendre toute l'architecture.
Raffinement du Texte : L'encodeur de texte est adapté pour produire des paires d'embeddings ( $\tilde{t}_0, \tilde{t}_1$ ) représentant les états sémantiques "normal" et "anormal" pour une même classe, en fonction du contexte. Des objectifs de perte (orthogonalité, cohérence intra-classe, ancrage image-texte) assurent que ces états sont bien séparés mais sémantiquement liés.

C. Module de Raisonnement de Compatibilité (CRM)

C'est le cœur de l'architecture. Le CRM fusionne les représentations visuelles raffinées ( $\tilde{z}_s, \tilde{z}_c, \tilde{z}_g$ ) en utilisant une attention conditionnée par le texte.

Le module calcule des poids d'attention dynamiques basés sur les embeddings textuels (normal vs anormal).
Cela permet au modèle de décider intelligemment de pondérer le sujet ou le contexte selon la nature de l'anomalie potentielle (ex: si l'anomalie vient d'un objet hors de propos, le poids du contexte augmente ; si c'est un objet défectueux, le poids du sujet peut dominer).
Le score d'anomalie final est obtenu en comparant la représentation fusionnée avec les embeddings textuels normal/anormal.

3. Contributions Clés

Formulation du Problème : Passage d'une détection d'anomalies basée sur l'apparence à une détection basée sur la compatibilité conditionnelle sujet-contexte, résolvant le problème de non-identifiabilité des représentations intrinsèques.
Benchmark CAAD-3K : Introduction d'un nouveau benchmark de 3 000 images conçu spécifiquement pour isoler les anomalies contextuelles.
- Il contrôle l'identité du sujet tout en variant le contexte.
- Il inclut une division CAAD-CC (Cross-Context) pour évaluer la généralisation à des combinaisons sujet-contexte jamais vues lors de l'entraînement.
Framework CoRe-CLIP : Un modèle vision-langage qui atteint des performances de pointe (SOTA) en raison de son architecture multi-branche et de son raisonnement relationnel explicite.

4. Résultats Expérimentaux

Les expériences montrent que CoRe-CLIP surpasse largement les méthodes existantes (y compris les approches basées sur CLIP comme WinCLIP, AnomalyCLIP, AdaCLIP) :

Sur CAAD-3K : Le modèle obtient des performances exceptionnelles en configuration "few-shot" (1, 2, 4 images par classe), avec un I-AUROC de 87,3% et un P-AUROC de 98,3% en 4-shot sur la division cross-context. Il démontre une robustesse supérieure là où les méthodes basées sur l'apparence échouent.
Généralisation aux Benchmarks Standards :
- Sur MVTec-AD et VisA (benchmarks d'anomalies structurelles/texture), CoRe-CLIP atteint des performances SOTA ou compétitives (ex: 94,2% I-AUROC sur MVTec-AD), prouvant que l'ajout de la logique contextuelle ne dégrade pas la détection d'anomalies purement structurelles.
- Le modèle s'adapte automatiquement : pour les datasets sans variation contextuelle forte, il réduit sa complexité à une branche unique.
Détection Out-of-Context (OOC) : Sur des benchmarks réels comme MIT-OOC et COCO-OOC, CoRe-CLIP surpasse les méthodes classiques et les approches "zero-shot" fondées sur des modèles de base, atteignant 95,6% et 97,2% de précision respectivement, sans aucun ajustement spécifique au dataset.

5. Signification et Impact

Ce travail marque un changement de paradigme dans la détection d'anomalies :

Au-delà de l'apparence : Il démontre que pour des applications réelles (surveillance, inspection industrielle, robotique), la compréhension de la sémantique relationnelle (l'adéquation entre un objet et son environnement) est aussi cruciale que la détection de défauts visuels.
Robustesse : En modélisant explicitement le contexte, le système réduit les faux positifs générés par les détecteurs agnostiques au contexte qui pourraient signaler un objet normal comme anormal simplement parce qu'il est dans un environnement inhabituel (ou vice-versa).
Fondation pour l'avenir : La méthode ouvre la voie à des systèmes de perception plus intelligents capables de raisonner sur la cohérence fonctionnelle et comportementale dans des environnements ouverts et dynamiques.

En résumé, l'article propose une solution élégante et efficace pour détecter les anomalies qui ne sont pas "dans l'image", mais "entre l'image et son contexte", en exploitant la puissance des modèles vision-langage pour un raisonnement relationnel conditionnel.