FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un inspecteur de qualité dans une usine de jouets. Votre travail consiste à repérer les défauts sur les peluches, les voitures en plastique ou les robots.

Le problème classique :
Habituellement, pour apprendre à votre inspecteur à repérer un défaut, vous devez lui montrer des milliers de peluches parfaites. Il apprend à connaître la "norme". Mais que se passe-t-il si vous devez inspecter un nouveau type de jouet (un robot) que vous n'avez jamais vu, et que vous n'avez pas le temps de lui montrer des milliers d'exemples ? C'est le cauchemar des méthodes traditionnelles : elles sont bloquées si elles n'ont pas assez de données d'entraînement.

La solution de FiLo++ (Le Super-Inspecteur) :
Les chercheurs ont créé une méthode appelée FiLo++. C'est comme donner à votre inspecteur un cerveau surpuissant capable de comprendre le monde, même sans avoir vu le jouet spécifique auparavant. Voici comment ça marche, en utilisant des analogies simples :

1. Le Cerveau de l'Inspecteur : FusDes (La Description Fine)

Avant, les inspecteurs utilisaient des étiquettes très vagues comme "Défectueux" ou "Normal". C'est comme dire à un garde : "Arrête tout ce qui a l'air bizarre". C'est trop flou !

FiLo++ utilise une Intelligence Artificielle Générative (comme un chatbot très intelligent) pour créer des descriptions précises.

L'analogie : Imaginez que vous ne dites pas juste "Ceci est un robot". Vous demandez à l'IA : "Quels types de défauts peuvent avoir un robot ?". L'IA répond : "Une antenne tordue, un œil cassé, une roue manquante, une peinture écaillée...".
Le filtre intelligent : L'IA génère parfois trop d'idées, certaines n'ont aucun sens pour l'image actuelle. FiLo++ a un filtre en temps réel qui trie ces idées, comme un chef de cuisine qui ne garde que les ingrédients frais pour le plat du jour. Cela permet de créer une "fiche d'identité" du défaut très précise, adaptée à l'objet exact.

2. Le Radar de Précision : DefLoc (La Localisation Déformable)

Une fois qu'on sait quoi chercher, il faut savoir où c'est. Les anciennes méthodes regardaient l'image par petites cases carrées (comme une grille de sudoku).

Le problème : Si un défaut est une longue fissure courbe ou une tache bizarre, les cases carrées ne collent pas bien. C'est comme essayer de mesurer une rivière avec des règles carrées : ça ne marche pas.
La solution FiLo++ :
1. Le premier coup d'œil (Grounding DINO) : Le système utilise un outil qui sait repérer les objets principaux (comme le robot lui-même) et ignore le fond (la table, le mur). C'est comme dire à l'inspecteur : "Regarde seulement le robot, ignore la table."
2. Les lunettes de position : Le système ajoute des indices de position dans la description. Au lieu de dire "antenne cassée", il dit "antenne cassée en haut à gauche".
3. Les mains flexibles (Convolution Déformable) : Au lieu d'utiliser des grilles rigides, FiLo++ utilise des "mains" qui peuvent s'étirer et changer de forme pour épouser exactement la forme du défaut, qu'il soit rond, long, ou en zigzag.

3. L'Apprentissage Rapide (Few-Shot)

Parfois, vous avez juste une ou deux photos de robots parfaits pour montrer à l'inspecteur à quoi ils ressemblent.

FiLo++ utilise ces quelques photos pour affiner sa recherche. Grâce à la localisation précise (DefLoc), il ne perd pas de temps à comparer les zones inutiles. Il se concentre uniquement sur les zones suspectes, rendant l'inspection ultra-rapide et précise, même avec très peu d'exemples.

En résumé, pourquoi est-ce génial ?

Zéro préparation : Vous pouvez inspecter un objet nouveau immédiatement, sans entraînement long.
Compréhension humaine : Le système ne dit pas juste "Erreur". Il peut dire : "Il y a une rayure sur le côté droit du robot". C'est beaucoup plus facile à comprendre pour un humain.
Précision chirurgicale : Il trouve les défauts, même ceux qui ont des formes bizarres, sans se tromper avec le fond de l'image.

L'analogie finale :
Si les anciennes méthodes étaient comme un chien de garde qui aboie à tout ce qui bouge (beaucoup de fausses alertes), FiLo++ est comme un détective privé avec un manuel d'instructions ultra-détaillé, des lunettes de vision nocturne et une carte précise du crime. Il sait exactement ce qu'il cherche, où chercher, et ne se laisse pas distraire par le bruit ambiant.

C'est une avancée majeure pour l'industrie (usines), la médecine (repérer des tumeurs sur des radios sans avoir vu tous les cas possibles) et la sécurité routière.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La détection d'anomalies traditionnelle repose sur l'apprentissage d'une seule classe (One-Class Classification), nécessitant de nombreux échantillons normaux pour l'entraînement. Cette approche échoue dans des scénarios de démarrage à froid (cold start) ou lorsque la collecte de données est difficile.

Les méthodes récentes de détection d'anomalies en zéro-shot (ZSAD) et few-shot (FSAD) utilisent des modèles multimodaux pré-entraînés (comme CLIP) pour comparer la similarité image-texte. Cependant, ces méthodes souffrent de deux limitations majeures :

Descriptions génériques insuffisantes : Les prompts textuels manuels (ex: "anormal" vs "normal") sont trop vagues pour capturer la diversité des types d'anomalies spécifiques à chaque objet.
Localisation imprécise : La correspondance simple entre des patches d'images et des textes échoue souvent à localiser des régions anormales de formes et de tailles variées, générant de faux positifs dans les zones d'arrière-plan.

2. Méthodologie : FiLo++

FiLo++ est une extension de l'approche FiLo, conçue pour surmonter ces limites grâce à deux modules principaux : FusDes (Fused Fine-Grained Descriptions) et DefLoc (Deformable Localization).

A. Module FusDes (Fused Fine-Grained Descriptions)

Ce module vise à améliorer la détection globale en générant des descriptions textuelles plus précises et adaptées à la tâche.

Génération par LLM : Utilisation de grands modèles de langage (LLM, ex: GPT-4) pour générer des descriptions d'anomalies spécifiques à chaque catégorie d'objet, remplaçant les termes génériques.
Templates Hybrides : Combinaison de templates fixes (conçus par l'homme) et de templates apprenables (vecteurs de texte adaptatifs). Cela permet d'ajuster le prompt pour mieux distinguer le normal de l'anormal.
Filtrage des Prompts en Temps d'Exécution (Runtime Prompt Filtering) : Une stratégie pour éliminer les descriptions textuelles "bruitées" qui créent une ambiguïté sémantique (recouvrement des distances cosinus entre normal et anormal). Cela affine les caractéristiques textuelles finales ( $T_n$ et $T_a$ ).

B. Module DefLoc (Deformable Localization)

Ce module vise à localiser précisément les anomalies de formes et tailles variées.

Localisation Initiale (Grounding DINO) : Utilisation du modèle de fondation Grounding DINO pour obtenir des boîtes englobantes initiales. Cela permet de filtrer l'arrière-plan et de concentrer l'analyse sur les objets d'intérêt, réduisant les faux positifs.
Prompts Textuels Renforcés par la Position : Les coordonnées des boîtes englobantes sont intégrées dans les descriptions textuelles (ex: "anomalie en haut à gauche"), rendant le texte plus aligné avec l'image.
Module MDCI (Multi-scale Deformable Cross-modal Interaction) : Au lieu d'utiliser des convolutions fixes, ce module utilise des convolutions déformables à plusieurs échelles. Il agrège les caractéristiques des patches d'image de manière flexible pour s'adapter aux contours irréguliers des défauts, guidé par les caractéristiques textuelles.
Branche Few-Shot : Pour les scénarios few-shot, une correspondance de patches est contrainte par les résultats de localisation initiaux de DefLoc, améliorant la précision avec peu d'échantillons.

3. Contributions Clés

FusDes : Une approche innovante fusionnant les connaissances des LLM, des templates fixes/apprenables et un filtrage dynamique pour générer des descriptions textuelles ultra-précises, améliorant à la fois la précision et l'interprétabilité.
DefLoc : Un mécanisme de localisation robuste intégrant Grounding DINO, des descriptions enrichies par la position et des convolutions déformables multi-échelles pour gérer la variabilité morphologique des défauts.
Performance Unifiée : FiLo++ est capable de fonctionner efficacement en zéro-shot (sans données cibles) et en few-shot (avec 1 à 4 échantillons), surpassant les méthodes existantes sur des tâches industrielles et médicales.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs jeux de données industriels (MVTec-AD, VisA) et médicaux (BrainMRI, RESC).

Zéro-Shot (ZSAD) :
- Sur VisA, FiLo++ atteint un AUC image de 84,5 % et un AUC pixel de 96,2 %, surpassant les méthodes de pointe comme AnomalyCLIP et WinCLIP.
- Sur MVTec-AD, il obtient un AUC image de 92,1 % et un AUC pixel de 92,8 %.
Few-Shot (FSAD) :
- En configuration 1-shot, FiLo++ atteint 95,0 % (AUC image) et 96,2 % (AUC pixel) sur MVTec-AD, surpassant PatchCore et AnomalyGPT.
- La méthode démontre une forte efficacité même avec très peu d'échantillons, avec des gains significatifs par rapport aux approches basées uniquement sur la correspondance de patches.
Généralisation Médicale :
- Sur les datasets médicaux, FiLo++ surpasse largement les méthodes génériques (WinCLIP) et spécialisées (MedCLIP), prouvant sa capacité à s'adapter à des domaines non industriels grâce à la génération de descriptions spécifiques.
Efficacité : L'ajout de convolutions déformables n'entraîne qu'une augmentation marginale du temps d'inférence (+32 ms) et de la mémoire, justifiant le gain de performance.

5. Signification et Impact

FiLo++ représente une avancée significative dans le domaine de la détection d'anomalies sans supervision intensive.

Interprétabilité : En générant des descriptions textuelles spécifiques (ex: "trou", "fissure"), le modèle permet non seulement de détecter l'anomalie mais aussi de l'identifier sémantiquement.
Robustesse Morphologique : L'utilisation de convolutions déformables résout le problème de la localisation de défauts aux formes irrégulières, un défi majeur pour les méthodes basées sur des grilles fixes.
Adaptabilité : La capacité à fonctionner en zéro-shot et few-shot avec une haute précision rend cette technologie particulièrement pertinente pour l'industrie 4.0 (lignes de production changeantes) et le diagnostic médical rapide, où la collecte de données massives est souvent impossible.

En résumé, FiLo++ démontre que l'intégration stratégique de modèles de langage (LLM) et de modèles de vision de fondation (Grounding DINO) avec des mécanismes d'interaction croisée avancés permet de repousser les limites actuelles de la détection d'anomalies.

FiLo++: Zero-/Few-Shot Anomaly Detection by Fused Fine-Grained Descriptions and Deformable Localization

1. Le Cerveau de l'Inspecteur : FusDes (La Description Fine)

2. Le Radar de Précision : DefLoc (La Localisation Déformable)

3. L'Apprentissage Rapide (Few-Shot)

En résumé, pourquoi est-ce génial ?

1. Problématique

2. Méthodologie : FiLo++

A. Module FusDes (Fused Fine-Grained Descriptions)

B. Module DefLoc (Deformable Localization)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization