Auteurs originaux : Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Publié 2026-05-15✓ Author reviewed ⓘ

📖 5 min de lecture🧠 Analyse approfondie

CC BY 4.0

Auteurs originaux : Lukas Roming, Felix Lehnerer, Jonas V. Funk, Andreas Michel, Georg Maier, Thomas Längle, Jürgen Beyerer

Article original sous licence CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). ✨ Ceci est une explication générée par l'IA de l'article ci-dessous. Elle n'a pas été rédigée par les auteurs. Pour une précision technique, consultez l'article original. Lire la clause de non-responsabilité complète

Imaginez que vous êtes le responsable du contrôle qualité dans une usine massive. Votre travail consiste à repérer de minuscules défauts sur des produits défilant sur un convoyeur. Habituellement, vous disposez d'une équipe d'experts qui ont étudié des milliers de produits parfaits. Ils savent exactement à quoi devrait ressembler une prise murale, un morceau de tissu ou un pot de confiture « parfaits ». S'ils voient quelque chose qui ne correspond pas à cette mémoire parfaite, ils le signalent comme un défaut.

Cependant, il y a un piège : l'éclairage de l'usine change constamment. Parfois il est vif, parfois tamisé, parfois les ombres sont étranges. Cela confond les experts car le même produit parfait apparaît différemment sous des lumières variées. Ils pourraient commencer à crier « Défaut ! » alors qu'il ne s'agit en réalité que d'une ombre, ou pire, ils pourraient manquer une véritable fissure parce que la lumière la dissimule.

Ce papier présente un nouveau système ultra-intelligent appelé SuperADD, conçu pour résoudre exactement ce problème. Voici comment il fonctionne, décomposé en concepts simples :

1. Le super-pouvoir « Sans entraînement »

La plupart des systèmes d'IA sont comme des élèves qui doivent passer des mois en classe pour apprendre à quoi ressemble un défaut pour chaque produit spécifique. Si vous introduisez un nouveau produit ou changez l'éclairage, vous devez les renvoyer à l'école pour tout réapprendre.

SuperADD est différent. C'est comme un détective qui n'a pas besoin d'étudier le produit spécifique à l'avance. Il utilise un « cerveau » pré-entraîné (appelé DINOv3) qui a déjà vu des millions d'images provenant d'Internet. Il sait à quoi ressemblent généralement les textures et les formes « normales ». Parce qu'il n'a pas besoin d'être re-entraîné pour chaque nouvelle ligne d'usine, il peut être déployé instantanément. C'est une solution « plug-and-play ».

2. La stratégie de la « Banque de Mémoire »

Au lieu d'essayer de mémoriser chaque image parfaite individuelle, le système construit une Banque de Mémoire.

Imaginez que vous preniez une photo d'une prise murale parfaite.
Le système découpe cette photo en milliers de minuscules pièces de puzzle (patchs).
Il sauvegarde l'« essence » de ces pièces dans une immense bibliothèque (la Banque de Mémoire).
Lorsqu'un nouveau produit arrive sur la ligne, le système le découpe en les mêmes pièces de puzzle et demande : « Ai-je une correspondance parfaite pour cette pièce dans ma bibliothèque ? »
Si une pièce ne correspond à rien dans la bibliothèque, elle est signalée comme étrange (une anomalie).

3. L'astuce du « Puzzle Chevauchant »

La version originale de ce système avait un problème : elle examinait le produit en grands blocs non chevauchants. Si un défaut se trouvait exactement sur la ligne entre deux blocs, le système pourrait le manquer ou se confondre, comme essayer de lire un mot coupé en deux par la reliure d'un livre.

SuperADD résout cela en utilisant des patchs chevauchants. Imaginez regarder le produit à travers une fenêtre qui glisse, mais cette fenêtre est si grande qu'elle chevauche la vue précédente. Cela garantit que peu importe où se trouve un défaut, il est vu clairement sous plusieurs angles, rendant le système beaucoup plus fiable.

4. Le « Simulateur d'Éclairage »

Pour se préparer aux changements d'éclairage de l'usine, le système ne regarde pas simplement les photos d'entraînement telles quelles. Il assombrit et éclaircit artificiellement les images pendant sa phase de configuration. C'est comme s'entraîner pour un examen en étudiant dans une pièce sombre, puis dans une pièce lumineuse, et enfin dans une pièce avec des lumières clignotantes. Cela entraîne le système à ignorer les changements d'éclairage et à se concentrer uniquement sur la forme et la texture réelles du produit.

5. La « Fermeture Morphologique » (La Colle)

Parfois, le système repère un défaut, mais le résultat ressemble à une ligne brisée et pointillée au lieu d'une rayure solide. C'est comme voir une rayure sur une voiture mais seule la partie centrale est mise en évidence.

Pour corriger cela, SuperADD utilise une étape appelée Fermeture Morphologique. Imaginez cela comme une colle magique. Elle examine les points de surlignage brisés et pointillés et connecte doucement les points pour former une forme solide et lisse. Elle comble également les tout petits trous à l'intérieur de la zone du défaut, garantissant que le rapport final présente une image complète et nette du problème.

Les Résultats

Le système a été testé lors d'une compétition difficile (la piste industrielle VAND 4.0) en utilisant un ensemble de données appelé MVTec AD 2, qui inclut des éléments délicats comme des boîtes métalliques brillantes, des bocaux transparents et des tas de riz.

Le Défi : Les données de test présentaient des conditions d'éclairage différentes de celles des données d'entraînement, et le système devait fonctionner sur tous les types d'objets différents en utilisant les mêmes paramètres (sans réglage personnalisé pour chaque objet).
Le Résultat : SuperADD a gagné. Il a obtenu les scores les plus élevés parmi tous les concurrents.
- Il a correctement identifié les défauts dans le Tissu environ 88 % du temps.
- Il a correctement identifié les défauts dans le Riz environ 74 % du temps.
- Plus important encore, il a battu les méthodes précédentes les meilleures, prouvant que vous n'avez pas besoin d'une IA complexe et entraînée sur mesure pour chaque produit individuel pour obtenir d'excellents résultats.

Résumé

SuperADD est une méthode intelligente, flexible et rapide pour repérer les défauts d'usine sans avoir besoin de ré-entraîner l'IA pour chaque nouveau produit ou changement d'éclairage. Il utilise un cerveau pré-entraîné, examine les produits en pièces chevauchantes pour éviter de manquer des détails, s'entraîne avec de faux changements d'éclairage pour rester robuste, et utilise de la « colle » pour s'assurer que la carte finale des défauts est propre et complète. C'est une solution « taille unique » qui convient en réalité très bien.

Résumé Technique : SuperADD – Segmentation d'Anomalies sans Apprentissage et Agnostique aux Classes

1. Énoncé du Problème

L'article aborde la Détection d'Anomalies Visuelles (AD) dans le cadre de l'inspection industrielle, ciblant spécifiquement le défi des décalages de distribution causés par des conditions d'acquisition variables (par exemple, des changements d'éclairage) entre l'entraînement et le déploiement. Ce travail s'inscrit dans la Voie Industrielle VAND 4.0, qui utilise le jeu de données MVTec AD 2.

Les contraintes et défis clés incluent :

Cadre Non Supervisé : Les modèles sont entraînés exclusivement sur des images normales (sans défaut).
Robustesse : Les modèles doivent maintenir leurs performances malgré des changements d'apparence significatifs (éclairage, variabilité de texture) entre les ensembles d'entraînement et de test.
Exigence d'Agnosticisme des Classes : Contrairement aux itérations précédentes (VAND 3.0) où des architectures ou hyperparamètres spécifiques aux classes étaient courants, le défi impose une architecture unique et une configuration d'hyperparamètres partagée pour toutes les classes d'objets afin d'assurer une déployabilité pratique et un effort d'adaptation minimal.
Évaluation : La performance est mesurée par le score F1 au niveau des pixels et l'AU-ROC sur des partitions de test privées (TESTpriv et TESTpriv,mix), où la vérité terrain est cachée pour prévenir le surapprentissage.

2. Méthodologie

La méthode proposée, SuperADD, est un pipeline sans apprentissage construit sur le cadre SuperAD, lui-même inspiré par PatchCore. Il exploite un backbone Vision Transformer pré-entraîné et figé pour extraire des caractéristiques et effectue une détection d'anomalies par plus proche voisin sans mettre à jour les poids du modèle.

2.1. Architecture et Extraction de Caractéristiques

Backbone : Les auteurs remplacent le backbone DINOv2 utilisé dans SuperAD par DINOv3 (ViT-H+/16), exploitant ses représentations visuelles pré-entraînées supérieures.
Emboutissements Multi-couches : Des vecteurs de caractéristiques sont extraits de quatre couches intermédiaires (7, 15, 23 et 31) du transformateur.
Construction de la Banque de Mémoire : Une banque de mémoire de prototypes « normaux » est construite à partir des données d'entraînement.

2.2. Modifications Techniques Clés

L'article introduit plusieurs adaptations spécifiques pour améliorer la robustesse et la généralisation :

Traitement par Patchs Superposés :
- Au lieu de traiter l'image entière ou des tuiles non superposées, les images d'entrée sont divisées en patchs superposés ( $P=640$ , chevauchement $O=128$ ).
- Objectif : Cela réduit la sensibilité aux artefacts liés à la position de la grille et prévient les fausses anomalies dans les régions vides ou aux bords de l'image. Cela élimine le besoin de remplissage par zéro, qui peut créer des embeddings de référence irréalistes.
- Inférence : Les prédictions redondantes dans les régions superposées sont rejetées, et les embeddings restants sont réassemblés en une carte cohérente.
Stratégie de Sous-échantillonnage Affinée :
- Problème : Le SuperAD original sous-échantillonnait 16 images, ce qui échouait à éliminer les vecteurs de caractéristiques quasi-dupliqués au sein d'une image ou à travers des régions similaires.
- Solution : Les auteurs effectuent le sous-échantillonnage directement sur les vecteurs de caractéristiques en utilisant une approche basée sur les k-plus proches voisins (k-NN).
- Mécanisme : Pour chaque vecteur candidat, le nombre de voisins dans un seuil de distance global est calculé. Les vecteurs avec de faibles scores (se trouvant dans des régions peu peuplées de l'espace des caractéristiques) sont conservés. Cela garantit une banque de mémoire compacte et diversifiée qui couvre mieux la distribution des données tout en réduisant l'utilisation de la mémoire.
Augmentation Basée sur l'Intensité :
- Lors du traitement des données d'entraînement, les valeurs de pixels sont mises à l'échelle par un facteur aléatoire échantillonné uniformément dans $[0.8, 1.2]$ .
- Objectif : Simuler des temps d'intégration et des conditions d'éclairage variables, améliorant ainsi la robustesse aux décalages d'éclairage entre les données d'entraînement et de test.
Seuillage et Post-traitement :
- Seuillage : Au lieu de seuils spécifiques aux classes dérivés des données de test, un seuil unique est défini comme une version mise à l'échelle (facteur de gain 1,3–1,5) du 95e percentile des valeurs de la carte d'anomalies issues des données d'entraînement.
- Fermeture Morphologique : Une étape itérative de fermeture morphologique (16 itérations avec des éléments structurants linéaires de rayon 26 pixels à diverses orientations) est appliquée pour connecter les défauts linéaires fragmentés (par exemple, des rayures) et combler les petits espaces.
- Remplissage de Régions : Une étape finale remplit les trous dans le masque binaire pour assurer la cohérence spatiale, en particulier là où les anomalies traversent les limites des patchs.

3. Contributions Clés

Les auteurs revendiquent les contributions suivantes :

Cadre Agnostique aux Classes : Un pipeline unifié utilisant une architecture unique et des hyperparamètres pour toutes les classes d'objets, adhérant aux contraintes de VAND 4.0.
Sous-échantillonnage Amélioré : Une méthode de sous-échantillonnage dans l'espace des caractéristiques qui améliore la couverture de la distribution des données et l'efficacité computationnelle par rapport à la sélection au niveau de l'image.
Prétraitement par Patchs : L'introduction de patchs superposés pour atténuer les artefacts dépendants de la position et améliorer la généralisation.
Post-traitement Robuste : L'application d'une fermeture morphologique itérative et multi-orientée pour générer des cartes d'anomalies spatialement cohérentes.
Robustesse à l'Éclairage : L'utilisation de la mise à l'échelle de l'intensité pour simuler des décalages d'éclairage pendant l'entraînement.
Mise à Niveau du Backbone : L'intégration réussie de DINOv3 en tant qu'extracteur de caractéristiques.

4. Résultats

La méthode a été évaluée sur le jeu de données MVTec AD 2 à travers trois partitions : TESTpub, TESTpriv et TESTpriv,mix.

Métriques de Performance :
- TESTpub : Un score F1 moyen de 62,61 % et un AU-ROC0.05 de 83,93 % ont été atteints.
- TESTpriv : Un score F1 moyen de 57,42 % a été atteint.
- TESTpriv,mix : Un score F1 moyen de 54,35 % a été atteint.
Comparaison :
- SuperADD a surpassé l'état de l'art précédent (ISVL de VAND 3.0), qui a obtenu 53,81 % sur TESTpriv et 51,43 % sur TESTpriv,mix.
- Il a également dépassé d'autres méthodes de premier plan de l'année précédente (RoBiS, ASEG) et des bases de référence standard comme PatchCore et EfficientAD.
Performance Spécifique aux Classes :
- Une haute performance a été observée sur Fabric (88,47 % F1 sur TESTpriv) et Rice (73,83 % F1).
- La performance était plus faible sur Can (0,00 % F1 sur TESTpub, 11,59 % sur TESTpriv), attribué à des défauts fins à peine visibles à l'œil humain.
- Wallplugs a montré une baisse significative de performance sur TESTpriv par rapport à TESTpub, probablement due à des défauts plus subtils et à une tolérance plus faible aux faux positifs dans la vérité terrain.

5. Signification et Revendications

L'article positionne SuperADD comme une solution déployable en pratique pour la détection d'anomalies industrielle. Sa signification réside dans :

Efficacité Sans Entraînement : En évitant le réentraînement du modèle, la méthode permet une intégration rapide de nouvelles classes de produits ou de changements de conception, une exigence critique dans les environnements industriels dynamiques.
Généralisation : L'approche démontre qu'une configuration unique et agnostique aux classes peut gérer efficacement divers types d'objets (vrac, texturés, réfléchissants, transparents) et conditions d'éclairage variables sans ajustement par classe.
Robustesse aux Décalages de Distribution : La combinaison de DINOv3, de l'augmentation d'intensité et du traitement par patchs atténue avec succès la dégradation des performances généralement causée par les décalages des conditions d'acquisition.

Les auteurs reconnaissent des limitations, telles que la difficulté à détecter des pièces manquantes (par exemple, des morceaux cassés) ou des rayures très fines sur des surfaces réfléchissantes, mais soulignent que la méthode localise avec succès de petits défauts dans des catégories comme le riz et les noix, ainsi que des défauts à grande échelle avec une haute cohérence. Un travail futur est suggéré pour explorer des banques de mémoire doubles incorporant des anomalies synthétiques via des modèles de diffusion, bien que cela reste hors du champ de la revendication actuelle sans apprentissage.

SuperADD: Training-free Class-agnostic Anomaly Segmentation -- CVPR 2026 VAND 4.0 Workshop Challenge Industrial Track