Spatial Autoregressive Modeling of DINOv3 Embeddings for Unsupervised Anomaly Detection

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Problème : Trouver l'aiguille dans la botte de foin (sans voir l'aiguille)

Imaginez que vous travaillez dans un hôpital ou une usine. Votre travail consiste à repérer des défauts : une tumeur sur une IRM ou une fissure sur une pièce de métal. Le problème ? Vous n'avez jamais vu ces défauts avant, ou ils sont si rares qu'il est impossible de les apprendre par cœur.

La méthode classique, c'est comme si vous montriez des milliers de photos de "fraises parfaites" à un robot, puis vous lui disiez : "Si tu vois une fraise qui ne ressemble pas à celles-là, c'est une fraise pourrie".

Mais les méthodes actuelles ont deux gros défauts :

Elles sont lentes et gourmandes : Elles doivent se souvenir de millions de photos de fraises parfaites dans une immense mémoire (une "banque de mémoires") et comparer chaque nouvelle image à toutes ces photos. C'est comme chercher un mot dans un dictionnaire de 10 000 pages à chaque fois que vous parlez.
Elles oublient le contexte : Elles regardent chaque petit morceau de l'image (un "patch") isolément, comme si elles regardaient des pixels un par un, sans comprendre comment ils s'organisent entre eux.

💡 La Solution : Le "Prédicteur de Séries" (Modèle Autorégressif)

Les auteurs de ce papier (de l'ETH Zurich) ont eu une idée brillante : au lieu de mémoriser des milliers d'exemples, pourquoi ne pas apprendre au robot à prédire la suite ?

Imaginez que vous lisez un livre. Si vous voyez les mots "Il faisait beau et...", votre cerveau prédit presque automatiquement le mot suivant, comme "ensoleillé". Vous ne cherchez pas dans une banque de données pour savoir quel mot vient après ; vous utilisez le contexte de la phrase.

C'est exactement ce que fait leur méthode avec les images médicales :

Le Lecteur Intelligent (DINOv3) : Ils utilisent un super-robot (un modèle d'IA appelé DINOv3) qui a déjà lu des millions d'images. Ce robot découpe l'image en petits morceaux (des "patches") et comprend ce qu'ils signifient.
Le Jeu de la Prédiction : Au lieu de stocker les images, ils entraînent un petit réseau de neurones à jouer à un jeu : "Je te donne tous les morceaux de l'image jusqu'à présent (de gauche à droite, de haut en bas), et tu dois deviner à quoi ressemble le prochain morceau."
La Détection de l'Anomalie :
- Si le robot dit : "Je suis sûr à 100% que le prochain morceau est une partie saine du foie", c'est normal.
- Si le robot dit : "Hé, attends ! D'après ce que j'ai vu avant, ce morceau devrait être du foie sain, mais il ressemble à une tumeur ! Je suis perdu !", alors c'est une anomalie.

🚀 Pourquoi c'est génial ? (Les Analogies)

1. Le Mémoriste vs. Le Compilateur

Les anciennes méthodes (Banque de mémoires) : C'est comme un bibliothécaire qui doit sortir 10 000 livres de la bibliothèque pour comparer chaque page avec votre nouvelle page. C'est lent et ça prend beaucoup de place.
La nouvelle méthode (Autorégressive) : C'est comme un écrivain qui connaît la grammaire et le style par cœur. Il n'a pas besoin de regarder ses notes. Il écrit la phrase suivante instantanément. Si le texte devient bizarre, il le sent tout de suite.
- Résultat : C'est ultra-rapide (une seule passe de calcul) et ça prend très peu de place dans la mémoire de l'ordinateur.

2. Le Puzzle et les Voisins

Les auteurs ont remarqué que dans le corps humain, les choses sont organisées. Un morceau de rein est toujours à côté d'un autre morceau de rein.

Ils ont ajouté une astuce appelée "convolutions dilatées". Imaginez que vous essayez de comprendre un mot dans une phrase.
- La méthode normale regarde juste le mot juste avant.
- La méthode dilatée regarde le mot avant, mais aussi le mot il y a trois places, pour comprendre le contexte plus large.
- Cela permet au robot de mieux comprendre la "géographie" de l'image et de ne pas se faire piéger par des détails locaux.

📊 Les Résultats : Vite, Efficace et Précis

Ils ont testé leur méthode sur trois types d'images médicales (cerveau, foie, rétine).

Performance : Ils sont aussi bons, voire meilleurs, que les champions actuels pour détecter les anomalies.
Vitesse : Ils sont beaucoup plus rapides. Là où les autres méthodes mettent 100 à 600 millisecondes (et utilisent beaucoup de mémoire), leur méthode le fait en 20 millisecondes avec une consommation de mémoire minuscule.

En Résumé

Ce papier propose de passer d'une approche de "mémorisation massive" (qui est lente et lourde) à une approche de "compréhension contextuelle" (qui est rapide et légère).

C'est comme remplacer un détective qui doit fouiller dans des millions de dossiers pour trouver un indice, par un détective qui connaît si bien la ville qu'il sait immédiatement : "Attends, ici, il devrait y avoir un parc, mais il y a un immeuble en construction. C'est suspect !"

C'est une avancée majeure pour rendre l'IA médicale plus rapide, moins coûteuse et plus facile à déployer dans les hôpitaux réels.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La détection d'anomalies (DA) non supervisée (UAD) vise à identifier des pixels ou des régions déviantes (comme des lésions médicales) en apprenant uniquement à partir d'échantillons « normaux ». Bien que les modèles fondationnels récents comme DINO (et sa version DINOv3) fournissent des représentations riches au niveau des patches grâce à l'attention auto-attentionnelle, les méthodes existantes basées sur DINO présentent deux limitations majeures :

Négligence des dépendances spatiales : La plupart des méthodes traitent les embeddings des patches comme des échantillons indépendants lors de la modélisation de la densité. Elles ignorent les relations structurelles et de voisinage entre les patches, supposant à tort que l'attention auto-attentionnelle et les encodages de position suffisent à capturer le contexte joint.
Surcharge computationnelle et mémoire : Les approches actuelles reposent souvent sur des banques de mémoires (stockant des millions de features) ou des modèles de mélanges complexes (comme les DPMM). Cela entraîne une inférence lente (recherche de voisins les plus proches coûteuse) et une consommation mémoire élevée, ce qui est problématique pour le déploiement clinique.

2. Méthodologie

Les auteurs proposent un cadre simple et efficace basé sur un modèle autorégressif (AR) 2D appliqué directement aux embeddings de patches DINOv3.

A. Modélisation de la distribution conjointe

Au lieu de modéliser les marges indépendantes, l'approche factorise la distribution conjointe des embeddings sur la grille 2D ( $F$ ) en utilisant une factorisation autorégressive :
$p(F) = \prod_{i,j} p(F_{i,j} | F_{<i,j})$
où $F_{<i,j}$ représente les embeddings précédents selon un ordre de balayage raster (de gauche à droite, de haut en bas). Chaque condition est modélisée comme une distribution gaussienne isotrope dont la moyenne est prédite par un réseau de neurones.

B. Architecture CNN Autorégressive Masquée

Pour permettre un calcul parallèle (évitant l'évaluation séquentielle lente) tout en respectant la contrainte autorégressive, les auteurs utilisent une CNN à convolutions masquées (inspirée de PixelCNN) :

Masquage : Les poids des convolutions sont masqués pour empêcher l'accès aux « futurs » patches (selon l'ordre raster) lors de la prédiction du patch courant.
Convolution Dilatée : Pour contrer le risque que le modèle apprenne simplement une interpolation locale à court terme (ce qui pourrait reconstruire des anomalies), des convolutions dilatées sont introduites. Cela élargit le champ réceptif sans augmenter le nombre de paramètres, permettant de capturer des dépendances spatiales à plus long terme.

C. Inférence

À l'essai, le score d'anomalie pour chaque patch est calculé comme la négative de la vraisemblance logarithmique conditionnelle ( $-\log p(F_{i,j} | F_{<i,j})$ ). L'ensemble des scores est obtenu en un seul passage avant (forward pass) du réseau, éliminant le besoin de recherche de voisins ou de stockage massif.

3. Contributions Clés

Modélisation explicite des dépendances spatiales : Première application d'un modèle AR 2D sur les embeddings DINO pour capturer les interactions spatiales structurées, améliorant la modélisation de l'anatomie normale.
Efficacité computationnelle : Remplacement des banques de mémoires coûteuses par un modèle paramétrique compact. L'inférence est rapide (un seul passage avant) et économe en mémoire.
Analyse de l'échelle spatiale : Étude de l'impact des convolutions dilatées, montrant qu'elles sont bénéfiques pour des données fortement structurées (comme les IRM cérébrales) mais moins critiques pour d'autres modalités.
Benchmark complet : Évaluation sur le benchmark BMAD (incluant IRM cérébrale, CT hépatique et OCT rétinien) avec comparaison aux méthodes de l'état de l'art (DRAEM, PatchCore, AnomalyDINO, etc.).

4. Résultats Expérimentaux

Les expériences ont été menées sur trois ensembles de données médicales (BraTS2021, BTCV+LiTs, RESC) en utilisant DINOv3-S.

Performance de Détection :
- Sur BraTS2021 (IRM cérébrale), la variante avec convolution dilatée atteint un AUROC de 98,35 % et un AUPR de 72,42 %, surpassant ou égalant les meilleures méthodes (AnomalyDINO v3-S, RD4AD).
- Sur BTCV+LiTs (CT foie), la variante standard obtient le meilleur AUROC (97,32 %).
- Sur RESC (OCT rétinien), les résultats restent compétitifs, bien que légèrement inférieurs à PatchCore (qui nécessite beaucoup de mémoire).
Efficacité (Temps et Mémoire) :
- La méthode proposée est significativement plus rapide que les méthodes basées sur DINO utilisant des banques de mémoires (ex: AnomalyDINO, DPMM).
- Sur l'ensemble RESC, le temps d'inférence est d'environ 20 ms par image contre 585 ms pour AnomalyDINO v3-S et 149 ms pour DPMM v3-S.
- La consommation mémoire est réduite (environ 0,2 GB contre plusieurs GB pour les méthodes concurrentes).

5. Signification et Conclusion

Ce travail démontre que l'exploitation explicite de la structure spatiale 2D des embeddings DINO via un modèle autorégressif léger permet d'atteindre des performances de détection d'anomalies compétitives, voire supérieures, tout en résolvant les goulots d'étranglement de mémoire et de temps des approches actuelles.

L'approche suggère que, bien que DINO encode du contexte global, la modélisation explicite des dépendances conditionnelles entre patches apporte une valeur ajoutée cruciale pour la détection d'anomalies, en particulier dans les données médicales structurées. La méthode offre une solution viable pour le déploiement clinique où la rapidité et les ressources limitées sont des contraintes majeures. Le code est disponible publiquement pour favoriser la reproductibilité.