TRACE: Your Diffusion Model is Secretly an Instance Edge Detector

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Secret caché dans la "Machine à Dessiner"

Imaginez que vous avez une machine magique, un modèle de diffusion (comme Midjourney ou DALL-E), capable de créer des images à partir de rien. Vous lui dites "deux chats", et elle commence à dessiner.

Le processus ressemble à ceci :

Elle part d'un écran rempli de neige statique (du bruit).
Petit à petit, elle enlève ce bruit pour révéler l'image.
Au début, on ne voit rien. Puis, des formes floues apparaissent. Ensuite, les contours se précisent. Enfin, l'image est parfaite.

Le problème : Habituellement, si on veut que l'ordinateur sépare le chat 1 du chat 2 (pour dire "c'est un chat, et c'est un autre chat"), il faut lui apprendre à la main, pixel par pixel, en lui montrant des milliers d'exemples avec des masques colorés. C'est long, cher et fastidieux.

La découverte de TRACE :
Les chercheurs ont réalisé quelque chose de fou : la machine sait déjà où sont les contours des objets, mais elle ne nous le dit pas ! Pendant qu'elle "dénoue" le bruit pour créer l'image, il y a un moment précis où elle commence à distinguer les objets individuels, avant même de se soucier de leurs couleurs ou de leurs détails.

TRACE est comme un détective qui regarde la machine travailler et capture ce moment précis pour en extraire les contours.

🕵️‍♂️ Comment TRACE fonctionne-t-il ? (L'analogie du sculpteur)

Imaginez un sculpteur qui transforme un gros bloc de pierre brute en deux statues distinctes (un chat et un chien).

Le Moment de l'Émergence (IEP) :
Au début, le bloc est une masse informe. Le sculpteur tape un peu, et soudain, il commence à voir une fente entre les deux statues.
TRACE cherche ce moment précis, qu'il appelle le Point d'Émergence de l'Instance. C'est l'instant magique où la machine passe de "c'est juste une forme floue" à "c'est deux objets séparés". Avant ce moment, c'est trop flou ; après, c'est trop détaillé (la machine se concentre sur les poils du chat plutôt que sur la séparation).
La Boussole des Contours (ABDiv) :
Une fois le bon moment trouvé, TRACE utilise une astuce appelée Divergence des Frontières d'Attention.
- L'analogie : Imaginez que chaque pixel de l'image est une personne dans une foule. Si deux personnes sont dans le même groupe (le même chat), elles se parlent beaucoup et se regardent. Si elles sont dans des groupes différents (chat vs chien), elles ne se regardent presque pas.
- TRACE regarde qui regarde qui. Là où les regards se coupent brusquement (d'un groupe à l'autre), TRACE trace une ligne rouge. C'est le contour !
L'Entraînement Rapide (Distillation) :
Normalement, faire ce calcul pour chaque image prendrait des heures (comme attendre que le sculpteur finisse son œuvre pour voir la fente). TRACE est malin : il apprend à un petit assistant (un "décodage en une étape") à reproduire ce résultat instantanément.
- Résultat : Au lieu de prendre 30 secondes par image, cela prend une fraction de seconde. C'est 81 fois plus rapide !

🚀 Pourquoi c'est une révolution ?

Avant TRACE, pour séparer des objets, on devait soit :

Tout annoter à la main (très cher, comme dessiner chaque contour sur des millions de photos).
Utiliser des méthodes "aveugles" qui confondaient souvent les objets (ex: deux chats collés l'un à l'autre devenaient un seul gros chat géant).

Avec TRACE :

Zéro étiquette : On n'a besoin d'aucune annotation manuelle. La machine utilise sa propre "mémoire" interne pour trouver les contours.
Précision chirurgicale : TRACE réussit à séparer des objets collés (comme deux voitures garées côte à côte) là où les anciennes méthodes échouaient.
Polyvalence : Que ce soit pour compter des voitures, séparer des cellules médicales ou comprendre une scène de rue, TRACE améliore tout.

🌟 En résumé

Imaginez que vous avez un ami qui dessine des paysages. Avant, pour lui demander de séparer les arbres de la forêt, vous deviez lui montrer des centaines de photos où vous aviez colorié chaque arbre.

Avec TRACE, vous réalisez que votre ami, pendant qu'il dessine, sait instinctivement où finit un arbre et où commence l'autre, juste au moment où il pose son crayon pour tracer la première ligne de séparation. TRACE consiste simplement à filmer ce moment précis et à apprendre à un robot à le reproduire instantanément.

C'est une façon intelligente et gratuite d'obtenir des cartes de précision pour que les robots voient le monde aussi clairement que nous, sans avoir besoin de nous fatiguer à tout annoter.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La segmentation d'instances et panoptique de haute qualité dépend traditionnellement d'annotations denses au niveau des pixels (masques, boîtes, points), qui sont coûteuses à produire, incohérentes et difficiles à mettre à l'échelle.

Limites des approches non supervisées : Les méthodes existantes (basées sur le clustering de caractéristiques de transformeurs de vision pré-entraînés comme DINO) sont optimisées pour la similarité sémantique entre images, mais échouent souvent à séparer les instances adjacentes d'une même classe ou à éviter la fragmentation d'une seule instance.
Limites des approches faiblement supervisées : L'utilisation de tags d'images ou de points d'annotation réduit les coûts mais ne permet pas de distinguer clairement les instances adjacentes, conduisant à des masques fusionnés ou incomplets.
Objectif : Développer une méthode capable de découvrir des limites d'instances précises sans aucune annotation d'instance (ni masques, ni boîtes, ni points), en exploitant les modèles de diffusion pré-entraînés.

2. Méthodologie : TRACE

L'idée centrale de TRACE est que les cartes d'auto-attention (self-attention) des modèles de diffusion text-to-image contiennent des indices sur les limites des instances à des étapes spécifiques du processus de débruitage, agissant comme des détecteurs de bords "secrètement" intégrés.

Le framework se compose de trois étapes principales :

A. Identification du Point d'Émergence d'Instance (IEP - Instance Emergence Point)

Observation : Au début du processus de débruitage, l'attention est bruitée. À la fin, elle devient purement sémantique. Cependant, à un moment intermédiaire précis, la structure de l'instance émerge brièvement.
Mécanisme : TRACE calcule la divergence de Kullback-Leibler (KL) entre les cartes d'auto-attention consécutives au cours du processus de débruitage inversé.
Sélection : Le temps $t^*$ où cette divergence est maximale est sélectionné comme le Point d'Émergence d'Instance. À ce stade, les cartes d'attention révèlent la structure des instances avant qu'elles ne se fondent dans la sémantique globale.

B. Extraction des Bords via Divergence des Limites d'Attention (ABDiv)

Principe : Les pixels appartenant à la même instance ont des distributions d'auto-attention similaires, tandis que les pixels de part et d'autre d'une limite d'instance divergent fortement.
Calcul : Une fois l'attention à l'étape $t^*$ obtenue, TRACE applique l'ABDiv. Cela consiste à calculer la divergence KL entre les voisins opposés (gauche/droite, haut/bas) de chaque pixel.
Résultat : Cela génère une carte de bords pseudo-étiquetés où les valeurs élevées correspondent aux limites d'instances. Une stratégie de seuillage basé sur la fiabilité (excluant les pixels "incertains" entre $\mu - \sigma$ et $\mu + \sigma$ ) est utilisée pour réduire le bruit.

C. Distillation en une Étape (One-Step Self-Distillation)

Problème : Calculer l'IEP et l'ABDiv pour chaque image lors de l'inférence est lent (nécessite un processus de diffusion complet).
Solution : TRACE entraîne un décodeur de bords léger ( $G_\phi$ $G_{ϕ}$ ) en utilisant le modèle de diffusion pré-entraîné comme "enseignant".
- L'objectif d'entraînement combine une perte de reconstruction d'image et une perte de segmentation de bords (Dice Loss) sur les cartes générées par ABDiv.
- Les pixels incertains sont masqués pour éviter l'apprentissage de faux positifs.
Avantage : Après entraînement, le modèle peut prédire des bords d'instances connectés et précis en une seule passe (sans inversion de diffusion), rendant l'inférence 81 fois plus rapide que l'approche brute.

D. Raffinement des Masques (BGP)

Les bords extraits sont utilisés comme priors dans des méthodes de segmentation existantes (comme MaskCut ou des modèles supervisés par tags) via une Propagation Guidée par le Fond (Background-Guided Propagation). Cela permet de séparer les régions fusionnées et de combler les trous dans les masques fragmentés.

3. Contributions Clés

Découverte fondamentale : Démonstration que les modèles de diffusion text-to-image encode des priors de limites d'instances dans leurs cartes d'auto-attention, contrairement aux transformeurs de vision discriminatifs classiques.
Framework TRACE : Unification de deux concepts novateurs : le Point d'Émergence d'Instance (IEP) et la Divergence des Limites d'Attention (ABDiv) pour la découverte de bords sans annotation.
Efficacité et Performance :
- Élimination du besoin d'inversion de diffusion par image lors de l'inférence grâce à la distillation.
- Amélioration de la segmentation d'instances non supervisée de +5,1 AP sur COCO.
- Dépassement des méthodes supervisées par points en segmentation panoptique (sur VOC et COCO) en utilisant uniquement des tags d'images.

4. Résultats Expérimentaux

Les résultats sont évalués sur plusieurs benchmarks (COCO, VOC 2012, LVIS, etc.) :

Segmentation d'instances non supervisée (UIS) :
- TRACE améliore les méthodes de base (MaskCut, ProMerge) de +4,4 à +5,3 points AP sur COCO et VOC.
- Surpasse les méthodes basées sur la profondeur (CutS3D) de manière significative, car les bords de diffusion sont robustes à la distance et à l'échelle.
Segmentation panoptique faiblement supervisée :
- Avec seulement des tags d'images (sans points ni boîtes), TRACE combiné à un modèle sémantique (DHR) dépasse les modèles supervisés par points de +1,7 PQ sur COCO et jusqu'à +7,1 PQ sur VOC 2012.
Comparaison avec d'autres détecteurs de bords :
- TRACE atteint un score ODS (Optimal Dataset Scale) de 0,889 sur une nouvelle benchmark de bords d'instances, dépassant largement Canny (0,129), HED (0,347) et même DiffusionEdge (0,428).
- Les bords sont topologiquement connectés (clDice élevé), ce qui est crucial pour séparer les instances adjacentes.
Comparaison Diffusion vs Non-Diffusion :
- Les modèles de diffusion (SD3.5-L, FLUX.1) surpassent massivement les grands modèles discriminatifs (LLaVA, DINOv2, CLIP) pour cette tâche, confirmant que la capacité à détecter les instances provient de la nature générative du processus de débruitage.

5. Signification et Impact

Alternative aux annotations coûteuses : TRACE offre une voie pratique et évolutive pour obtenir des limites d'instances précises sans aucune annotation manuelle d'instance, réduisant considérablement le coût de création de jeux de données.
Complémentarité avec SAM : Les bords générés par TRACE servent d'excellentes "graines" (seeds) pour des modèles comme Segment Anything (SAM), permettant une séparation propre d'objets adjacents que SAM seul ne peut pas distinguer.
Généralisation : La méthode fonctionne sur divers architectures de diffusion et s'applique aussi bien aux images naturelles qu'à des tâches complexes comme la segmentation panoptique open-vocabulary.
Limites : La méthode montre des difficultés avec des instances extrêmement petites (images satellites) en raison de la compression spatiale des modèles de diffusion latents, et sur des domaines hors distribution (médical) où les priors d'images naturelles ne correspondent pas.

En résumé, TRACE révèle une propriété intrinsèque des modèles de diffusion génératifs : leur capacité à révéler la structure des instances au début du processus de débruitage, transformant ces modèles en détecteurs de bords d'instances puissants et gratuits.