CGSA: Class-Guided Slot-Aware Adaptation for Source-Free Object Detection

Each language version is independently generated for its own context, not a direct translation.

🚗 Le Problème : Le Choc Culturel des Robots

Imaginez que vous avez entraîné un robot conducteur (un détecteur d'objets) dans une ville ensoleillée et parfaite, disons Paris (c'est le "domaine source"). Ce robot est un expert : il voit parfaitement les voitures, les piétons et les panneaux.

Maintenant, vous envoyez ce même robot dans une autre ville, Tokyo, mais avec une contrainte bizarre : vous ne pouvez pas lui montrer les photos de Tokyo utilisées pour l'entraînement, ni lui donner les étiquettes (vous ne pouvez pas lui dire "c'est un bus"). De plus, à cause de règles de confidentialité strictes, vous ne pouvez même pas garder les photos de Paris pour les comparer. C'est ce qu'on appelle l'adaptation de domaine sans source (SF-DAOD).

Le problème ? Quand le robot arrive à Tokyo, il est perdu. La météo est différente, les voitures sont différentes, les panneaux aussi. S'il essaie de deviner tout seul, il fait des erreurs car il ne sait pas comment s'adapter à ce nouveau monde.

💡 La Solution : CGSA (Le Détective à "Slots")

Les chercheurs de l'article proposent une nouvelle méthode appelée CGSA. Pour comprendre comment ça marche, oublions les maths et utilisons une analogie avec un détective qui trie des pièces de puzzle.

1. Le Concept de "Slots" (Les Cases du Puzzle)

Habituellement, les robots regardent une image comme un tout flou. CGSA change la donne en utilisant une technique appelée Apprentissage Centré sur l'Objet.

Imaginez que votre cerveau, quand il regarde une rue, ne voit pas juste "des pixels". Il découpe mentalement la scène en boîtes invisibles (qu'on appelle des "slots").

Une boîte pour la voiture rouge.
Une boîte pour le piéton.
Une boîte pour le ciel.
Une boîte pour le trottoir.

CGSA force le robot à faire exactement cela : il décompose l'image en ces "slots" (boîtes) avant même de dire ce que c'est. C'est comme si le robot apprenait à détacher les objets du fond avant de les identifier.

2. La Hiérarchie (D'abord le gros, puis le détail)

Le papier introduit une idée géniale : la Hiérarchie.

Niveau 1 (Gros plan) : Le robot regarde d'abord l'image et met en place 5 grandes boîtes grossières. "Il y a un truc là-bas, et un truc ici."
Niveau 2 (Détail) : Ensuite, il affine ces boîtes. Chaque grande boîte se divise en 5 petites boîtes. Au total, il a 25 boîtes précises qui correspondent parfaitement aux contours des objets.

C'est comme si vous regardiez une carte du monde d'abord (les continents), puis vous zoomiez pour voir les pays, puis les villes. Cela évite que le robot se perde dans le bruit de fond (comme la pluie ou le brouillard).

3. Le Guide Invisible (Les "Slots" apprennent la classe)

Le problème, c'est que ces boîtes sont créées sans étiquettes. Le robot pourrait mettre une boîte sur un nuage et une autre sur un camion, et les confondre.

C'est là qu'intervient le module CGSC (Contraste Guidé par la Classe).
Imaginez que le robot a une mémoire des "types d'objets" qu'il connaît (une mémoire des voitures, une mémoire des bus).

Le robot regarde ses boîtes (slots).
Il se demande : "Est-ce que cette boîte ressemble plus à ma mémoire 'Voiture' ou à ma mémoire 'Bus' ?"
Il utilise une technique de contraste : il pousse les boîtes qui ressemblent à des voitures vers la mémoire "Voiture" et les éloigne de la mémoire "Bus".

Même sans voir les étiquettes réelles de Tokyo, le robot apprend à dire : "Ah, cette forme de boîte correspond à ce que je connais d'une voiture, peu importe si c'est sous la pluie ou ensoleillé."

🌟 Pourquoi c'est révolutionnaire ?

Avant, les méthodes essayaient de trier les réponses du robot en gardant seulement celles qui avaient l'air sûres (comme un filtre). C'était comme essayer de deviner la météo en regardant seulement les nuages les plus blancs.

CGSA, lui, change la façon dont le robot regarde l'image.

Avant : "Je vois une image floue, je vais deviner."
Avec CGSA : "Je vais d'abord découper l'image en pièces de puzzle logiques, puis je vais vérifier si chaque pièce correspond à ce que je connais d'une voiture ou d'un bus."

🏆 Le Résultat

Les chercheurs ont testé cette méthode sur plusieurs scénarios difficiles :

Passer d'une ville claire à une ville avec du brouillard.
Passer d'images réalistes à des images de jeux vidéo (et vice-versa).
Passer d'un petit jeu de données à un très grand jeu de données.

Dans tous les cas, CGSA a battu les records précédents. Le robot est devenu beaucoup plus robuste, capable de voir des voitures lointaines dans le brouillard que les autres méthodes rataient complètement.

En résumé

Imaginez que vous apprenez à conduire dans un pays étranger sans parler la langue et sans carte.

Les anciennes méthodes vous disaient : "Devine la route en regardant les panneaux flous."
La méthode CGSA vous dit : "Regarde la route, découpe-la mentalement en 'voiture', 'route', 'ciel', et compare chaque morceau avec ce que tu sais déjà d'une voiture. Tu comprendras la route même sans parler la langue."

C'est une avancée majeure pour la vie privée (pas besoin de stocker les données d'entraînement) et pour la sécurité (les voitures autonomes fonctionnent mieux dans des conditions changeantes).

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Détection d'objets sans source (SF-DAOD)

Le domaine de la Détection d'Objets Adaptative de Domaine Sans Source (SF-DAOD) vise à adapter un détecteur pré-entraîné sur un domaine source étiqueté vers un domaine cible non étiqueté, sans avoir accès aux données du domaine source pendant la phase d'adaptation.

Contexte : Les méthodes d'adaptation de domaine traditionnelles (DAOD) supposent souvent l'accès aux images sources pour aligner les distributions de caractéristiques. Cependant, des contraintes de confidentialité (RGPD) ou de propriété intellectuelle empêchent souvent ce partage de données.
Limites des approches actuelles : Les méthodes SF-DAOD existantes reposent principalement sur un paradigme "enseignant-élève" (teacher-student) où l'enseignant génère des pseudo-étiquettes pour l'élève. Ces approches se concentrent sur le filtrage des seuils de confiance ou l'optimisation du cadre d'apprentissage, mais elles négligent souvent les cues structurels au niveau de l'objet (object-level structural cues) qui persistent entre les domaines. Le détecteur pré-entraîné est souvent réduit à un simple oracle de pseudo-étiquettes, sans exploiter pleinement ses représentations internes riches.

2. Méthodologie : Le cadre CGSA

Les auteurs proposent CGSA, le premier cadre intégrant l'Apprentissage Centré sur les Objets (Object-Centric Learning - OCL) dans la SF-DAOD, spécifiquement adapté aux détecteurs basés sur DETR (Detection Transformer). L'idée centrale est de décomposer l'image en "slots" (représentations latentes d'objets) qui agissent comme des priors visuels structurels, guidés ensuite par des sémantiques de classe.

Le cadre se compose de deux modules principaux :

A. Module de Conscience Hiérarchique des Slots (HSA - Hierarchical Slot Awareness)

Ce module vise à extraire des priors visuels structurels sans supervision de pixels.

Décomposition Hiérarchique : Inspiré par la vision humaine qui décompose les scènes de manière progressive, HSA décompose l'image en deux étapes :
1. Niveau grossier : Extraction de priors régionaux larges.
2. Niveau fin : Raffinement de ces priors en des slots plus granulaires.
Mécanisme : Il utilise une attention de type "Slot Attention" itérative pour regrouper les caractéristiques d'entrée en un ensemble de $n^2$ slots.
Objectif de reconstruction : Un décodeur léger reconstruit l'image à partir de ces slots avec une perte de reconstruction ( $L_{rec}$ ) pour assurer que les slots capturent bien les structures de l'image (objets et arrière-plan).
Fusion : Les représentations des slots sont projetées et fusionnées avec les requêtes d'objets (object queries) du détecteur DETR, créant des "requêtes conscientes des slots" qui intègrent des priors structurels.

B. Module de Contraste Guidé par la Classe (CGSC - Class-Guided Slot Contrast)

Une fois les slots extraits, ils peuvent encore contenir du bruit spécifique au domaine (ex: brouillard, style de caméra). CGSC les guide vers des représentations invariantes au domaine mais pertinentes pour la classe.

Mémoire de Prototypes de Classe : Des prototypes de classes globaux ( $P_c$ ) sont maintenus en ligne via une moyenne mobile exponentielle (EMA) des requêtes du détecteur.
Construction de Slots Pondérés : Les slots sont pondérés par les masques d'attention appris par HSA pour supprimer le bruit de fond.
Apprentissage Contrastif : Un mécanisme de contraste (InfoNCE) est appliqué :
- Il attire les prototypes de slots pondérés ( $\bar{z}_c$ ) vers les prototypes de classes globaux correspondants ( $P_c$ ).
- Il repousse les slots des autres classes.
- Cela force les slots à capturer des sémantiques invariantes au domaine spécifiques à la classe.

C. Objectif Global d'Adaptation

L'adaptation sur le domaine cible utilise un cadre enseignant-élève. La perte totale combine :

La perte de détection non supervisée (classification et régression de boîtes) sur les pseudo-étiquettes filtrées.
La perte de reconstruction ( $L_{rec}$ ) du module HSA.
La perte contrastive ( $L_{con}$ ) du module CGSC.

3. Contributions Clés

Première intégration de l'OCL en SF-DAOD : Introduction d'un nouveau cadre (CGSA) qui utilise la décomposition en slots pour extraire des structures d'objets sans données sources.
Architecture Complémentaire : Conception de deux modules (HSA et CGSC) qui fournissent respectivement des priors structurels et un guidage sémantique, soutenus par une analyse théorique de la descente de risque.
Performance Supérieure : Démonstration expérimentale que l'approche surpasse les méthodes SF-DAOD et DAOD traditionnelles sur plusieurs benchmarks, prouvant l'efficacité de l'approche centrée sur l'objet pour l'adaptation privée.

4. Résultats Expérimentaux

Les expériences ont été menées sur cinq jeux de données (Cityscapes, Foggy-Cityscapes, BDD100K, Sim10K, KITTI) avec des scénarios d'adaptation variés (ex: Ville $\to$ Ville diverse, Météo claire $\to$ Brouillard, Synthétique $\to$ Réel).

Cityscapes $\to$ BDD100K : CGSA surpasse les méthodes SF-DAOD de l'état de l'art (SOTA) d'environ 15 % en mAP (53.0 % contre 38.3 % pour TITAN, le précédent meilleur). Il bat également les méthodes DAOD traditionnelles (qui ont accès aux sources) d'environ 10 %.
Cityscapes $\to$ Foggy-Cityscapes : Dans des conditions de brouillard, CGSA atteint 53.2 % de mAP, surpassant tous les autres méthodes SF-DAOD et la plupart des méthodes DAOD classiques.
Adaptation Synthétique $\to$ Réel (Sim10K $\to$ Cityscapes) : CGSA atteint 67.7 % de mAP pour la classe "voiture", établissant un nouveau record.
Analyse : Les visualisations (t-SNE) montrent que CGSA produit une séparation inter-classe plus nette et un regroupement intra-classe plus serré que les méthodes de base, confirmant que les slots apprennent des caractéristiques invariantes au domaine.

5. Signification et Impact

Respect de la vie privée : CGSA offre une solution robuste pour le déploiement de détecteurs dans des environnements où les données sources ne peuvent pas être partagées (hôpitaux, véhicules autonomes propriétaires, etc.).
Nouveau Paradigme : Le papier démontre que l'intégration de l'apprentissage centré sur les objets (OCL) dans les détecteurs modernes (DETR) permet de mieux exploiter la structure interne des modèles pour l'adaptation de domaine, au-delà du simple filtrage de pseudo-étiquettes.
Théorie et Pratique : La combinaison d'une analyse théorique garantissant la descente du risque et de résultats empiriques solides valide la pertinence de l'utilisation de "slots" comme priors structurels pour l'invariance de domaine.

En résumé, CGSA représente une avancée majeure en démontrant qu'il est possible d'adapter efficacement des détecteurs d'objets à de nouveaux domaines sans accès aux données d'origine, en s'appuyant sur la décomposition structurelle de l'image et l'alignement sémantique des objets.