Bridging Day and Night: Target-Class Hallucination Suppression in Unpaired Image Translation

Each language version is independently generated for its own context, not a direct translation.

🌙 Le Problème : Le Traducteur qui Rêve Trop

Imaginez que vous avez un traducteur automatique très doué, capable de transformer une photo prise en plein jour (soleil, ciel bleu) en une photo de nuit (rues sombres, néons). C'est ce qu'on appelle la traduction d'image.

Le but est d'aider les voitures autonomes à "voir" la nuit, même si elles n'ont été entraînées que sur des photos de jour.

Mais il y a un gros souci : Ce traducteur a tendance à halluciner.
Puisqu'il n'a pas de guide précis (il n'a pas de photo de nuit parfaite à comparer), il commence à inventer des choses pour rendre l'image plus "nocturne".

Il voit un mur et se dit : "Ah, il manque une lumière ! Je vais ajouter un feu de circulation fantôme."
Il voit un arbre et pense : "Il faut des phares !" Alors il dessine des phares de voiture qui n'existent pas.

C'est comme si un peintre, en essayant de peindre une scène de nuit, décidait d'ajouter des voitures et des feux rouges partout, même là où il n'y en a pas. Pour une voiture autonome, c'est catastrophique : elle pourrait freiner brusquement devant un feu rouge qui n'existe que dans la tête du traducteur !

🛠️ La Solution : Le Détective et les Ancres

Les chercheurs de l'Université Nationale de Singapour ont créé une nouvelle méthode pour arrêter ces hallucinations. Ils utilisent deux outils principaux : un détective et des ancres.

1. Le Détective à Double Vision (Le Discriminateur)

Habituellement, les traducteurs d'images sont jugés par un "juge" qui regarde juste si l'image a l'air réaliste (est-ce que c'est sombre ? est-ce qu'il y a du grain ?).

L'ancien juge : "Oui, c'est sombre, c'est joli. Bravo !" (Il ignore les fausses voitures).
Le nouveau juge (notre méthode) : Il a deux yeux.
- L'un regarde le style (c'est bien sombre ?).
- L'autre est un détective spécialisé. Il vérifie : "Attends, tu as mis un feu rouge ici ? Regarde sur la photo de départ, il n'y avait rien ! C'est un mensonge !"
- Si le détective trouve un objet inventé dans une zone vide, il dit : "Non, efface ça !"

2. Les Ancres de Vérité (Les Prototypes)

Pour aider le détective, les chercheurs ont créé des "ancres".
Imaginez que vous voulez apprendre à un enfant à ne pas confondre un chien avec un chat.

Vous lui montrez de vrais chats et vous dites : "Voici à quoi ressemble un vrai chat." (C'est l'ancre).
Ensuite, si l'enfant dessine un chat sur un mur blanc (là où il ne devrait pas y en avoir), vous lui dites : "Regarde ton dessin, il ressemble à un vrai chat, mais il est au mauvais endroit. Éloigne-le de l'ancre !"

Dans la technologie :

Ils prennent les vrais objets de la nuit (les vraies voitures, les vrais feux) et en font une "moyenne" mathématique (l'ancre).
Si le traducteur essaie de créer un faux feu rouge dans le ciel, le système pousse cette invention loin de l'ancre du vrai feu rouge. Cela force le système à comprendre : "Ah, ce n'est pas un vrai feu, c'est juste du bruit."

🚀 Comment ça marche en pratique ?

Le processus est comme une sculpture progressive :

On part d'une photo de jour.
On la transforme petit à petit en photo de nuit, étape par étape (comme un fondu enchaîné).
À chaque étape, le Détective vérifie : "Est-ce qu'on a inventé un objet ?"
Si oui, on utilise les Ancres pour corriger le tir et repousser l'invention vers le néant.
Résultat : Une photo de nuit magnifique, avec des lumières réalistes, mais sans aucun objet fantôme.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé leur méthode sur des milliers de photos de la ville (BDD100K).

Avant : Les voitures autonomes entraînées avec les anciennes méthodes se trompaient souvent à cause des faux objets.
Avec leur méthode : La précision de détection a bondi de 15,5 %.
Pour les objets les plus difficiles (comme les feux de signalisation), l'amélioration est de 31,7 % !

En résumé

Imaginez que vous donnez un livre de contes à un illustrateur pour le traduire en images de nuit.

L'ancien illustrateur dessinait des dragons et des sorcières partout parce qu'il pensait que "la nuit, c'est magique".
Leur nouvel illustrateur a un éditeur strict (le détective) et un guide de référence (les ancres). Il sait exactement où placer la lune et les étoiles, mais il s'interdit d'inventer des créatures qui n'étaient pas dans le texte original.

Grâce à cela, les voitures autonomes peuvent enfin conduire la nuit sans avoir peur des fantômes que l'ordinateur a inventés ! 🚗💡🌃

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La traduction d'images non appariées (unpaired) du jour vers la nuit est cruciale pour l'adaptation de domaine dans les tâches de conduite autonome (détection d'objets, segmentation). Cependant, les méthodes existantes (GANs, modèles de diffusion) souffrent d'un problème majeur : les hallucinations de classes cibles.

Le phénomène : En l'absence de supervision pixel à pixel directe, les modèles ont tendance à générer incorrectement des objets appartenant aux classes annotées (panneaux de signalisation, véhicules, feux de circulation) dans des régions de l'image où ils ne devraient pas être présents (arrière-plan).
Conséquence : Ces artefacts sémantiques dégradent considérablement la performance des tâches en aval, notamment la détection d'objets, en introduisant du bruit d'étiquetage et de faux positifs.
Limitation des approches actuelles : Les méthodes "conscientes des instances" (instance-aware) se concentrent sur la préservation des objets annotés mais négligent le contrôle des régions non annotées (arrière-plan), permettant ainsi la prolifération d'artefacts ressemblant à des classes cibles.

2. Méthodologie Proposée

Les auteurs proposent un cadre novateur basé sur le Pont de Schrödinger (Schrödinger Bridge) pour la traduction d'images, intégrant deux mécanismes clés pour détecter et supprimer les hallucinations :

A. Traduction par Pont de Schrödinger Multi-étapes

Le modèle ne traduit pas l'image en une seule étape, mais utilise un processus de transport stochastique itératif. Il génère une séquence d'états intermédiaires pour combler l'écart de domaine (jour/nuit) de manière plus fluide et stable, réduisant ainsi la difficulté de la transformation.

B. Détection des Hallucinations (Discriminateur à Double Tête)

Pour identifier les hallucinations, les auteurs conçoivent un discriminateur avec deux têtes partageant un encodeur de base (basé sur SAM2) :

Tête de Style ( $D_{sty}$ ) : Évalue le réalisme global de l'image.
Tête de Segmentation ( $D_{seg}$ ) : Détecte spécifiquement les pixels hallucinés.
- Défi : Les jeux de données de détection n'ont que des boîtes englobantes (bounding boxes), pas de masques de segmentation.
- Solution : Utilisation du modèle fondamental SAM2 pour générer des masques de pseudo-étiquettes à partir des boîtes englobantes. Ces masques servent à entraîner la tête de segmentation.
- Fonctionnement : La tête de segmentation apprend à prédire où se trouvent les objets cibles. Si des objets cibles sont prédits dans des régions non annotées (arrière-plan), cela est considéré comme une hallucination.

C. Suppression des Hallucinations par Prototypes de Classe

Une fois les hallucinations détectées, le modèle les supprime activement :

Construction de Prototypes : Des prototypes de caractéristiques (features) sont créés pour chaque classe cible en agrégeant les caractéristiques des objets annotés dans le domaine cible (nuit). Ces prototypes agissent comme des "ancres sémantiques".
Apprentissage Contrastif : Pendant les étapes intermédiaires de la traduction, les caractéristiques des pixels hallucinés (détectés dans l'arrière-plan) sont repoussées des prototypes de classe cibles via une perte de contraste (InfoNCE loss).
Objectif : Cela force une séparation claire entre les caractéristiques de l'arrière-plan et celles des objets de premier plan, empêchant l'arrière-plan d'imiter les classes annotées.

3. Contributions Clés

Cadre de Suppression des Hallucinations : Un système multi-étapes qui détecte et supprime explicitement les caractéristiques de classes cibles hallucinées, assurant la cohérence sémantique entre la traduction et les annotations.
Discriminateur Conscient des Hallucinations : Intégration d'une tête de segmentation dans le discriminateur, supervisée par des masques pseudo-générés (via SAM2) à partir de boîtes englobantes, permettant une détection au niveau du pixel.
Suppression Basée sur les Prototypes : Utilisation de prototypes de classe dérivés du domaine cible pour réguler les caractéristiques hallucinées via un apprentissage contrastif, renforçant les frontières sémantiques.
Validation Empirique : Démonstration de réductions significatives des hallucinations et d'améliorations massives de la précision de détection sur plusieurs jeux de données.

4. Résultats Expérimentaux

Les expériences ont été menées principalement sur le jeu de données BDD100K (adaptation jour-nuit) et KITTI $\to$ Cityscapes.

Adaptation de Domaine (BDD100K) :
- La méthode proposée améliore le mAP (mean Average Precision) de 15,5 % par rapport aux méthodes de référence pour la détection d'objets jour-nuit.
- Gain spectaculaire de 31,7 % pour les classes sujettes aux hallucinations comme les feux de circulation.
- La méthode dépasse même la "Upper Bound" (limite supérieure théorique basée sur un modèle entraîné uniquement sur des images de nuit réelles) pour plusieurs classes (camions, vélos, piétons), ce qui n'avait jamais été observé auparavant.
Qualité Visuelle :
- Comparé aux méthodes de pointe (InstaFormer, MGUIT, UNSB), la méthode proposée génère des images de nuit plus réalistes avec moins d'artefacts (faux feux, feux arrière fantômes).
- Elle préserve mieux les frontières sémantiques et la structure des objets.
Étude d'Ablation :
- L'ablation montre que la suppression des hallucinations est critique : sans les pertes de détection ( $L_{hl}$ ) et de suppression ( $L_{supp}$ ), les performances chutent drastiquement, prouvant que le contrôle des régions non annotées est essentiel.

5. Signification et Impact

Cet article adresse un problème fondamental souvent négligé dans la traduction d'images non appariées : la dégradation sémantique due aux hallucinations.

Pour la recherche : Il démontre que l'utilisation de modèles de segmentation fondationnels (comme SAM2) pour générer des supervisions à partir de données faiblement annotées (boîtes englobantes) est une stratégie efficace pour contrôler la sémantique.
Pour l'industrie (Conduite Autonome) : En produisant des données synthétiques de nuit plus fiables et exemptes de faux objets, la méthode permet d'entraîner des modèles de détection plus robustes, réduisant les risques d'accidents dus à des erreurs de détection sur des données synthétiques.
Innovation : L'approche combine la théorie du transport optimal (Pont de Schrödinger) avec des mécanismes de contrôle sémantique stricts, offrant une nouvelle direction pour les tâches de traduction d'images à fort décalage de domaine.