Unpaired Image-to-Image Translation via a Self-Supervised Semantic Bridge

Each language version is independently generated for its own context, not a direct translation.

🌉 Le Pont Sémantique : Traduire des Images sans Dictionnaire

Imaginez que vous voulez traduire un livre écrit dans une langue que personne ne connaît (disons, le "langage des IRM médicales") vers une autre langue tout aussi obscure (le "langage des scanners CT"), mais sans avoir jamais eu la chance de voir les deux textes côte à côte. C'est le défi de la "traduction d'images non appariée".

Les méthodes actuelles sont comme des traducteurs automatiques qui apprennent par cœur des paires de phrases. Si le texte change un peu, ils paniquent. D'autres méthodes essaient de deviner le sens en "inversant" l'image, mais elles finissent souvent par perdre les détails importants, comme si on essayait de reconstruire un château de sable après une marée haute.

Les auteurs de ce papier proposent une solution brillante : Le Pont Sémantique Auto-Supervisé (SSB).

1. L'Analogie du Traducteur Polyglotte 🗣️

Imaginez que vous avez deux personnes :

Alice parle le "langage des IRM".
Bob parle le "langage des CT".

Ils ne se comprennent pas. Pour les faire communiquer, on ne leur donne pas un dictionnaire (car on n'a pas de paires d'images). À la place, on leur donne un traducteur universel (le "Pont Sémantique").

Ce traducteur est une intelligence artificielle entraînée à ne regarder que la structure (les os, les organes, la forme) et à ignorer le style (la couleur, le contraste, la texture).

Quand Alice montre une image d'un rein, le traducteur ne dit pas "Oh, c'est gris et flou". Il dit : "C'est un rein, il est rond, il est à gauche".
Quand Bob reçoit ce message, il dessine un rein, mais avec son propre style (blanc et net, comme un scanner CT).

Le secret ? Ce traducteur est un "expert en géométrie". Il a été entraîné à être insensible aux changements d'apparence (comme changer la lumière d'une photo) mais très sensible aux changements de forme. C'est comme un architecte qui voit les murs et les poutres, peu importe si la maison est peinte en rouge ou en bleu.

2. Comment ça marche ? (Le processus en 3 étapes) 🛠️

L'Analyse (Le Traducteur) : On prend l'image source (ex: une IRM). On passe l'image à travers un "œil" spécial (un encodeur visuel) qui extrait uniquement la squelette géométrique de l'image. On obtient une sorte de "plan d'architecte" abstrait.
Le Pont (Le Lien) : Ce plan d'architecte est le même, que l'image vienne d'une IRM ou d'un CT. C'est le langage commun.
La Reconstruction (Le Peintre) : On prend ce plan et on le donne à un "peintre" (un modèle de diffusion) qui sait comment peindre des images CT. Le peintre regarde le plan et dit : "Ah, c'est un rein, je vais le peindre en style CT".

Le résultat ? Une image CT qui ressemble parfaitement à l'IRM d'origine en termes de forme, mais qui a l'apparence d'un vrai scanner.

3. Pourquoi c'est révolutionnaire ? 🚀

Pas besoin de jumeaux : Avant, il fallait des milliers de paires d'images (une IRM + son CT exact) pour entraîner le modèle. Ici, on peut mélanger n'importe quelle IRM avec n'importe quel CT. C'est comme apprendre à cuisiner sans avoir besoin de voir la recette exacte, juste en goûtant les ingrédients séparément.
Robustesse aux surprises : Si vous donnez au modèle une IRM avec un contraste bizarre (que le modèle n'a jamais vu), il ne panique pas. Comme il se base sur la structure (les os, les organes) et non sur la couleur, il réussit quand même à faire une belle image CT. C'est comme si un traducteur comprenait le sens d'une phrase même si l'accent de l'orateur était très fort.
Éditing par texte : On peut aussi utiliser ce pont pour modifier des images avec du texte. Vous dites "changez l'été en hiver", le modèle garde la structure de la scène (les arbres, les maisons) mais change la peau (la neige, les feuilles mortes).

4. Les Résultats en Bref 📊

Les auteurs ont testé ça sur deux terrains :

La Médecine : Transformer des IRM (images floues et sombres) en CT (images nettes et claires) pour aider les médecins à planifier des opérations. Le résultat est si bon qu'il rivalise avec des méthodes qui, elles, avaient accès aux réponses exactes (supervisées).
L'Art et la Nature : Transformer un cheval en zèbre ou une pomme en orange, ou changer le décor d'une photo (été -> hiver) en gardant les objets bien à leur place.

En résumé 🎯

Ce papier propose de construire un pont invisible entre deux mondes (deux types d'images) en utilisant un langage commun basé sur la forme. Au lieu d'essayer de mémoriser chaque paire d'images, le modèle apprend à voir l'essence géométrique des choses. C'est comme passer d'un apprentissage par cœur à une véritable compréhension du sens, permettant de traduire des images avec une précision chirurgicale, même sans avoir jamais vu les deux versions ensemble.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La traduction d'images non appariées (Image-to-Image ou I2I) vise à transformer des images d'un domaine source vers un domaine cible sans utiliser de paires d'images correspondantes. Bien que les méthodes basées sur les GANs (comme CycleGAN) et les approches récentes utilisant l'inversion de modèles de diffusion aient fait des progrès, elles souffrent de limitations majeures :

Méthodes adverses : Elles nécessitent souvent des pertes adversariales complexes et peinent à généraliser à des données hors distribution (OOD), comme des contrastes d'IRM non vus lors de l'entraînement.
Méthodes par inversion : Elles inversent l'image dans l'espace latent de bruit d'un modèle de diffusion pré-entraîné. Cependant, cette inversion est imparfaite, ce qui entraîne une propagation d'erreurs et une dérive structurelle (l'image traduite ne conserve pas fidèlement la géométrie de l'origine).
Dépendance aux données appariées : De nombreuses méthodes de ponts de diffusion (diffusion bridges) nécessitent des paires d'images pour l'entraînement, ce qui est rare en imagerie médicale.

L'objectif est donc de développer un cadre capable de préserver la fidélité structurelle et la géométrie tout en permettant une traduction de haute qualité sans supervision par paires et sans perte adversariale.

2. Méthodologie : Le Pont Sémantique Auto-Supervisé (SSB)

Les auteurs proposent SSB (Self-Supervised Semantic Bridge), un cadre unifié qui connecte différents domaines via un espace latent sémantique partagé, appris de manière auto-supervisée.

A. Hypothèse de l'Espace Latent Partagé

Le cœur de la méthode repose sur l'hypothèse que des observations multi-domaines (par exemple, une IRM et un scanner CT) partagent une représentation latente commune $y$ qui capture le contenu sémantique et géométrique, indépendamment de l'apparence (texture, contraste).

Au lieu d'apprendre une mapping direct $X \to Y$ , le modèle apprend à encoder chaque domaine vers un point d'ancrage commun $y$ via un encodeur sémantique $E_\phi$ .
La traduction d'un domaine $j$ $j$ vers un domaine $i$ $i$ s'effectue en deux étapes :
1. Encodage : $x^{(j)} \to y = E_\phi(x^{(j)})$ .
2. Décodage conditionnel : Échantillonnage depuis le pont de diffusion conditionné par $y$ pour générer $x^{(i)}$ .

B. Encodeur Sémantique Auto-Supervisé

Pour obtenir cet espace latent invariant à l'apparence mais sensible à la géométrie, les auteurs utilisent des encodeurs visuels auto-supervisés (famille DINO/DINOv2).

Invariance à l'apparence : En exploitant l'auto-distillation, l'encodeur apprend à être insensible aux transformations d'apparence (couleur, contraste) tout en conservant la structure spatiale.
Adaptation Médicale : Pour la tâche IRM $\to$ CT, un encodeur DINOv2 est finetuné avec un filtre inspiré de la rétine. Ce filtre supprime les indices d'apparence spécifiques à la modalité (comme le contraste) et renforce les informations structurelles à haute fréquence, assurant une meilleure alignement géométrique entre les modalités médicales.

C. Modèles de Ponts de Diffusion (Diffusion Bridges)

Une fois l'encodeur défini, des modèles de ponts de diffusion sont entraînés indépendamment pour chaque domaine.

Trajectoire : Le modèle apprend un chemin stochastique ou déterministe reliant le latent partagé $y$ (point d'arrivée $z_T$ ) aux latents spécifiques du domaine (point de départ $z_0$ ).
Flexibilité :
- Pour les tâches à forte cohérence géométrique (ex: IRM $\to$ CT), le point d'arrivée est déterministe ( $b=0$ ), garantissant une fidélité stricte.
- Pour les tâches à ambiguïté sémantique (ex: images naturelles), un point d'arrivée stochastique ( $b>0$ ) permet au modèle de générer des détails d'apparence valides tout en respectant la structure.
Avantage d'échelle : Contrairement aux méthodes couplées qui nécessitent un entraînement par paire de domaines ( $O(N^2)$ ), SSB nécessite l'entraînement d'un seul modèle par domaine ( $O(N)$ ), ce qui permet une extension facile à de nouveaux domaines.

3. Contributions Clés

Cadre SSB : Introduction d'une méthode simple mais efficace pour la traduction non appariée, reposant sur un espace latent sémantique partagé et un entraînement par domaine indépendant, sans pertes adversariales ni supervision par paires.
Représentation Géométrique IRM-CT : Développement d'une représentation spécifique pour la traduction IRM-CT via un pré-entraînement DINOv2 avec un filtre de rétine, permettant des performances comparables aux approches supervisées même sur des données hors distribution (OOD).
Extensibilité : Démonstration que le cadre s'étend facilement à la traduction d'images naturelles (ex: Cheval $\to$ Zèbre) et à l'édition guidée par texte, surpassant les méthodes de l'état de l'art.
Analyse Théorique : Fourniture d'une analyse d'erreur théorique (Théorème 4.1) qui quantifie la propagation des erreurs de l'encodeur et du champ vectoriel, prouvant que l'erreur de traduction reste bornée même avec un encodeur imparfait.

4. Résultats Expérimentaux

Les expériences ont été menées sur des tâches médicales et naturelles :

Traduction Médicale (IRM $\to$ CT) :
- Données : SynthRAD2023/2025 (domaine) et UKBB (hors domaine/OOD).
- Performance : SSB surpasse les méthodes de référence (CycleGAN, UNIT, SDEdit, DDIB, SynDiff) en termes de FID (Fréchet Inception Distance) et de similarité structurelle (MS-SSIM).
- Robustesse OOD : Le modèle maintient une haute fidélité structurelle sur des contrastes IRM non vus lors de l'entraînement, là où les autres méthodes échouent ou produisent des artefacts.
- Équité : Les résultats sont comparables aux approches supervisées (I2SB, SelfRDB) mais sans utiliser de paires d'images pour l'entraînement du pont.
Traduction d'Images Naturelles (Cheval $\to$ Zèbre, Pomme $\to$ Orange) :
- SSB atteint un meilleur équilibre entre l'adhésion au texte (CLIP-T) et la préservation structurelle (DINO, PSNR) par rapport à CycleGAN, CUT et ControlNet.
Édition Guidée par Texte :
- En utilisant SD3-M (Stable Diffusion 3), SSB permet une édition textuelle précise (changement de saison, modification d'objets) tout en préservant la structure de l'image source mieux que FlowEdit et ControlNet, particulièrement dans les scènes complexes.

5. Signification et Impact

Ce travail est significatif pour plusieurs raisons :

Déverrouillage de la généralisation : En découplant la traduction de l'alignement explicite entre domaines, SSB résout le problème de la généralisation aux données hors distribution, crucial pour l'imagerie médicale où les protocoles d'acquisition varient.
Efficacité et Évolutivité : L'approche modulaire (un modèle par domaine) réduit considérablement le coût computationnel et la complexité d'ajout de nouveaux domaines par rapport aux méthodes couplées.
Préservation Structurelle : L'utilisation d'encodeurs sémantiques auto-supervisés comme interface commune offre une solution élégante au compromis classique entre changement d'apparence et préservation de la géométrie, évitant les artefacts structurels courants des méthodes d'inversion.
Applications Médicales : La capacité à synthétiser des CT à partir d'IRM non appariées avec une fidélité anatomique élevée ouvre la voie à des applications cliniques réelles (planification de radiothérapie, réduction de l'exposition aux rayonnements) sans nécessiter de données appariées coûteuses à obtenir.

En résumé, SSB propose un changement de paradigme en remplaçant l'alignement direct des distributions par un alignement via un espace sémantique abstrait, offrant robustesse, fidélité et scalabilité.