Deformation-Free Cross-Domain Image Registration via Position-Encoded Temporal Attention

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de superposer deux photos d'un même paysage, mais prises dans des conditions très différentes. L'une a été prise par temps ensoleillé (très lumineux), l'autre par temps gris (sombre et bleuté). De plus, la deuxième photo est légèrement décalée ou tournée.

Le but de l'enregistrement d'images (image registration) est de faire coïncider parfaitement ces deux photos pour qu'elles ne forment plus qu'une seule image parfaite.

Le problème habituel : "Chercher la déformation"

Traditionnellement, les ordinateurs essaient de résoudre ce problème en calculant une "carte de déformation". C'est comme si l'ordinateur devait dessiner un réseau de flèches sur la première photo pour dire : "Ce pixel doit bouger ici, celui-là doit glisser là-bas".
Le problème ? Si les deux photos ont des couleurs ou des lumières très différentes (comme le jour et la nuit), l'ordinateur se trompe souvent. Il confond le changement de couleur avec un changement de forme, et le résultat devient flou ou déformé.

La solution de l'article : "La recette de séparation"

Les auteurs (Yiwen Wang et Jiahao Qin) ont eu une idée brillante : au lieu de forcer l'ordinateur à calculer des mouvements complexes, pourquoi ne pas séparer l'image en deux ingrédients distincts, comme dans une recette de cuisine ?

Ils proposent de décomposer chaque image en deux parties :

La Structure du Paysage (Le "Quoi" et le "Où") : C'est la forme des objets, les contours, la géométrie. C'est ce qui reste identique, que ce soit jour ou nuit.
Le Style de l'Image (Le "Comment ça a l'air") : C'est la couleur, la luminosité, le grain. C'est ce qui change selon l'appareil photo ou la météo.

L'analogie du Mannequin et du Costume :
Imaginez un mannequin (la structure du paysage) et un costume (l'apparence).

L'image "déplacée" (Moving) est le mannequin avec un costume gris.
L'image "fixe" (Fixed) est le même mannequin, mais avec un costume rouge.
Le but n'est pas de déformer le mannequin pour qu'il ressemble au costume rouge. Le but est de garder le mannequin tel quel (car il est déjà bien placé) et simplement lui mettre le costume rouge.

C'est exactement ce que fait leur système, appelé GPEReg-Net. Il enlève le "costume gris" de la première image, garde le mannequin, et lui enfile le "costume rouge" de la deuxième image. Résultat : les deux images sont parfaitement alignées et ont la bonne couleur, sans avoir besoin de calculer des mouvements complexes.

L'astuce supplémentaire : "La mémoire du temps"

Le papier ajoute une couche intelligente pour les vidéos ou les séquences d'images (comme une vidéo médicale).
Imaginez que vous regardez une vidéo. Si vous regardez une seule image, vous pouvez être confus. Mais si vous regardez l'image d'avant et celle d'après, vous comprenez mieux le mouvement.

Le système utilise une attention temporelle. C'est comme si l'ordinateur avait une petite mémoire à court terme : "Attends, dans l'image précédente, cet arbre était ici. Dans celle-ci, il est un peu plus à droite. Je vais utiliser cette information pour mieux comprendre où il doit être."
Cela permet au système d'être beaucoup plus précis et stable, même si les images sont prises rapidement les unes après les autres.

Les résultats : Plus rapide et plus précis

Les auteurs ont testé leur méthode sur deux types de défis :

Des yeux (Rétine) : Des images médicales où les tissus sont un peu flexibles.
Des textures synthétiques : Des images générées par ordinateur avec des motifs complexes.

Le verdict ?

Précision : Leur méthode est la meilleure du marché (State-of-the-Art). Elle produit des images plus nettes et plus fidèles que les anciennes méthodes.
Vitesse : C'est le plus grand atout. Comme ils ne calculent pas de "carte de déformation" complexe, leur système est presque deux fois plus rapide que le précédent champion. C'est comme passer d'une voiture de sport lente à une fusée : même puissance, mais beaucoup plus rapide.

En résumé

Ce papier nous dit : "Pour aligner deux images différentes, ne cherchez pas à les tordre. Séparez simplement ce qui est la forme (qui ne change pas) de ce qui est la couleur (qui change), puis remettez-les ensemble intelligemment."

C'est une approche plus simple, plus rapide et souvent plus efficace, qui pourrait révolutionner la façon dont nous analysons les images médicales ou les vidéos en temps réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : Enregistrement d'images inter-domaines

L'article aborde le défi de l'enregistrement d'images entre deux domaines différents (cross-domain), où une image mobile ( $I_m$ ) et une image fixe ( $I_f$ ) présentent à la fois un désalignement géométrique et un décalage d'apparence spécifique au domaine (changement de distribution d'intensité).

Limites des approches existantes :
- Les méthodes classiques (SIFT, Demons, flux optique) et les méthodes d'apprentissage profond basées sur des champs de déformation (VoxelMorph, TransMorph) reposent souvent sur l'hypothèse de constance de la luminosité ( $I_m(x) \approx I_f(x+u)$ ), qui est systématiquement violée dans les contextes inter-domaines.
- Les méthodes de séparation scène-apparence existantes utilisent des architectures génératives complexes sans tenir compte de la cohérence temporelle dans les acquisitions séquentielles.

2. Méthodologie : GPEReg-Net

Les auteurs proposent une nouvelle approche fondée sur la factorisation de l'image, évitant ainsi l'estimation explicite d'un champ de déformation.

A. Concept Central : Factorisation Scène-Apparence

L'idée clé est de décomposer chaque image en deux composantes latentes :

Représentation de la scène ( $s$ ) : Une représentation invariante au domaine qui encode la structure spatiale.
Statistique d'apparence globale ( $a$ ) : Un vecteur codant le profil d'intensité spécifique au domaine.

L'enregistrement est alors réduit à la recombinaison de la structure de la scène de l'image mobile ( $s_m$ ) avec l'apparence de l'image fixe ( $a_f$ ) via la Normalisation Adaptative par Instance (AdaIN), sans calculer de champ de déformation $u(x)$ .

B. Architecture du Réseau (GPEReg-Net)

Le modèle est composé de quatre modules principaux :

SceneEncoder (S) : Un réseau de type U-Net avec des connexions résiduelles et une Normalisation par Instance (IN). L'IN élimine les statistiques d'intensité par instance, ne conservant que la structure spatiale pour produire une carte de caractéristiques $s \in \mathbb{R}^{64 \times H \times W}$ .
AppearanceEncoder (A) : Un encodeur CNN (convolutions avec pas de 2, pooling moyen global, couches fully connected) qui extrait un code d'apparence global $a \in \mathbb{R}^{32}$ de l'image fixe, capturant les statistiques d'intensité sans information spatiale.
Global Position Encoding (GPE) : Un module innovant qui enrichit les caractéristiques de la scène avec un contexte temporel pour les acquisitions séquentielles. Il combine :
- Des embeddings de position apprenables.
- Un encodage sinusoïdal fixe.
- Une attention multi-têtes inter-cadres sur une fenêtre glissante de $k$ voisins (ici $k=2$ ).
- Ces éléments sont fusionnés via un MLP et ajoutés aux caractéristiques de la scène avec un facteur d'échelle $\alpha=0.1$ .
ImageDecoder (D) : Il reconstruit l'image enregistrée $\hat{I}_r$ en injectant le code d'apparence $a_f$ dans les caractéristiques de scène enrichies $\tilde{s}_m$ via des blocs AdaIN.

C. Fonction de Perte

L'optimisation utilise une perte bi-objective :

Fidélité de reconstruction ( $L_{recon}$ ) : Erreur L1 entre l'image reconstruite et l'image fixe.
Régularisation de factorisation ( $L_{scene}$ ) : Terme de consistance qui force les représentations de scène de l'image mobile et de l'image fixe à être identiques ( $\|S(I_m) - S(I_f)\|^2_2$ ), garantissant que la séparation est bien invariante au domaine.

3. Contributions Clés

Factorisation Scène-Apparence : Formalisation de l'enregistrement inter-domaines comme un problème de factorisation latente, éliminant le besoin d'estimer des champs de déformation complexes.
Attention Temporelle Encodée en Position : Introduction d'un module GPE exploitant la cohérence temporelle via des embeddings de position et une attention inter-cadres, améliorant la consistance dans les séquences d'images.
Évaluation Transversale : Validation réussie sur deux benchmarks hétérogènes (médical et synthétique) avec des performances de pointe (SOTA).

4. Résultats Expérimentaux

Les performances ont été évaluées sur deux benchmarks : FIRE-Reg-256 (rétine, déformations semi-rigides) et HPatches-Reg-256 (patches texturés synthétiques, transformations affines).

Sur FIRE-Reg-256 (Médical)

Performance : GPEReg-Net atteint un SSIM de 0,928 et un PSNR de 33,47 dB, surpassant toutes les méthodes de base (y compris VoxelMorph, TransMorph et SAS-Net).
Comparaison : Il améliore significativement le PSNR par rapport à SAS-Net (+1,26 dB), grâce au module GPE.

Sur HPatches-Reg-256 (Synthétique/Affine)

Performance : Avec un SSIM de 0,450 et un PSNR de 21,01 dB, le modèle surpasse également les méthodes basées sur la déformation (VoxelMorph, TransMorph) qui peinent avec les grandes transformations affines (rotations ±15°, translations ±20px).
Généralisation : Cela démontre que l'architecture se transfère efficacement à des domaines d'imagerie fondamentalement différents sans réajustement architectural.

Efficacité Computationnelle

Vitesse : GPEReg-Net fonctionne à 69 FPS sur une RTX 5090.
Comparaison : Il est 1,87 fois plus rapide que SAS-Net (37 FPS) grâce à son architecture de décodage basée sur AdaIN, tout en étant plus précis. Bien que les méthodes de déformation (VoxelMorph) soient plus rapides (327+ FPS), elles offrent une qualité d'enregistrement nettement inférieure.

5. Signification et Conclusion

Ce travail propose un changement de paradigme dans l'enregistrement d'images inter-domaines :

Débarrassé des champs de déformation : En traitant l'enregistrement comme une réattribution d'apparence sur une structure géométrique fixe, le modèle évite les pièges des hypothèses de constance de luminosité.
Robustesse et Rapidité : La méthode combine une haute précision (SOTA sur deux benchmarks très différents) avec une vitesse d'inférence compatible avec le temps réel, ce qui est crucial pour les applications cliniques (ex: imagerie rétinienne).
Limites et Perspectives : Le modèle actuel suppose des décalages d'apparence globaux. Les auteurs suggèrent que des décalages spatialement variables (gradients d'éclairage locaux) pourraient nécessiter des cartes d'apparence conditionnées spatialement $a(x)$ , et que l'encodage de position fixe pourrait être remplacé par des encodages adaptatifs pour des séquences plus longues.

En résumé, GPEReg-Net démontre qu'une factorisation intelligente de l'information (scène vs apparence) couplée à une attention temporelle est une voie plus efficace et robuste que l'estimation directe de déformations pour l'enregistrement d'images complexes.