Retrieval-Augmented Anatomical Guidance for Text-to-CT Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un artiste de dessiner un paysage en lui donnant seulement une description écrite, comme : « Il y a un vieux chêne au milieu d'un champ, avec un ruisseau qui coule à côté ».

Si l'artiste ne connaît pas bien la géographie, il pourrait dessiner un arbre qui flotte dans les nuages, ou un ruisseau qui traverse le tronc de l'arbre. C'est le problème actuel de l'intelligence artificielle médicale : elle sait écrire de belles descriptions (les rapports médicaux), mais elle a du mal à respecter la logique anatomique du corps humain (où les organes sont réellement placés).

Voici comment les auteurs de cette recherche ont résolu ce problème, expliqué simplement :

1. Le Problème : Le Texte est Trop Flou

Les médecins écrivent des rapports pour décrire ce qu'ils voient sur une radio (ex: « une tumeur dans le poumon gauche »). Mais ces textes ne disent pas exactement où placer les côtes, le cœur ou le foie.

L'approche actuelle (Texte seul) : C'est comme si l'IA essayait de deviner la forme du corps. Elle peut être très créative, mais elle risque de faire des erreurs bizarres (un cœur à l'envers, des poumons trop petits).
L'approche classique (Modèles existants) : Pour être précis, on donne habituellement à l'IA un « gabarit » (une carte précise du corps). Mais dans la vraie vie, quand on veut créer une nouvelle radio, on n'a pas encore ce gabarit ! C'est un cercle vicieux.

2. La Solution Magique : Le « Copier-Coller » Intelligent

Les chercheurs ont inventé une méthode appelée RAG (Génération Augmentée par Récupération). Voici l'analogie pour comprendre :

Imaginez que vous voulez construire une maison sur mesure basée sur une description écrite. Au lieu de tout inventer de zéro, vous allez dans une bibliothèque de maisons existantes.

Vous lisez votre description (« maison avec un grand grenier et une cheminée »).
Vous cherchez dans la bibliothèque la maison qui ressemble le plus à cette description.
Vous prenez le plan d'architecte (la structure) de cette maison trouvée.
Vous donnez ce plan à votre constructeur, en lui disant : « Utilise ce plan comme base, mais peins la maison exactement comme je l'ai décrite dans mon texte ».

C'est exactement ce que fait l'IA ici :

Elle prend un rapport médical (le texte).
Elle cherche dans sa base de données un cas médical réel qui ressemble beaucoup à ce texte.
Elle récupère la structure anatomique (la forme des organes) de ce cas réel.
Elle utilise cette structure comme un échafaudage (un squelette invisible) pour guider la création de la nouvelle image.

3. Comment ça marche techniquement (sans les maths)

L'IA utilise deux outils principaux :

Le Traducteur (Vision-Language Encoder) : C'est un expert qui lit le texte du médecin et trouve le dossier médical correspondant dans la bibliothèque. Il dit : « Ah, ce texte parle d'un poumon gauche, je vais chercher un dossier avec un poumon gauche similaire ».
Le Guide de Construction (ControlNet) : Une fois qu'elle a trouvé le dossier, elle prend la « carte » des organes de ce dossier. Elle ne copie pas l'image, elle copie juste la forme. Elle donne cette forme à l'IA créatrice en disant : « Construis l'image en respectant cette forme, mais change les détails selon le texte ».

4. Les Résultats : Pourquoi c'est génial ?

Grâce à cette astuce, l'IA produit des images médicales (des scanners 3D) qui sont :

Réalistes : Elles ressemblent à de vraies radios.
Logiques : Les organes sont bien placés (le cœur est à gauche, les poumons de chaque côté).
Contrôlables : On peut toujours changer le texte pour modifier la maladie, mais la structure de base reste solide.

C'est comme si l'IA avait appris à dessiner en regardant des milliers de dessins d'anatomie, et qu'elle utilisait ces souvenirs pour s'assurer que ses nouveaux dessins ne contenaient pas d'erreurs grossières.

En résumé

Au lieu de demander à l'IA de deviner la forme du corps humain à partir d'un texte (ce qui est difficile), les chercheurs lui disent : « Regarde ce cas réel qui ressemble à ta demande, utilise sa structure comme modèle, et dessine ta propre version dessus. »

Cela permet de créer des images médicales de haute qualité pour former des médecins ou tester des traitements, sans avoir besoin de données réelles et privées à chaque fois, tout en évitant les erreurs anatomiques grotesques.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La génération d'images médicales volumétriques (comme les scanners CT) à partir de rapports textuels (Text-to-CT) est un défi majeur en intelligence artificielle. Deux approches existantes présentent des limites intrinsèques :

Les méthodes basées uniquement sur le texte : Elles offrent une grande flexibilité sémantique (le modèle suit la description du rapport) mais manquent de contraintes anatomiques explicites. Cela conduit souvent à des sorties spatialement ambiguës ou anatomiquement incohérentes (ex: organes mal positionnés).
Les méthodes basées sur la structure (masques) : Elles garantissent une cohérence anatomique forte en utilisant des masques de segmentation comme condition d'entrée. Cependant, elles nécessitent l'accès à des annotations de vérité terrain (ground-truth) au moment de l'inférence, ce qui est irréaliste pour la synthèse d'images où l'annotation n'existe pas encore.

L'objectif est de combiner la flexibilité sémantique du texte avec la cohérence spatiale des structures, sans avoir besoin d'annotations explicites lors de la génération.

2. Méthodologie

Les auteurs proposent un cadre de Génération Augmentée par Récupération (RAG) appliqué à la synthèse 3D de CT. L'idée centrale est de traiter l'information anatomique non pas comme une entrée directe, mais comme un proxy structurel récupérable.

Le pipeline se décompose en trois étapes principales :

A. Récupération du Proxy Structurel

Étant donné un rapport radiologique d'entrée ( $r$ ), le système utilise un encodeur vision-langage 3D pré-entraîné pour récupérer un cas clinique similaire dans un corpus de référence (ensemble d'entraînement).
La similarité est calculée via la similarité cosinus dans l'espace d'embedding partagé.
À partir du cas récupéré, le système extrait l'annotation anatomique associée (par exemple, un masque de segmentation) qui sert de proxy structurel ( $m$ ). Ce proxy agit comme un "échafaudage" spatial grossier, reflétant une anatomie plausible mais non parfaite pour le cas cible.

B. Intégration via ControlNet

Le modèle de génération de base est un modèle de diffusion latent conditionné par le texte (utilisant des embeddings CLIP étendus au 3D).
Pour intégrer le proxy anatomique sans altérer le générateur pré-entraîné, les auteurs utilisent une branche ControlNet.
Cette branche ajoute un flux de contrôle parallèle qui injecte le proxy $m$ (masque récupéré) dans le processus de diffusion.
Les features de contrôle sont ajoutées aux connexions résiduelles du backbone gelé via des convolutions initialisées à zéro. Cela permet au modèle d'apprendre à corriger la génération vers une cohérence anatomique tout en conservant la variabilité sémantique induite par le rapport textuel.

C. Inférence

Lors de la génération, le système ne demande aucune annotation. Il récupère dynamiquement le proxy le plus pertinent basé sur le texte, l'injecte dans le modèle, et génère le volume CT.

3. Contributions Clés

Cadre RAG pour l'imagerie médicale 3D : Introduction d'une formulation où la structure anatomique est modélisée comme une source d'information latente récupérable, éliminant le besoin d'annotations au moment de l'inférence.
Stratégie d'intégration multimodale : Développement d'une méthode utilisant ControlNet pour injecter des proxies anatomiques récupérés dans un modèle de diffusion conditionné par le texte, permettant un guidage anatomique sans perte de flexibilité sémantique.
Évaluation exhaustive : Analyse quantitative et qualitative démontrant l'impact de la qualité de la récupération sur la fidélité de l'image, la cohérence clinique et le contrôle spatial.

4. Résultats Expérimentaux

Les expériences ont été menées sur le dataset CT-RATE (scanners thoraciques 3D et rapports). Les résultats sont comparés à des méthodes basées sur le texte (GenerateCT, MedSyn, Text-to-CT) et à une méthode basée sur des masques (MAISI).

Fidélité de l'image (FID) : L'approche RAG améliore significativement la fidélité par rapport aux méthodes purement textuelles. La variante avec récupération du cas le plus proche (RAG-Nearest) obtient les meilleurs scores (FID 2.5D moyen de 0.303), surpassant même MAISI (qui n'a pas de conditionnement sémantique).
Cohérence Clinique : Évaluée via un classificateur CT-Net. La méthode RAG-Nearest atteint un AUC de 0.787, supérieur aux baselines textuelles (ex: 0.745 pour Text-to-CT), indiquant une meilleure préservation des motifs pathologiques pertinents.
Contrôle Spatial : Mesuré par le score Dice et la distance Hausdorff (HD95) entre le masque prédit et le proxy récupéré. RAG-Nearest atteint un Dice de 0.772, se rapprochant de la performance de MAISI (0.792) qui utilise la vérité terrain, tout en conservant la capacité à suivre le texte.
Impact de la Récupération : L'ablation montre que la qualité de la récupération est cruciale. Récupérer un cas sémantiquement proche (Nearest) est nettement supérieur à un cas aléatoire ou éloigné (Farthest), prouvant que le proxy doit être anatomiquement pertinent pour le rapport donné.

5. Signification et Conclusion

Ce travail propose une solution élégante au compromis entre contrôle sémantique et cohérence anatomique dans la synthèse d'images médicales. En traitant l'anatomie comme un "proxy récupérable" plutôt que comme une annotation fixe, la méthode :

Rend la génération de CT réaliste et cliniquement plausible sans nécessiter de données annotées coûteuses lors de l'inférence.
Offre un contrôle spatial explicite là où les modèles purement textuels échouent.
Démontre que l'alignement sémantique entre le rapport et le cas récupéré est le facteur déterminant pour la qualité de la génération.

Cette approche ouvre la voie à des applications de simulation médicale, d'augmentation de données et d'apprentissage respectueux de la vie privée, en comblant le fossé entre la description clinique et la réalité anatomique 3D.