LLM-Bootstrapped Targeted Finding Guidance for Factual MLLM-based Medical Report Generation

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous demandez à un expert très intelligent, mais un peu distrait, de décrire une radiographie pulmonaire ou un fond d'œil. Ce "super-expert" (appelé MLLM dans le monde de l'IA) a lu des millions de livres médicaux, mais quand il regarde une image réelle, il a tendance à rêver : il invente des maladies qui n'existent pas ou, pire, il oublie les taches importantes qui sont pourtant bien visibles. C'est ce qu'on appelle l'instabilité factuelle.

Les auteurs de ce papier, de l'Université de Zhejiang, ont inventé une solution ingénieuse appelée Fact-Flow. Voici comment cela fonctionne, expliqué simplement avec des analogies :

1. Le Problème : L'Expert qui "Hallucine"

Imaginez un traducteur automatique qui doit décrire une photo. S'il regarde la photo et doit écrire le texte en même temps, il peut se tromper. Il pourrait dire : "Je vois un chat" alors qu'il n'y a qu'un chien, ou oublier de mentionner que le chien porte un collier rouge. En médecine, oublier un symptôme ou inventer une maladie est dangereux.

2. La Solution : Fact-Flow (Le Guide de Chasse)

Au lieu de laisser l'IA écrire le rapport directement, Fact-Flow divise le travail en deux étapes distinctes, comme si on séparait le chasseur de l'écrivain.

Étape 1 : Le Chasseur (L'Inventaire)

Avant d'écrire, on demande à un autre outil (un modèle d'IA spécialisé) de faire un inventaire strict de ce qu'il voit sur l'image.

L'analogie : C'est comme un inspecteur de police qui arrive sur une scène de crime. Il ne raconte pas l'histoire tout de suite. Il sort son carnet et coche une liste : "Il y a une arme ? Oui. Du sang ? Oui. Une empreinte ? Non."
L'innovation : Pour créer cette liste de "cochages" sans payer des milliers d'humains pour le faire, les auteurs ont utilisé un grand modèle de langage (LLM) comme un robot scribe. Ce robot a lu des milliers de rapports médicaux existants, a extrait les mots-clés importants (comme "tuberculose", "kyste", "hémorragie") et a créé une liste de contrôle automatique. C'est comme si le robot avait lu tous les manuels pour créer son propre dictionnaire de chasse.

Étape 2 : L'Écrivain (Le Rapport)

Une fois que le chasseur a coché la liste (ex: "Oui, tuberculose, oui, cavité"), il donne cette liste à l'écrivain (le grand modèle d'IA).

L'analogie : L'écrivain ne regarde plus l'image directement pour deviner. Il regarde la liste du chasseur et l'image, et dit : "D'accord, le chasseur a vu une tuberculose et une cavité. Je vais donc rédiger un rapport médical précis en m'appuyant sur ces faits."
Le résultat : L'écrivain ne peut plus inventer de maladies, car il est "guidé" par la liste de faits vérifiés. Il ne peut pas oublier non plus, car la liste lui rappelle ce qu'il doit inclure.

3. Pourquoi c'est génial ?

Pas de coûts humains : Habituellement, pour entraîner une IA à être précise, il faut des médecins pour annoter des milliers d'images (ce qui coûte très cher). Ici, l'IA s'est entraînée toute seule grâce à la méthode "Bootstrapped" (elle s'est aidée elle-même).
Précision médicale : Les tests montrent que cette méthode réduit considérablement les erreurs. C'est comme passer d'un élève qui récite sa leçon de mémoire (et se trompe) à un élève qui a ses notes sous les yeux.
Qualité du texte : Le rapport reste fluide, bien écrit et professionnel, mais il est désormais ancré dans la réalité de l'image.

En résumé

Fact-Flow, c'est comme donner à un écrivain de science-fiction un guide de réalité avant qu'il ne commence à écrire. Au lieu de laisser son imagination vagabonder, on lui dit : "Voici les faits : il y a un nuage, il pleut, et le sol est mouillé." L'écrivain utilise ces faits pour construire une histoire (le rapport médical) qui est à la fois belle à lire et, surtout, vraie.

C'est une avancée majeure pour rendre l'IA fiable dans les hôpitaux, où une erreur d'invention peut avoir de graves conséquences.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique : L'Instabilité Factuelle des MLLM en Médecine

La génération automatique de rapports médicaux à partir d'images diagnostiques est une tâche critique. Bien que les Modèles de Langage Multimodaux à Grande Échelle (MLLM) comme LLaVA-Med ou Qwen2.5-VL aient démontré un potentiel immense, leur application clinique est entravée par un problème majeur : l'instabilité factuelle.

Hallucinations et Omissions : Les MLLM tendent à « halluciner » des findings cliniques (découvertes médicales) qui n'existent pas sur l'image ou, à l'inverse, à omettre des observations pathologiques critiques.
Limites des approches actuelles : Les méthodes existantes génèrent souvent des rapports directement à partir des caractéristiques visuelles (end-to-end), sans base factuelle définitive. Cela conduit à des rapports cliniquement inacceptables.
Obstacle des données : Il manque de grands ensembles de données associant des images médicales à des étiquettes de findings exhaustifs. L'annotation manuelle est trop coûteuse, et les méthodes guidées par des étiquettes précédentes (comme TieNet) sont rigides et incompatibles avec les architectures MLLM modernes.

2. Méthodologie : Le Framework Fact-Flow

Pour résoudre ces problèmes, les auteurs proposent Fact-Flow, un cadre innovant qui découple la reconnaissance des faits visuels de la composition du rapport textuel. L'approche repose sur trois étapes clés :

Étape 1 : Construction de Jeu de Données par Bootstrapping via LLM

Afin de contourner le manque de données étiquetées sans annotation manuelle coûteuse, les auteurs utilisent un pipeline automatisé piloté par un LLM (GPT-5-mini dans l'expérience) :

Extraction de Taxonomie : Le LLM analyse les rapports existants pour extraire un vocabulaire unifié de concepts cliniques (maladies, caractéristiques pathologiques, localisations anatomiques, sévérité).
Normalisation et Fusion : Les concepts extraits sont fusionnés de manière itérative pour éliminer les synonymes et les redondances, créant une taxonomie canonique $L$ .
Annotation Automatique : Le LLM attribue des vecteurs binaires (présence/absence) à chaque image en fonction de la taxonomie $L$ , filtrant ensuite les étiquettes trop rares (longue traîne). Cela génère un jeu de données $(Image, Multi-label)$ sans intervention humaine.

Étape 2 : Entraînement du Modèle de Guidance (Classification Multi-label)

Un modèle de classification multi-label ( $f_{MLC}$ ) est entraîné pour prédire les findings cliniques à partir de l'image seule.

Architecture : Utilise un encodeur visuel pré-entraîné (DINOv3 avec backbone ConvNeXt).
Gestion du Déséquilibre : Les données médicales souffrent d'un déséquilibre de classes sévère (certains findings sont rares). Les auteurs adaptent la méthode de Logit Adjustment : ils ajustent les logits bruts en fonction de la fréquence empirique des étiquettes pour rééquilibrer la frontière de décision, améliorant ainsi le rappel (recall) sur les classes rares.

Étape 3 : Génération de Rapport Guidée par les Étiquettes

Le MLLM est affiné (fine-tuned) pour générer le rapport final, mais cette fois-ci conditionné par les findings prédits.

Entraînement : Le modèle reçoit l'image et les étiquettes de vérité terrain (sérialisées en texte naturel, ex: « L'image montre les findings suivants : [A], [B]... ») comme prompt d'entrée.
Inférence : Lors de la génération réelle, les étiquettes de vérité terrain sont inconnues. Le système utilise les étiquettes prédites par le modèle de l'Étape 2 pour guider le MLLM. Cela force le modèle à ancrer son rapport sur des faits cliniques identifiés explicitement, réduisant les hallucinations.

3. Contributions Clés

Framework Fact-Flow : Une nouvelle architecture qui améliore la précision factuelle des MLLM via un conditionnement explicite par des findings cliniques multi-étiquettes.
Pipeline de Données Automatisé : Une méthode entièrement automatisée utilisant un LLM pour construire des jeux de données massifs $(Image, Multi-label)$ à partir de rapports existants, éliminant le besoin d'annotation manuelle coûteuse.
Validation Empirique : Une validation rigoureuse sur deux ensembles de données focalisés sur des maladies spécifiques (tuberculose et ophtalmologie), démontrant une amélioration significative par rapport à l'état de l'art.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux jeux de données :

Tuberculose (Chest X-ray) : 561 images d'entraînement.
Ophtalmologie : 1 854 cas multimodaux (fond d'œil, OCT, OCTA) avec rapports en chinois.

Performances :

Précision Factuelle (RadFact) : Sur le jeu de données tuberculose, Fact-Flow améliore considérablement les scores F1 cliniques. Par exemple, MedGemma + Fact-Flow atteint un F1 de 0.3055 contre 0.2266 pour le modèle de base, et résout le problème de « collapse de mode » où les modèles de base (comme Qwen2.5-VL) avaient un rappel quasi nul (0.0145) malgré une haute précision.
Qualité Textuelle (NLG) : Les métriques de génération de langage naturel (BLEU, ROUGE-L, CIDEr) sont préservées ou améliorées. Sur le jeu de données ophtalmologie, Qwen2.5-VL + Fact-Flow obtient les meilleurs scores sur la plupart des métriques (ex: BLEU-4 à 0.5567 vs 0.4506 pour le modèle de base).
Analyse de Guidance : L'expérience montre que l'ajout des étiquettes prédites (Label Only) améliore déjà significativement les résultats par rapport à l'image seule. La combinaison Image + Étiquettes (Fact-Flow complet) offre les meilleures performances pratiques. L'écart entre les étiquettes prédites et les étiquettes de vérité terrain (Oracle) indique que la qualité des étiquettes prédites est le goulot d'étranglement principal, mais que l'approche est déjà très efficace.

5. Signification et Impact

Ce travail est significatif pour plusieurs raisons :

Fiabilité Clinique : Il adresse directement le principal obstacle à l'adoption des IA en milieu clinique : la fiabilité factuelle. En séparant la détection des faits de la rédaction, le système réduit les risques d'erreurs médicales graves.
Accessibilité des Données : La méthode de bootstrapping via LLM rend possible l'entraînement de modèles guidés par des faits sur des domaines médicaux spécifiques sans coût d'annotation humain prohibitif.
Généralité : Fact-Flow est un framework « plug-and-play » compatible avec n'importe quelle architecture MLLM, offrant une voie prometteuse pour des applications médicales plus sûres et plus précises.

En résumé, Fact-Flow transforme la génération de rapports médicaux d'un processus purement génératif (souvent sujet aux hallucinations) en un processus guidé par des faits, assurant que le rapport final est ancré dans les observations cliniques réelles détectées sur l'image.