Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes un détective médical chargé d'analyser des images gigantesques de tissus humains (des "lames" de microscope) pour écrire un rapport de diagnostic. Le problème ? Ces images sont si immenses qu'elles ressemblent à des cartes géographiques de pays entiers, et les mots médicaux sont très précis.

Les chercheurs de ViseurAI ont créé un nouvel assistant IA pour aider les pathologistes. Voici comment ils ont fait, en utilisant des métaphores simples :

1. Le problème : Une image trop grande pour un cerveau humain (ou une IA)

Une image de tissu médical (WSI) est gigantesque. C'est comme essayer de lire un livre entier en regardant une seule photo de la couverture. Si on essaie de tout analyser d'un coup, l'ordinateur s'essouffle et plante. De plus, les IA classiques ont tendance à "halluciner" (inventer des choses qui ne sont pas là), ce qui est dangereux en médecine.

2. La solution : Une stratégie en trois étapes

Étape 1 : Le "Zoom Intelligent" (L'exploration pyramide)

Au lieu de regarder toute l'image d'un coup, l'IA utilise une stratégie de recherche en pyramide.

L'analogie : Imaginez que vous cherchez un objet perdu dans un stade de football. Vous ne commencez pas par inspecter chaque brin d'herbe. D'abord, vous regardez le stade de loin (vue d'ensemble) pour repérer les zones où il y a du monde. Ensuite, vous zoomez sur ces zones. Enfin, vous vous approchez pour voir les détails.
Dans le papier : L'IA regarde d'abord l'image à basse résolution pour trouver où il y a du tissu (et ignorer le verre vide). Elle ne garde que les "taches" intéressantes. Elle filtre aussi les images floues ou sales (comme si elle jetait les photos floues prises par un photographe amateur).

Étape 2 : Le "Cerveau Expert" figé (Le modèle UNI)

Une fois les bonnes zones sélectionnées, l'IA a besoin de les comprendre.

L'analogie : Imaginez que vous avez un professeur de biologie très célèbre (le modèle UNI) qui a passé des années à étudier des millions de tissus. Il connaît tout, mais il est très lent à parler et on ne peut pas le modifier.
Dans le papier : Les chercheurs utilisent ce "professeur" (qui est un modèle pré-entraîné) pour décrire ce qu'il voit dans chaque zone. Ils ne le réapprennent pas (ce qui coûterait une fortune en électricité), ils se contentent de lui demander : "Qu'est-ce que tu vois ici ?".

Étape 3 : Le "Secrétaire Spécialisé" (Le décodeur)

Le professeur donne des descriptions techniques, mais il faut les transformer en un rapport médical lisible.

L'analogie : C'est comme si le professeur dictait à un secrétaire très intelligent qui connaît parfaitement le vocabulaire médical (grâce à un outil appelé BioGPT). Ce secrétaire ne fait pas de fautes d'orthographe sur les termes complexes comme "carcinome" ou "adénocarcinome".
Dans le papier : Une petite IA (le décodeur) prend les descriptions du professeur et écrit le rapport final. Elle est entraînée spécifiquement pour apprendre à parler comme un médecin.

3. La sécurité ultime : Le "Double-Check" (Vérification par recherche)

C'est l'astuce la plus intelligente pour éviter les erreurs.

L'analogie : Imaginez que le secrétaire écrit un rapport. Avant de l'envoyer, il va dans une immense bibliothèque de rapports anciens (la base de données). Il compare ce qu'il vient d'écrire avec les rapports réels validés par des experts.
- Si ce qu'il a écrit ressemble énormément à un rapport réel et validé, il dit : "Super, c'est sûr, je remplace mon texte par celui du livre de référence."
- Si c'est une situation rare qui n'est pas dans les livres, il garde son texte original.
Dans le papier : Ils utilisent un outil mathématique (Sentence-BERT) pour mesurer la similarité. Si le rapport généré ressemble trop à un rapport "vrai" connu, ils le remplacent par le vrai. Cela réduit le risque que l'IA invente un diagnostic faux.

4. Les résultats : Comment ça s'est passé ?

Les chercheurs ont testé leur système lors d'un grand concours international (REG 2025) contre 24 autres équipes.

Le score : Ils ont fini 8ème sur 24, ce qui est excellent, surtout que leur système est beaucoup plus simple et moins gourmand en énergie que les géants de l'IA (les "LLM" massifs).
Ce qui fonctionne bien : L'IA identifie très bien l'organe (sein, poumon, prostate) et le type de maladie principal.
Ce qui est difficile : Parfois, elle se trompe sur les détails très fins, comme le degré exact d'une tumeur (par exemple, dire "6" au lieu de "7" sur une échelle de gravité). C'est comme si elle savait que c'est une voiture de sport, mais se trompait sur le nombre de chevaux exact.

En résumé

Ce papier montre qu'on n'a pas besoin de construire un "super-ordinateur" colossal pour faire de la médecine de précision. En combinant :

Un zoom intelligent pour ne pas se perdre dans les détails inutiles,
Un expert figé qui connaît déjà tout,
Un secrétaire spécialisé qui parle le bon langage,
Et un double-check contre une bibliothèque de vérité,

...on peut créer un outil fiable, rapide et économique pour aider les médecins à rédiger leurs rapports. C'est une approche "modulaire" : chaque pièce fait son travail, et ensemble, elles forment une équipe solide.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

La génération automatique de rapports de pathologie à partir d'images numériques de lames entières (Whole-Slide Images ou WSIs) présente des défis majeurs :

Échelle des données : Une WSI peut dépasser $10^{10}$ pixels (échelle gigapixel), rendant le traitement direct par des architectures vision-langage classiques (conçues pour des images de 224x224) computationnellement impossible.
Densité sémantique : Le texte de sortie doit être précis, utiliser un langage médical spécifique et éviter les "hallucinations" (déclarations plausibles mais factuellement fausses), ce qui est critique en diagnostic médical.
Limites des approches existantes : Les modèles de type Multimodal Large Language Models (MLLM) entraînés de bout en bout sont coûteux, sujets aux hallucinations et nécessitent souvent une élagage de tokens agressif qui peut supprimer des caractéristiques diagnostiques rares.

2. Méthodologie

Les auteurs proposent un cadre vision-langage hiérarchique et modulaire composé de trois étapes principales :

A. Sélection de patches pyramidaux et filtrage qualité

Pour rendre le traitement des WSIs faisable, une stratégie de balayage "du grossier au fin" est mise en œuvre :

Pyramide d'images : Les images sont traitées à plusieurs niveaux de résolution (facteurs de sous-échantillonnage de $2^3$ à $2^6$ ).
Segmentation tissulaire : Un masque binaire est généré via un seuillage de l'espace colorimétrique HSV pour isoler le tissu (H&E) du fond.
Filtrage de qualité : Seuls les patches diagnostiquement pertinents sont conservés grâce à des critères stricts :
- Qualité de mise au point : Variance de l'opérateur de Laplacien (> 40).
- Exposition et artefacts : Analyse des canaux Valeur et Saturation (HSV) et détection de pixels sombres (poussière, marques).
Échantillonnage : Une limite de 2500 patches par WSI est imposée avec un échantillonnage stratifié pour garantir une représentation multi-échelle.

B. Extraction de caractéristiques (Encodeur figé)

Modèle UNI : Utilisation du modèle fondation UNI (Vision Transformer ViT-Large/16 pré-entraîné sur 100M+ de patches de pathologie) comme encodeur visuel.
Stratégie figée : L'encodeur UNI est figé (307M paramètres non entraînés). Seules les caractéristiques visuelles sont extraites et projetées. Cela réduit considérablement les besoins en mémoire GPU (de ~16 Go à ~4 Go) et permet un découplage entre l'extraction de caractéristiques et l'entraînement du décodeur.

C. Génération de texte (Décodeur léger)

Architecture : Un décodeur Transformer personnalisé de 6 couches est entraîné pour traduire les caractéristiques visuelles en texte.
Tokenisation : Utilisation du tokeniseur BioGPT, optimisé pour le vocabulaire biomédical, afin de réduire la fragmentation des termes techniques (ex: grades histologiques).
Mécanisme d'attention : Le décodeur utilise une attention croisée (cross-attention) pour se concentrer dynamiquement sur les régions pertinentes de l'image lors de la génération de chaque terme diagnostique.
Objectif : Minimisation de la perte d'entropie croisée (Cross-Entropy) avec teacher forcing.

D. Vérification post-traitement (RAG)

Pour atténuer les hallucinations, une étape de vérification basée sur la recherche est ajoutée :

Les rapports générés sont encodés via Sentence-BERT.
Une similarité cosinus est calculée avec une base de données de rapports de référence (ground-truth).
Si la similarité dépasse un seuil ( $\tau = 0,85$ ), le rapport généré est remplacé par le rapport de référence correspondant, garantissant ainsi une fiabilité accrue pour les cas courants.

3. Contributions Clés

Stratégie de balayage hiérarchique : Une approche pyramidale combinée à des filtres simples et interprétables pour prioriser les zones de tissu tout en supprimant le bruit de fond.
Architecture modulaire efficace : Intégration d'un encodeur UNI figé avec un décodeur léger, évitant le ré-entraînement coûteux de l'ensemble du modèle visuel.
Adaptation linguistique : Utilisation du tokeniseur BioGPT pour améliorer la cohérence sémantique des termes médicaux.
Mécanisme de vérification : Introduction d'une étape de remplacement basée sur la similarité sémantique (Sentence-BERT) pour améliorer la fiabilité des sorties sans entraînement par renforcement complexe (RLHF).

4. Résultats

L'évaluation a été réalisée sur le REG 2025 Grand Challenge, un jeu de données contenant 10 494 paires WSI-rapport provenant de cinq pays et couvrant sept systèmes d'organes.

Performance globale : L'équipe MedInsight-ViseurAI a obtenu un score composite de 0,8093, se classant 8ème sur 24 équipes. Ce score est à moins de 4,7 % de la première place.
Métriques : Le score composite pondère fortement la correspondance des mots-clés cliniques (40 %) et la similarité sémantique (30 %), plutôt que la simple correspondance lexicale (BLEU/ROUGE).
Analyse qualitative :
- Le modèle excelle dans l'identification des organes, des types de biopsie et des diagnostics principaux.
- Les erreurs résident principalement dans les schémas de grading complexes (ex: distinction entre carcinome in situ et invasif, ou scores de Gleason précis), où la précision des attributs multiples reste un défi.
- Le modèle produit des rapports structurés et conformes aux templates cliniques, évitant les déviations de format fréquentes chez les LLMs génératifs.

5. Signification et Conclusion

Ce travail démontre qu'il est possible d'atteindre des performances compétitives en génération de rapports de pathologie sans les coûts computationnels massifs des MLLMs de bout en bout.

Efficacité : L'approche modulaire (encodeur figé + décodeur léger) permet une itération rapide et une utilisation dans des environnements aux ressources limitées.
Fiabilité : L'intégration d'une vérification par recherche (RAG) offre une sécurité contre les erreurs factuelles, un aspect crucial pour l'adoption clinique.
Perspectives : Bien que performant sur les structures standardisées, le système montre des limites sur les combinaisons d'attributs rares. Les travaux futurs devraient explorer des têtes de prédiction structurée pour mieux gérer ces schémas de grading complexes et valider le modèle sur des ensembles de données institutionnels diversifiés.

En résumé, cette étude propose une voie pragmatique et robuste pour l'automatisation de la pathologie numérique, en équilibrant efficacité computationnelle, précision diagnostique et conformité aux normes cliniques.