MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre un livre très complexe, disons un roman médical, en ne regardant que les dessins des pages. C'est ce que font actuellement les intelligences artificielles (les "modèles de fondation") en pathologie : elles sont entraînées à analyser des millions d'images de tissus biologiques pour reconnaître des formes, des couleurs et des structures. Elles deviennent très bonnes pour dire "Ah, c'est une tumeur" ou "C'est un tissu sain" en se basant uniquement sur l'apparence visuelle.

Mais il y a un problème : ces dessins ne racontent pas toute l'histoire. Derrière chaque cellule, il y a une activité chimique invisible, un langage moléculaire (les gènes) qui dicte ce que fait la cellule. Les modèles actuels sont comme des experts en art qui voient le tableau, mais qui ne comprennent pas la chimie des peintures utilisées.

Voici comment les chercheurs de LG AI Research, avec leur nouvelle méthode appelée MINT, résolvent ce mystère.

1. Le Problème : L'Amnésie Catastrophique

Imaginez que vous êtes un chef cuisinier très célèbre, connu pour faire les meilleurs gâteaux du monde (votre "savoir morphologique"). Un jour, on vous demande d'apprendre à faire de la chimie moléculaire pour comprendre pourquoi les gâteaux montent mieux. Si vous vous mettez à étudier la chimie de manière intensive, vous risquez d'oublier comment faire le gâteau lui-même ! C'est ce qu'on appelle en IA l'"oubli catastrophique" : en apprenant une nouvelle tâche (prédire les gènes), le modèle oublie ce qu'il savait déjà (reconnaître les tissus).

2. La Solution MINT : Le "Double Casque"

L'équipe propose une astuce géniale, comme donner au chef cuisinier un deuxième casque d'écoute spécial.

Le Casque Morphologique (Le CLS) : C'est l'oreille qui écoute les formes, les textures et les couleurs. Elle reste intacte et ne change pas.
Le Casque Moléculaire (Le ST) : C'est un nouveau casque, un "jeton" spécial ajouté au modèle, conçu uniquement pour écouter le langage des gènes.

Au lieu de forcer le chef à tout apprendre avec la même oreille (ce qui brouille les idées), MINT lui donne un canal séparé pour les gènes. Ainsi, il peut écouter la musique des gènes sans cesser d'écouter la musique des formes.

3. Comment ça marche ? (L'Analogie du Professeur et de l'Élève)

Pour s'assurer que le modèle n'oublie rien, MINT utilise une technique de "distillation" (comme faire passer un savoir d'un maître à un élève) avec deux garde-fous :

Le Professeur Invisible : Le modèle original (celui qui est déjà expert) reste figé dans le temps. Il agit comme un professeur qui surveille l'élève. Si l'élève commence à oublier comment reconnaître un tissu, le professeur lui rappelle la leçon.
L'Étude à Double Niveau : Le modèle apprend avec deux types de données :
- La vue large (Visium) : Comme regarder un quartier entier pour voir la densité de population (les gènes par groupe de cellules).
- La vue microscopique (Xenium) : Comme regarder chaque maison individuellement pour voir exactement qui habite dedans (les gènes cellule par cellule).

4. Le Résultat : Un Super-Héros de la Pathologie

Grâce à cette méthode, le modèle MINT devient un véritable couteau suisse :

Il est meilleur pour prédire les gènes que n'importe quel modèle précédent (il comprend mieux la chimie du tissu).
Et le plus incroyable : il ne perd pas sa capacité à reconnaître les tissus. Il reste aussi bon, voire meilleur, pour les tâches classiques de diagnostic.

C'est comme si, en apprenant la chimie, le chef cuisinier devenait encore plus grand artiste, car il comprend maintenant pourquoi ses gâteaux réussissent, sans pour autant oublier la recette de base.

En Résumé

MINT est une méthode qui permet aux intelligences artificielles de pathologie de "lire" à la fois l'histoire visuelle (les images) et l'histoire chimique (les gènes) en même temps, sans que l'une n'efface l'autre. C'est une étape majeure pour créer des médecins artificiels qui comprennent vraiment la maladie, pas seulement son apparence.

Each language version is independently generated for its own context, not a direct translation.

Titre : MINT : Entraînement Informé par la Molécule avec Supervision de la Transcriptomique Spatiale pour les Modèles Fondamentaux de Pathologie

1. Problématique

Les modèles fondamentaux de pathologie (Foundation Models) actuels, tels que H-optimus-0, UNI2-h ou Virchow2, sont pré-entraînés sur de vastes collections d'images de lames entières (WSI) via des objectifs d'apprentissage auto-supervisé (ex: DINO). Bien qu'ils excellent à capturer les représentations morphologiques (structure tissulaire, composition cellulaire), ils ne capturent pas explicitement l'état moléculaire sous-jacent du tissu (expression génique, voies de signalisation).

La transcriptomique spatiale (ST) comble ce fossé en mesurant l'expression des gènes in situ. Cependant, un défi majeur se pose : comment intégrer cette supervision moléculaire pour améliorer les représentations d'un modèle pré-entraîné sans provoquer un oubli catastrophique (catastrophic forgetting) des connaissances morphologiques acquises lors du pré-entraînement à grande échelle ? Les travaux antérieurs ont traité la prédiction d'expression génique comme une tâche supervisée isolée, sans réussir à l'utiliser pour enrichir durablement les représentations du modèle fondamental.

2. Méthodologie : Le Framework MINT

Les auteurs proposent MINT (Molecularly Informed Training), un cadre de fine-tuning multi-tâches conçu pour intégrer la supervision par transcriptomique spatiale dans des Vision Transformers (ViT) pré-entraînés, tout en préservant les capacités morphologiques.

A. Conception du Token ST (Spatial Transcriptomics)

Au lieu de modifier le token CLS (qui encode les caractéristiques morphologiques), MINT introduit un token ST apprenable (t_st) ajouté à la séquence d'entrée du ViT, aux côtés du token CLS et des tokens de patchs.

Séparation des rôles : Le token CLS conserve sa fonction originale (représentations morphologiques), tandis que le token ST se spécialise dans l'encodage des informations transcriptomiques.
Interaction : Le token ST participe à l'auto-attention avec les autres tokens à travers toutes les couches du transformeur, lui permettant d'apprendre des représentations moléculaires à partir du contexte spatial complet.

B. Objectifs d'Entraînement (Loss Functions)

Le modèle est optimisé via quatre objectifs complémentaires :

Distillation Self-DINO (L_DINO) : Maintient l'apprentissage auto-supervisé visuel en utilisant un enseignant (EMA) pour préserver la dynamique d'apprentissage morphologique.
Distillation de Caractéristiques (L_distill) : Ancrage explicite des représentations du token CLS de l'étudiant par rapport à un modèle pré-entraîné figé (frozen). Cela agit comme une régularisation directe contre l'oubli catastrophique.
Régression Spot-Level (Visium) (L_ST) : Prédiction de l'expression génique à partir du token ST pour les profils de type Visium (résolution ~55 µm). Une sélection stochastique de gènes hautement variables (HVG) est appliquée pour se concentrer sur les gènes informatifs.
Régression Patch-Level (Xenium) (L_pST) : Prédiction de l'expression génique à partir des tokens de patchs pour les données Xenium (résolution subcellulaire). La perte est calculée uniquement sur les patches contenant des transcrits détectés.

Objectif Total : $L = L_{DINO} + \lambda_{distill} L_{distill} + \lambda_{ST} L_{ST} + \lambda_{pST} L_{pST}$

3. Contributions Clés

Architecture MINT : Introduction d'un token dédié (ST) et de mécanismes de distillation duaux pour intégrer la supervision moléculaire sans altérer les représentations morphologiques pré-entraînées.
Spécialisation Complémentaire : Démonstration que les tokens ST et CLS capturent des informations distinctes et complémentaires. La combinaison des deux ([CLS || ST]) améliore les performances de manière agnostique à l'architecture (backbone).
Performance Record : MINT atteint les meilleures performances globales sur deux benchmarks majeurs, prouvant que la supervision par transcriptomique spatiale est un axe d'amélioration complémentaire au simple scaling des données d'images.

4. Résultats Expérimentaux

Le modèle a été entraîné sur 577 échantillons HEST (histologie + transcriptomique) et évalué sur deux benchmarks officiels :

HEST-Bench (Prédiction d'expression génique) :
- MINT obtient une corrélation de Pearson moyenne de 0,440, surpassant tous les modèles de base (H-optimus-0 : 0,415 ; UNI2-h : 0,414).
- Il se classe premier sur les 9 types de cancers évalués.
EVA (Tâches générales de pathologie) :
- MINT atteint une moyenne de 0,803, dépassant Virchow2 (0,798) et H-optimus-0 (0,793).
- Il maintient des performances comparables ou supérieures sur les tâches de classification et de segmentation, confirmant l'absence d'oubli catastrophique.

Analyse des Représentations :

Le token ST seul surpasse le token CLS seul sur HEST-Bench (0,428 vs 0,413).
Le token CLS seul surpasse le token ST seul sur EVA (0,828 vs 0,823).
La concaténation [CLS || ST] offre les meilleurs résultats sur les deux fronts, confirmant que l'information moléculaire et morphologique sont distinctes mais synergiques.
Les ablations montrent que si l'on applique la perte moléculaire directement sur le token CLS (sans token séparé), les performances morphologiques chutent significativement sans distillation, ou restent inférieures à MINT même avec distillation.

5. Signification et Impact

Ce travail démontre que l'apprentissage fondamental en pathologie ne doit pas se limiter au seul scaling de données d'images. L'intégration de la supervision croisée (cross-modal) via la transcriptomique spatiale offre un axe d'amélioration distinct et complémentaire.

Efficacité des données : MINT améliore les performances avec seulement 577 échantillons appariés, suggérant que la qualité de la supervision moléculaire compense le manque de volume de données par rapport au pré-entraînement purement visuel.
Futur de la Pathologie Numérique : Cette approche ouvre la voie à des modèles fondationnels "multi-omiques" capables de prédire non seulement la morphologie, mais aussi l'état fonctionnel et moléculaire des tissus, essentiel pour la médecine de précision et la découverte de biomarqueurs.