MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een patholoog (een arts die weefsels onder de microscoop bekijkt) een enorme bibliotheek heeft vol met foto's van cellen. Door miljoenen van deze foto's te bestuderen, heeft de computer geleerd om de "vorm" van de cellen te herkennen. Hij kan bijvoorbeeld zien of een cel er ziek uitziet of gezond, puur op basis van hoe hij eruit ziet. Dit noemen we een foundation model (een basismodel).

Maar er is een probleem: deze computer kijkt alleen naar de vorm (de architectuur van het gebouw), maar hij ziet niet wat er binnenin gebeurt. Hij ziet niet welke chemische boodschappen er worden gestuurd of welke genen aan- of uitgezet zijn. Het is alsof je een auto van buiten bekijkt en de motor niet hoort draaien.

Hier komt MINT (Molecularly Informed Training) in het spel.

De Grote Uitdaging: Het Vergeten

De onderzoekers wilden de computer leren om ook naar die "interne chemie" (genen) te kijken, door hem foto's te laten vergelijken met meetgegevens van die genen (zogenoemde spatial transcriptomics).

Maar er was een groot risico: als je een slimme computer die al alles over vormen weet, dwingt om ook over genen te leren, kan hij in paniek raken en alles vergeten wat hij eerder over vormen had geleerd. Dit noemen ze in de tech-wereld "catastrophic forgetting" (catastrofaal vergeten). Het is alsof je een meester-kok die perfect bakt, dwingt om ook tandarts te worden, en hij vergeet vervolgens hoe hij een taart moet bakken.

De Oplossing: Twee Hoeden, Één Hoofd

De MINT-methode lost dit op met een slimme truc, die we kunnen vergelijken met een twee-gehoornde helm of een twee-gehoornde hoed:

De oude hoed (CLS-token): De computer houdt zijn originele "vorm-hoed" aan. Deze hoed blijft precies zoals hij was: hij kijkt alleen naar de vorm van de cellen en vergeet niets.
De nieuwe hoed (ST-token): De onderzoekers plakken een nieuwe, speciale hoed op het hoofd van de computer. Deze nieuwe hoed is er puur voor om de "chemische boodschappen" (genen) te leren begrijpen.

Door deze twee hoeden gescheiden te houden, hoeft de computer niet te kiezen. Hij kan tegelijkertijd een expert worden in vormen én in genen, zonder dat het ene zijn kennis van het andere wegdrukt.

Hoe werkt het in de praktijk?

Stel je voor dat je een student wilt opleiden die zowel een architect als een bioloog moet worden:

De les over vormen: De student krijgt een oude foto en moet zeggen: "Dit is een gezonde cel." Hij krijgt een beloning als hij de vorm goed herkent (dit is de DINO-methode, een slimme manier om zelf te leren).
De les over genen: Tegelijkertijd krijgt de student een nieuwe foto en een lijst met chemische gegevens. Hij moet zeggen: "Op deze plek in de foto zitten deze specifieke genen actief."
De dubbele beveiliging: Om ervoor te zorgen dat de student niet zijn architectuurkennis vergeet terwijl hij biologie studeert, krijgen ze een "veiligheidsnet". Ze vergelijken hun antwoorden over de vorm constant met die van hun oude, perfecte zelf. Als ze beginnen te vergeten hoe een gezonde cel eruitziet, wordt dit direct gecorrigeerd.

Het Resultaat: De Super-Student

Na deze training is de computer niet alleen beter geworden in het voorspellen van welke genen actief zijn (een taak die voorheen heel moeilijk was), maar is hij ook nog steeds beter geworden in het herkennen van ziektes op basis van vorm.

Het is alsof je een student hebt die nu zowel de beste architect als de beste bioloog is, terwijl hij voorheen alleen een goede architect was. Hij heeft niet hoeven te kiezen; de nieuwe kennis heeft zijn oude kennis juist versterkt.

Waarom is dit belangrijk?

Vroeger dachten onderzoekers dat je meer foto's nodig had om betere modellen te maken. MINT bewijst dat je nieuwe soorten informatie (zoals genen-data) kunt toevoegen om modellen slimmer te maken, zonder dat je miljoenen nieuwe foto's hoeft te verzamelen.

Het is een beetje alsof je een blindeman (die alleen voelt) een bril geeft (die ziet). Hij wordt niet alleen beter in zien, maar hij kan zijn tastzin ook beter gebruiken omdat hij nu begrijpt waarom iets voelt zoals het voelt.

Kortom: MINT is een slimme manier om computers in de geneeskunde te leren kijken naar zowel de "huid" (vorm) als de "ziel" (genen) van een ziekte, zonder dat ze vergeten hoe ze er eerst uitzagen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande foundation modellen voor pathologie (zoals UNI, Virchow, H-optimus) worden getraind op grote schaal met zelftoezicht (self-supervised learning) op hele slides van weefsel (Whole-Slide Images, WSI). Hoewel deze modellen uitstekende morfologische representaties leren, missen ze expliciete kennis van de onderliggende moleculaire staat van het weefsel (zoals genexpressie en signaalroutes).

Er is een nieuwe generatie technologieën, Spatial Transcriptomics (ST), die genexpressie in situ meet en zo een directe link legt tussen morfologie en moleculaire activiteit. De uitdaging is echter dat het finetunen van een reeds getraind foundation model op genexpressie-taken vaak leidt tot catastrophic forgetting: het model verliest de waardevolle morfologische representaties die het tijdens de grote voortraining heeft opgedaan. Bestaande werk heeft genexpressie voorspelling behandeld als een losstaande taak, maar heeft deze niet gebruikt om de basisrepresentaties van de foundation modellen te verbeteren zonder hun oorspronkelijke vaardigheden te schaden.

Methodologie: MINT Framework

De auteurs introduceren MINT (Molecularly Informed Training), een multi-task finetuning framework dat ruimtelijke transcriptomics-supervisie integreert in voorgetrainde Vision Transformers (ViT) zonder de morfologische kennis te verliezen. Het framework bestaat uit drie kernontwerpprincipes:

Gescheiden ST-token:
In plaats van de bestaande CLS-token (die morfologische features encodeert) te gebruiken voor genexpressie, voegt MINT een nieuwe, leerbare ST-token toe aan de inputsequentie van de ViT.
- De CLS-token behoudt zijn oorspronkelijke rol voor morfologische representaties.
- De ST-token specialiseert zich in het coderen van transcriptomische informatie.
- Beide tokens wisselen informatie uit via self-attention in alle transformer-lagen, maar blijven functioneel gescheiden.
Dubbele Distillatie-mechanisme (Tegen Catastrophic Forgetting):
Om te voorkomen dat het model de morfologische kennis vergeet, wordt een student-leraar framework gebruikt met twee regularisatiestrategieën:
- DINO Self-Distillation: De student leert van een leraar (geëxponentieerd voortschrijdend gemiddelde van de student) via multi-crop augmentatie, wat de zelftoezicht-dynamiek van de oorspronkelijke training handhaaft.
- Expliciete Feature Anchoring: Een bevroren kopie van het oorspronkelijke voorgetrainde model fungeert als een anker. De CLS-output van de student wordt dicht bij de output van dit bevroren model gehouden via een $L_2$ -verlies. Dit zorgt voor redundantie tegen het vergeten van morfologische features.
Multi-schaal Supervisie:
Het model wordt getraind op twee niveaus van ruimtelijke resolutie:
- Spot-level (Visium): Regressie van genexpressie op basis van de ST-token voor het voorspellen van expressiewaarden van spots (ongeveer 10-50 cellen).
- Patch-level (Xenium): Regressie op basis van patch-tokens voor subcellulaire resolutie, waarbij alleen patches met gedetecteerde transcripten worden gebruikt voor supervisie.

De totale loss-functie combineert DINO-verlies, feature distillatie, spot-level regressie en patch-level regressie.

Belangrijkste Bijdragen

Innovatief Framework: MINT integreert ruimtelijke transcriptomics-supervisie in ViT-architecturen via een dedicated ST-token en dubbele distillatie, waardoor catastrophic forgetting wordt voorkomen.
Complementaire Representaties: Het bewijs dat de ST-token en CLS-token complementaire informatie vastleggen. De ST-token specialiseert in moleculaire signalen, terwijl de CLS-token de transferbaarheid voor morfologische taken behoudt. Het combineren van beide levert consistente verbeteringen op, onafhankelijk van de gebruikte backbone.
State-of-the-Art Prestaties: MINT bereikt de beste algehele prestaties op zowel moleculaire voorspelling als algemene pathologische taken, zonder extra beelddata te vereisen, maar door gebruik te maken van bestaande gekoppelde datasets.

Resultaten

Het model is getraind op 577 openbare HEST-samples (gepaarde histologie en transcriptomics) en geëvalueerd op twee benchmarks:

HEST-Bench (Genexpressie Voorspelling):
- MINT behaalde een gemiddelde Pearson-correlatie van 0.440, wat een significante verbetering is ten opzichte van de beste bestaande modellen zoals H-optimus-0 (0.415) en UNI2-h (0.414).
- MINT rangschikte als eerste op alle 9 onderzochte kankertypes.
EVA (Algemene Pathologie Transferbaarheid):
- MINT behaalde een gemiddelde score van 0.803 over 9 benchmarks (inclusief classificatie, zwak toezicht en segmentatie).
- Dit is hoger dan Virchow2 (0.798) en H-optimus-0 (0.793).
- Belangrijk: MINT verbeterde de prestaties op moleculaire taken zonder de prestaties op morfologische taken te verlagen (behalve een marginaal verlies op één specifieke taak, MHIST), wat aantoont dat er geen trade-off hoeft te zijn.
Ablatie Studies:
- Het gebruik van een gescheiden ST-token bleek superieur aan het direct trainen van de CLS-token op genexpressie. Bij het laatste scenario trad er, zonder distillatie, ernstig vergeten op. Zelfs met distillatie presteerde de gescheiden token-architectuur beter, wat aantoont dat het ontkoppelen van moleculaire en morfologische leerprocessen essentieel is.

Betekenis en Conclusie

Het onderzoek van MINT toont aan dat cross-modale supervisie (het combineren van beeld en genexpressie) een krachtige, complementaire route is om foundation modellen voor pathologie te verbeteren, naast de traditionele schaalvergroting van beelddata.

Door ruimtelijke transcriptomics te gebruiken als supervisie, kunnen modellen zowel de visuele morfologie als de onderliggende moleculaire biologie beter begrijpen. De succesvolle implementatie van een dedicated token en distillatiemechanismen lost het probleem van "catastrophic forgetting" op, waardoor het mogelijk wordt om foundation modellen te verrijken met biologische diepgang zonder hun algemene bruikbaarheid te verliezen. Dit opent de weg voor toekomstige modellen die nog nauwer geïntegreerd zijn met de moleculaire realiteit van ziekteprocessen.

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

De Grote Uitdaging: Het Vergeten

De Oplossing: Twee Hoeden, Één Hoofd

Hoe werkt het in de praktijk?

Het Resultaat: De Super-Student

Waarom is dit belangrijk?

Probleemstelling

Methodologie: MINT Framework

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes