MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Dit artikel introduceert MINT, een raamwerk dat ruimtelijke transcriptomics-supervisie integreert in voorgeprogrammeerde pathologie-Vision Transformers om de moleculaire toestand van weefsel beter vast te leggen en zo de prestaties voor zowel genexpressievoorspelling als algemene pathologietaken te verbeteren.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een patholoog (een arts die weefsels onder de microscoop bekijkt) een enorme bibliotheek heeft vol met foto's van cellen. Door miljoenen van deze foto's te bestuderen, heeft de computer geleerd om de "vorm" van de cellen te herkennen. Hij kan bijvoorbeeld zien of een cel er ziek uitziet of gezond, puur op basis van hoe hij eruit ziet. Dit noemen we een foundation model (een basismodel).

Maar er is een probleem: deze computer kijkt alleen naar de vorm (de architectuur van het gebouw), maar hij ziet niet wat er binnenin gebeurt. Hij ziet niet welke chemische boodschappen er worden gestuurd of welke genen aan- of uitgezet zijn. Het is alsof je een auto van buiten bekijkt en de motor niet hoort draaien.

Hier komt MINT (Molecularly Informed Training) in het spel.

De Grote Uitdaging: Het Vergeten

De onderzoekers wilden de computer leren om ook naar die "interne chemie" (genen) te kijken, door hem foto's te laten vergelijken met meetgegevens van die genen (zogenoemde spatial transcriptomics).

Maar er was een groot risico: als je een slimme computer die al alles over vormen weet, dwingt om ook over genen te leren, kan hij in paniek raken en alles vergeten wat hij eerder over vormen had geleerd. Dit noemen ze in de tech-wereld "catastrophic forgetting" (catastrofaal vergeten). Het is alsof je een meester-kok die perfect bakt, dwingt om ook tandarts te worden, en hij vergeet vervolgens hoe hij een taart moet bakken.

De Oplossing: Twee Hoeden, Één Hoofd

De MINT-methode lost dit op met een slimme truc, die we kunnen vergelijken met een twee-gehoornde helm of een twee-gehoornde hoed:

  1. De oude hoed (CLS-token): De computer houdt zijn originele "vorm-hoed" aan. Deze hoed blijft precies zoals hij was: hij kijkt alleen naar de vorm van de cellen en vergeet niets.
  2. De nieuwe hoed (ST-token): De onderzoekers plakken een nieuwe, speciale hoed op het hoofd van de computer. Deze nieuwe hoed is er puur voor om de "chemische boodschappen" (genen) te leren begrijpen.

Door deze twee hoeden gescheiden te houden, hoeft de computer niet te kiezen. Hij kan tegelijkertijd een expert worden in vormen én in genen, zonder dat het ene zijn kennis van het andere wegdrukt.

Hoe werkt het in de praktijk?

Stel je voor dat je een student wilt opleiden die zowel een architect als een bioloog moet worden:

  • De les over vormen: De student krijgt een oude foto en moet zeggen: "Dit is een gezonde cel." Hij krijgt een beloning als hij de vorm goed herkent (dit is de DINO-methode, een slimme manier om zelf te leren).
  • De les over genen: Tegelijkertijd krijgt de student een nieuwe foto en een lijst met chemische gegevens. Hij moet zeggen: "Op deze plek in de foto zitten deze specifieke genen actief."
  • De dubbele beveiliging: Om ervoor te zorgen dat de student niet zijn architectuurkennis vergeet terwijl hij biologie studeert, krijgen ze een "veiligheidsnet". Ze vergelijken hun antwoorden over de vorm constant met die van hun oude, perfecte zelf. Als ze beginnen te vergeten hoe een gezonde cel eruitziet, wordt dit direct gecorrigeerd.

Het Resultaat: De Super-Student

Na deze training is de computer niet alleen beter geworden in het voorspellen van welke genen actief zijn (een taak die voorheen heel moeilijk was), maar is hij ook nog steeds beter geworden in het herkennen van ziektes op basis van vorm.

Het is alsof je een student hebt die nu zowel de beste architect als de beste bioloog is, terwijl hij voorheen alleen een goede architect was. Hij heeft niet hoeven te kiezen; de nieuwe kennis heeft zijn oude kennis juist versterkt.

Waarom is dit belangrijk?

Vroeger dachten onderzoekers dat je meer foto's nodig had om betere modellen te maken. MINT bewijst dat je nieuwe soorten informatie (zoals genen-data) kunt toevoegen om modellen slimmer te maken, zonder dat je miljoenen nieuwe foto's hoeft te verzamelen.

Het is een beetje alsof je een blindeman (die alleen voelt) een bril geeft (die ziet). Hij wordt niet alleen beter in zien, maar hij kan zijn tastzin ook beter gebruiken omdat hij nu begrijpt waarom iets voelt zoals het voelt.

Kortom: MINT is een slimme manier om computers in de geneeskunde te leren kijken naar zowel de "huid" (vorm) als de "ziel" (genen) van een ziekte, zonder dat ze vergeten hoe ze er eerst uitzagen.