MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Die Studie stellt MINT vor, ein Feinabstimmungsframework, das räumliche Transkriptomik-Supervision in vortrainierte Pathologie-Vision-Transformer integriert, um morphologische Darstellungen mit molekularen Zuständen zu verbinden und so die Leistung bei der Genexpressionsvorhersage sowie bei allgemeinen Pathologieaufgaben zu verbessern.

Minsoo Lee, Jonghyun Kim, Juseung Yun, Sunwoo Yu, Jongseong Jang

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Pathologe (ein Arzt, der Gewebeproben untersucht) schaut sich unter dem Mikroskop eine Gewebeprobe an. Er sieht die Form der Zellen: Sind sie rund? Sind sie chaotisch? Wie sind sie angeordnet? Das ist wie das Betrachten eines Hauses von außen: Man sieht die Architektur, die Farbe und den Zustand des Mauerwerks.

Bisher haben künstliche Intelligenzen (KI) in der Pathologie nur auf diese Form geschaut. Sie wurden mit Millionen von Bildern trainiert, um Muster zu erkennen. Aber das Gewebe ist mehr als nur seine Form. Es hat auch eine innere Sprache: Welche Gene sind aktiv? Welche chemischen Signale laufen ab? Das ist wie der Strom im Haus oder die Gespräche der Bewohner – man sieht es nicht von außen, aber es bestimmt, wie das Haus wirklich funktioniert.

Das Problem: Die bisherigen KI-Modelle konnten diese „innere Sprache" (die molekularen Daten) nicht verstehen, obwohl sie die Form perfekt kannten.

Hier kommt MINT ins Spiel. MINT ist wie ein neuer, genialer Lehrer für diese KI.

Die Idee von MINT: Der „Zwei-Kopf-Ansatz"

Stellen Sie sich das KI-Modell als einen sehr schlauen Schüler vor, der bereits alles über die Form von Gewebe gelernt hat (dank jahrelanger Übung mit Millionen Bildern). Jetzt wollen wir ihm beibringen, auch die Gene zu lesen.

Das Schwierige daran: Wenn man dem Schüler plötzlich nur noch Gene beibringt, vergisst er oft das, was er über die Form gelernt hat. Das nennt man „katastrophales Vergessen". Es ist, als würde man einem Musiker, der perfekt Klavier spielt, plötzlich nur noch Geige beibringen, und er verlernt das Klavierspielen.

MINT löst dieses Problem mit einem cleveren Trick:

  1. Der neue „Gene-Kopf" (ST-Token):
    Statt den alten Schüler zu zwingen, alles in einem Kopf zu speichern, gibt MINT ihm einen zweiten, speziellen Kopf nur für die Gene.

    • Der alte Kopf (CLS-Token) bleibt unverändert und kümmert sich weiter nur um die Form (die Architektur).
    • Der neue Kopf (ST-Token) lernt ausschließlich die molekulare Sprache (die Gene).
    • Sie arbeiten zusammen, aber stören sich nicht gegenseitig.
  2. Der „Sicherheitsgurt" (Distillation):
    Damit der Schüler die alten Fähigkeiten nicht vergisst, hat MINT einen unsichtbaren Sicherheitsgurt eingebaut. Während der Schüler lernt, Gene zu lesen, schaut ein „Lehrer" (eine Kopie des alten Modells) ständig zu und sagt: „Hey, vergiss nicht, wie man die Form erkennt!" So bleibt das Wissen über die Form fest verankert.

  3. Zwei Arten von Lektionen:
    MINT lernt auf zwei verschiedenen Ebenen:

    • Die grobe Ebene: Es schaut auf große Flecken des Gewebes (wie eine Landkarte), um zu sehen, welche Gene in einem ganzen Viertel aktiv sind.
    • Die feine Ebene: Es schaut sich winzige Details an (wie eine Lupe), um einzelne Moleküle zu erkennen.
      Beide Ebenen helfen dem Modell, ein vollständigeres Bild zu bekommen.

Warum ist das so wichtig?

Bisher dachte man, man müsse einfach mehr Bilder sammeln, um eine bessere KI zu bauen. MINT zeigt etwas Neues: Man braucht eine neue Art von Daten.

Indem man die Bilder (Form) mit den Gen-Daten (Innere Sprache) kombiniert, wird die KI nicht nur besser darin, Gene vorherzusagen, sondern sie wird sogar besser darin, die Form zu verstehen!

  • Das Ergebnis: MINT ist in Tests besser geworden als alle bisherigen Spitzenmodelle. Es kann sowohl die Gene eines Gewebes vorhersagen (als ob es die innere Sprache liest) als auch Krankheiten wie Krebs besser erkennen (durch das Verständnis der Form).

Zusammenfassung in einer Analogie

Stellen Sie sich vor, Sie wollen ein Auto perfekt verstehen.

  • Die alten KI-Modelle haben nur die Außenansicht des Autos gelernt (Form, Farbe, Rost).
  • MINT hat dem Modell einen Motor-Experten an die Seite gestellt.
  • Der Motor-Experte lernt, wie der Motor läuft (Gene), ohne dem Fahrer zu sagen, wie man lenkt (Form).
  • Ergebnis: Das Modell versteht jetzt nicht nur, wie das Auto von außen aussieht, sondern auch, wie es funktioniert – und es ist sogar noch besser im Fahren geworden, weil es den Motor versteht.

MINT ist also der Beweis, dass man KI in der Medizin nicht nur mit mehr Bildern, sondern durch das Verbinden von verschiedenen Welten (Bilder + Gene) noch viel schlauer machen kann.