MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, ein Pathologe (ein Arzt, der Gewebeproben untersucht) schaut sich unter dem Mikroskop eine Gewebeprobe an. Er sieht die Form der Zellen: Sind sie rund? Sind sie chaotisch? Wie sind sie angeordnet? Das ist wie das Betrachten eines Hauses von außen: Man sieht die Architektur, die Farbe und den Zustand des Mauerwerks.

Bisher haben künstliche Intelligenzen (KI) in der Pathologie nur auf diese Form geschaut. Sie wurden mit Millionen von Bildern trainiert, um Muster zu erkennen. Aber das Gewebe ist mehr als nur seine Form. Es hat auch eine innere Sprache: Welche Gene sind aktiv? Welche chemischen Signale laufen ab? Das ist wie der Strom im Haus oder die Gespräche der Bewohner – man sieht es nicht von außen, aber es bestimmt, wie das Haus wirklich funktioniert.

Das Problem: Die bisherigen KI-Modelle konnten diese „innere Sprache" (die molekularen Daten) nicht verstehen, obwohl sie die Form perfekt kannten.

Hier kommt MINT ins Spiel. MINT ist wie ein neuer, genialer Lehrer für diese KI.

Die Idee von MINT: Der „Zwei-Kopf-Ansatz"

Stellen Sie sich das KI-Modell als einen sehr schlauen Schüler vor, der bereits alles über die Form von Gewebe gelernt hat (dank jahrelanger Übung mit Millionen Bildern). Jetzt wollen wir ihm beibringen, auch die Gene zu lesen.

Das Schwierige daran: Wenn man dem Schüler plötzlich nur noch Gene beibringt, vergisst er oft das, was er über die Form gelernt hat. Das nennt man „katastrophales Vergessen". Es ist, als würde man einem Musiker, der perfekt Klavier spielt, plötzlich nur noch Geige beibringen, und er verlernt das Klavierspielen.

MINT löst dieses Problem mit einem cleveren Trick:

Der neue „Gene-Kopf" (ST-Token):
Statt den alten Schüler zu zwingen, alles in einem Kopf zu speichern, gibt MINT ihm einen zweiten, speziellen Kopf nur für die Gene.
- Der alte Kopf (CLS-Token) bleibt unverändert und kümmert sich weiter nur um die Form (die Architektur).
- Der neue Kopf (ST-Token) lernt ausschließlich die molekulare Sprache (die Gene).
- Sie arbeiten zusammen, aber stören sich nicht gegenseitig.
Der „Sicherheitsgurt" (Distillation):
Damit der Schüler die alten Fähigkeiten nicht vergisst, hat MINT einen unsichtbaren Sicherheitsgurt eingebaut. Während der Schüler lernt, Gene zu lesen, schaut ein „Lehrer" (eine Kopie des alten Modells) ständig zu und sagt: „Hey, vergiss nicht, wie man die Form erkennt!" So bleibt das Wissen über die Form fest verankert.
Zwei Arten von Lektionen:
MINT lernt auf zwei verschiedenen Ebenen:
- Die grobe Ebene: Es schaut auf große Flecken des Gewebes (wie eine Landkarte), um zu sehen, welche Gene in einem ganzen Viertel aktiv sind.
- Die feine Ebene: Es schaut sich winzige Details an (wie eine Lupe), um einzelne Moleküle zu erkennen.
  Beide Ebenen helfen dem Modell, ein vollständigeres Bild zu bekommen.

Warum ist das so wichtig?

Bisher dachte man, man müsse einfach mehr Bilder sammeln, um eine bessere KI zu bauen. MINT zeigt etwas Neues: Man braucht eine neue Art von Daten.

Indem man die Bilder (Form) mit den Gen-Daten (Innere Sprache) kombiniert, wird die KI nicht nur besser darin, Gene vorherzusagen, sondern sie wird sogar besser darin, die Form zu verstehen!

Das Ergebnis: MINT ist in Tests besser geworden als alle bisherigen Spitzenmodelle. Es kann sowohl die Gene eines Gewebes vorhersagen (als ob es die innere Sprache liest) als auch Krankheiten wie Krebs besser erkennen (durch das Verständnis der Form).

Zusammenfassung in einer Analogie

Stellen Sie sich vor, Sie wollen ein Auto perfekt verstehen.

Die alten KI-Modelle haben nur die Außenansicht des Autos gelernt (Form, Farbe, Rost).
MINT hat dem Modell einen Motor-Experten an die Seite gestellt.
Der Motor-Experte lernt, wie der Motor läuft (Gene), ohne dem Fahrer zu sagen, wie man lenkt (Form).
Ergebnis: Das Modell versteht jetzt nicht nur, wie das Auto von außen aussieht, sondern auch, wie es funktioniert – und es ist sogar noch besser im Fahren geworden, weil es den Motor versteht.

MINT ist also der Beweis, dass man KI in der Medizin nicht nur mit mehr Bildern, sondern durch das Verbinden von verschiedenen Welten (Bilder + Gene) noch viel schlauer machen kann.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Pathologie-Foundation-Modelle (z. B. basierend auf Vision Transformern, ViT) haben sich durch selbstüberwachtes Pretraining auf großen Whole-Slide-Image (WSI)-Kollektionen als zentral für die computergestützte Pathologie etabliert. Diese Modelle lernen jedoch ausschließlich morphologische Repräsentationen aus visuellen Mustern.

Die Lücke: Histopathologische Bilder kodieren implizit den molekularen Zustand des Gewebes (Zusammensetzung, Genexpression), aber die Modelle erfassen diesen Zustand nicht explizit.
Das Dilemma: Räumliche Transkriptomik (Spatial Transcriptomics, ST) bietet direkte Messungen der Genexpression in situ und könnte als überwachendes Signal dienen. Ein direktes Fine-Tuning von Foundation-Modellen auf Genexpressionsdaten birgt jedoch das Risiko des katastrophalen Vergessens (Catastrophic Forgetting): Die während des Pretrainings gelernten morphologischen Merkmale gehen verloren, wenn das Modell nur auf molekulare Aufgaben optimiert wird.

2. Methodik: MINT Framework

Die Autoren schlagen MINT (Molecularly Informed Training) vor, ein Multi-Task-Fine-Tuning-Framework, das räumliche Transkriptomik-Supervision integriert, ohne die morphologischen Fähigkeiten zu beeinträchtigen.

Kernkomponenten:

Dedizierter ST-Token: Anstatt den bestehenden CLS-Token (der für morphologische Merkmale steht) für die Genexpression zu nutzen, wird ein neuer, lernbarer ST-Token (Spatial Transcriptomics) in die Eingabesequenz des ViT eingefügt.
- Der CLS-Token behält seine Rolle für morphologische Merkmale bei.
- Der ST-Token spezialisiert sich auf molekulare Signale.
- Beide Token interagieren über Self-Attention in allen Transformer-Schichten, wodurch der ST-Token den räumlichen Kontext nutzen kann.
Dualer Distillations-Ansatz (Gegen katastrophales Vergessen):
1. DINO Self-Distillation: Wie beim ursprünglichen Pretraining wird ein Teacher-Modell (Exponential Moving Average des Students) verwendet, um visuelle Repräsentationen durch Multi-Crop-Augmentierung zu erhalten.
2. Explizites Feature-Anchoring: Ein eingefrorenes Kopie des vortrainierten Encoders dient als Anker. Der CLS-Token des Students wird per $L_2$ -Verlust an die Ausgabe des eingefrorenen Modells angenähert, um die morphologischen Merkmale explizit zu stabilisieren.
Multi-Skalen-Regression:
- Spot-Level (Visium): Der ST-Token wird genutzt, um die Genexpression ganzer Gewebeflecken (ca. 10–50 Zellen) vorherzusagen.
- Patch-Level (Xenium): Für höhere Auflösung (subzellulär) werden Patch-Tokens genutzt, um Genexpression auf Ebene kleiner Bildpatches (16x16 Grid) vorherzusagen.
Verlustfunktion: Das Gesamtziel ist eine gewichtete Summe aus DINO-Selbstdistillation, Feature-Distillation, Spot-Level-Regression und Patch-Level-Regression.

3. Wichtige Beiträge

Neues Trainingsparadigma: MINT integriert räumliche Transkriptomik als überwachtes Signal in Foundation-Modelle, wobei durch den separaten ST-Token und die Dual-Distillation das katastrophale Vergessen verhindert wird.
Komplementäre Repräsentationen: Die Studie zeigt, dass der ST-Token und der CLS-Token komplementäre Informationen erfassen. Der ST-Token ist spezialisiert auf molekulare Signale, während der CLS-Token die morphologische Übertragbarkeit behält. Die Kombination beider führt zu konsistenten Verbesserungen.
Backbone-Agnostizität: Die Methode funktioniert effektiv auf verschiedenen Basis-Architekturen (getestet auf H-optimus-0 und UNI2-h).

4. Ergebnisse

Das Modell wurde auf 577 öffentlichen HEST-Proben (Histologie + Transkriptomik) trainiert und auf zwei Benchmarks evaluiert:

HEST-Bench (Genexpressionsvorhersage):
- MINT erreicht die beste Gesamtleistung mit einer mittleren Pearson-Korrelation von 0,440.
- Dies übertrifft den besten vorherigen State-of-the-Art (H-optimus-0: 0,415; UNI2-h: 0,414) und rangiert auf allen 9 getesteten Krebsarten an erster Stelle.
EVA (Allgemeine Pathologie-Transferfähigkeit):
- MINT erzielt den höchsten Durchschnittswert von 0,803 über 9 verschiedene Aufgaben (Klassifizierung, schwach überwachte WSI-Aufgaben, Segmentierung).
- Dies übertrifft Virchow2 (0,798) und H-optimus-0 (0,793).
Ablationsstudien:
- Die Verwendung eines separaten ST-Tokens ist entscheidend. Wenn die Genexpressionsvorhersage direkt auf den CLS-Token angewendet wird (ohne separaten Token), kommt es trotz Distillation zu einem signifikanten Leistungsabfall bei morphologischen Aufgaben (EVA), was das Risiko des Vergessens bestätigt.
- Die Kombination [CLS || ST] (Konkatenation) liefert die besten Ergebnisse auf beiden Benchmarks gleichzeitig.

5. Bedeutung und Fazit

Die Arbeit demonstriert, dass kreuzmodale Supervision (Kombination aus Bild und Genexpression) eine komplementäre Achse zur reinen Skalierung von Bilddaten darstellt.

Kein Trade-off: Im Gegensatz zu früheren Annahmen, dass molekulare und morphologische Ziele im Konflikt stehen, zeigt MINT, dass beide durch die richtige Architektur (getrennte Tokens + Distillation) gleichzeitig verbessert werden können.
Effizienz: Die Verbesserungen wurden erreicht, indem nur 577 gepaarte Proben für das Fine-Tuning genutzt wurden, nicht durch eine massive Vergrößerung der Bilddatenmenge.
Zukunft: Dies legt nahe, dass der Zugang zu weiteren gepaarten Histologie-Transkriptomik-Datensätzen das Potenzial hat, Pathologie-Modelle über die Grenzen rein visueller Selbstüberwachung hinaus zu verbessern.

Zusammenfassend bietet MINT einen robusten Weg, um Foundation-Modelle der Pathologie „molekular informiert" zu machen, ohne ihre etablierten morphologischen Stärken zu opfern.

MINT: Molecularly Informed Training with Spatial Transcriptomics Supervision for Pathology Foundation Models

Die Idee von MINT: Der „Zwei-Kopf-Ansatz"

Warum ist das so wichtig?

Zusammenfassung in einer Analogie

1. Problemstellung

2. Methodik: MINT Framework

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

On the security of 2-key triple DES

Security issues in a group key establishment protocol

The impact of quantum computing on real-world security: A 5G case study

Yet another insecure group key distribution scheme using secret sharing

How not to secure wireless sensor networks: A plethora of insecure polynomial-based key pre-distribution schemes