Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

Louis Blankemeier, Ashwin Kumar, Joseph Paul Cohen, Jiaming Liu, Longchao Liu, Dave Van Veen, Syed Jamal Safdar Gardezi, Hongkun Yu, Magdalini Paschali, Zhihong Chen, Jean-Benoit Delbrouck, Eduardo Reis, Robbie Holland, Cesar Truyts, Christian Bluethgen, Yufu Wu, Long Lian, Malte Engmann Kjeldskov Jensen, Sophie Ostmeier, Maya Varma, Jeya Maria Jose Valanarasu, Zhongnan Fang, Zepeng Huo, Zaid Nabulsi, Diego Ardila, Wei-Hung Weng, Edson Amaro Junior, Neera Ahuja, Jason Fries, Nigam H. Shah, Greg Zaharchuk, Marc Willis, Adam Yala, Andrew Johnston, Robert D. Boutin, Andrew Wentland, Curtis P. Langlotz, Jason Hom, Sergios Gatidis, Akshay S. Chaudhari

Veröffentlicht 2026-03-05

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🧙‍♂️ Merlin: Der magische Assistent für CT-Scans

Stellen Sie sich vor, ein Radiologe ist wie ein Detektiv, der jeden Tag dutzende von riesigen, dreidimensionalen Puzzle-Bildern (CT-Scans) des menschlichen Körpers untersucht. Diese Bilder sind so detailliert, dass sie aus hunderten von einzelnen „Scheiben" bestehen, wie bei einem Laib Brot. Ein einziger Scan kann so viele Details enthalten, dass die Analyse bis zu 20 Minuten dauert. Da es in den USA immer weniger dieser Detektive (Radiologen) gibt, aber immer mehr Patienten, steht das System kurz vor dem Kollaps.

Die Forscher von der Stanford University haben nun einen digitalen Assistenten namens Merlin entwickelt. Er ist kein gewöhnlicher Computerprogramm, sondern ein „Grundlagenmodell" (Foundation Model) – ähnlich wie ein großes Sprachmodell, aber speziell für medizinische Bilder trainiert.

Hier ist, was Merlin so besonders macht, erklärt mit einfachen Vergleichen:

1. Der Unterschied: 2D vs. 3D (Das Buch vs. der Film)

Bisherige KI-Modelle für Medizin waren wie jemand, der ein Buch Seite für Seite liest. Sie schauten sich CT-Scans an, indem sie jede einzelne 2D-Scheibe einzeln betrachteten. Das ist wie ein Film, bei dem man nur ein einzelnes Standbild sieht und sich die Handlung nicht vorstellen kann.
Merlin hingegen schaut sich den ganzen Film auf einmal an. Er verarbeitet den gesamten 3D-Würfel des CT-Scans gleichzeitig. Er „sieht" also nicht nur eine Scheibe, sondern versteht, wie die Organe im Raum zueinander stehen. Das ist wie der Unterschied zwischen einem statischen Foto und einem 360-Grad-Video.

2. Die Ausbildung: Wie Merlin lernt (Der Schüler mit zwei Lehrern)

Um Merlin zu trainieren, haben die Forscher nicht einfach nur Bilder gezeigt. Sie haben ihm zwei Arten von Informationen gleichzeitig gegeben:

Der Bild-Lehrer: Die CT-Scans selbst.
Der Text-Lehrer: Die medizinischen Berichte der Radiologen und die Patientenakten (EHR).

Stellen Sie sich vor, Merlin lernt in einer Schule, wo er gleichzeitig die Bilder sieht und die Beschreibung dazu liest. Er lernt, dass ein bestimmter Schatten auf dem Bild mit dem Wort „Leberverfettung" in der Akte zusammenhängt.
Das Tolle ist: Er braucht keine extra manuelle Markierung durch Menschen. Er nutzt die Daten, die ohnehin schon im Krankenhaus anfallen (die Berichte und die Bilder), um sich selbst zu unterrichten. Das ist wie ein Schüler, der aus alten Prüfungen und den dazugehörigen Lösungen lernt, ohne dass ein Lehrer jede Aufgabe einzeln korrigieren muss.

3. Was kann Merlin? (Das Schweizer Taschenmesser)

Merlin ist nicht auf eine einzige Aufgabe spezialisiert. Er ist ein Alleskönner, der in verschiedenen Situationen hilft:

Der Detektiv (Erkennung): Er kann sofort sagen, ob bestimmte Dinge im Bauch zu sehen sind (z. B. eine Flüssigkeitsansammlung oder ein Tumor), ohne dass er dafür extra trainiert werden muss. Er versteht die Sprache der Ärzte und findet die passenden Bilder dazu.
Der Vorhersage-Prophet: Er kann aus einem heutigen Scan erraten, ob ein Patient in den nächsten 5 Jahren an Krankheiten wie Diabetes oder Herzproblemen erkranken könnte, selbst wenn er heute noch gesund wirkt.
Der Schreiber: Er kann Entwürfe für die medizinischen Berichte schreiben. Er beschreibt, was er auf dem Bild sieht, fast so, als würde er selbst Radiologe sein.
Der Kartograph (Segmentierung): Er kann Organe wie Leber, Nieren oder Milz genau ausmalen und abgrenzen, als würde er mit einem digitalen Stift die Konturen nachziehen.

4. Warum ist das so wichtig? (Die Entlastung)

Aktuell gibt es einen Mangel an Radiologen. Merlin soll nicht die Ärzte ersetzen, sondern ihnen den schweren Rucksack abnehmen.

Effizienz: Er kann einen ersten Entwurf für den Bericht schreiben, damit der Arzt nur noch prüfen muss, ob alles stimmt.
Sicherheit: Er kann als „zweites Paar Augen" dienen und Dinge finden, die dem menschlichen Auge vielleicht entgangen sind (weil wir müde sind oder zu viele Scans haben).
Zugänglichkeit: Die Forscher haben gezeigt, dass man Merlin sogar auf einem einzigen, normalen Computer-Chip (GPU) trainieren kann. Das bedeutet, dass auch kleinere Krankenhäuser solche KI-Modelle nutzen können, ohne milliardenharte Supercomputer zu brauchen.

5. Die Bewährungsprobe (Der Test)

Die Forscher haben Merlin nicht nur im Labor getestet. Sie haben ihn an über 44.000 CT-Scans von anderen Krankenhäusern geprüft, die ganz andere Geräte, andere Patienten und andere Berichtsstile hatten.
Das Ergebnis? Merlin hat sich wie ein erfahrener Weltreisender verhalten. Er hat auch dort gut funktioniert, wo andere Modelle (die nur 2D-Bilder oder nur Bilder ohne Text kannten) versagten. Er war deutlich besser als alle bisherigen Konkurrenten.

Zusammenfassung

Merlin ist wie ein magischer Assistent, der gelernt hat, die Sprache der Bilder und die Sprache der Ärzte gleichzeitig zu verstehen. Er schaut sich den ganzen Körper in 3D an, nicht nur in flachen Scheiben. Sein Ziel ist es, die Arbeit der Radiologen zu erleichtern, Fehler zu reduzieren und sicherzustellen, dass auch in Zukunft jeder Patient eine schnelle und genaue Diagnose bekommt, auch wenn die Ärzte überlastet sind.

Die Forscher haben sogar den Code, das trainierte Modell und die Daten öffentlich gemacht, damit andere Ärzte und Wissenschaftler ihn nutzen und weiterentwickeln können.

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

🧙‍♂️ Merlin: Der magische Assistent für CT-Scans

1. Der Unterschied: 2D vs. 3D (Das Buch vs. der Film)

2. Die Ausbildung: Wie Merlin lernt (Der Schüler mit zwei Lehrern)

3. Was kann Merlin? (Das Schweizer Taschenmesser)

4. Warum ist das so wichtig? (Die Entlastung)

5. Die Bewährungsprobe (Der Test)

Zusammenfassung

1. Problemstellung

2. Methodik: Merlin

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Merlin: A Computed Tomography Vision-Language Foundation Model and Dataset

🧙‍♂️ Merlin: Der magische Assistent für CT-Scans

1. Der Unterschied: 2D vs. 3D (Das Buch vs. der Film)

2. Die Ausbildung: Wie Merlin lernt (Der Schüler mit zwei Lehrern)

3. Was kann Merlin? (Das Schweizer Taschenmesser)

4. Warum ist das so wichtig? (Die Entlastung)

5. Die Bewährungsprobe (Der Test)

Zusammenfassung

1. Problemstellung

2. Methodik: Merlin

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Memory Bear AI Memory Science Engine for Multimodal Affective Intelligence: A Technical Report

The Efficiency Attenuation Phenomenon: A Computational Challenge to the Language of Thought Hypothesis

Dynamic Fusion-Aware Graph Convolutional Neural Network for Multimodal Emotion Recognition in Conversations

Intelligence Inertia: Physical Principles and Applications

Session Risk Memory (SRM): Temporal Authorization for Deterministic Pre-Execution Safety Gates