Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Die Studie demonstriert, dass vortrainierte Vision-Foundation-Modelle, insbesondere BiomedCLIP, als vielseitige und trainingsfreie Feature-Extraktoren für die inhaltsbasierte Bildwiedergewinnung in der Radiologie eingesetzt werden können und dabei auf einem Datensatz von 1,6 Millionen Bildern eine mit spezialisierten Systemen vergleichbare Leistung erzielen.

Stefan Denner, David Zimmerer, Dimitrios Bounias, Markus Bujotzek, Shuhan Xiao, Raphael Stock, Lisa Kausch, Philipp Schader, Tobias Penzkofer, Paul F. Jäger, Klaus Maier-Hein

Veröffentlicht 2026-03-04
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der überfüllte Radiologie-Speicher

Stell dir vor, ein Radiologie-Krankenhaus ist wie eine riesige Bibliothek, die jeden Tag mit Millionen neuen Bildern (Röntgen, MRT, CT, Ultraschall) gefüllt wird. Diese Bilder sind Gold wert für Ärzte, um Krankheiten zu erkennen oder neue Forschung zu betreiben.

Das Problem? Man findet nichts mehr. Wenn ein Arzt ein Bild von einem verdächtigen Knochenbruch sieht, möchte er sofort 10 andere Bilder finden, die genau so aussehen, um zu vergleichen: „Sieht das bei anderen Patienten auch so aus? War die Behandlung erfolgreich?"

Bisherige Computer-Systeme, die das tun sollen (man nennt sie CBIR-Systeme), waren wie Spezialisten, die nur ein einziges Fachgebiet beherrschen. Ein System konnte vielleicht nur Lungenkrebs finden, ein anderes nur Knochenbrüche. Wenn der Arzt aber nach etwas anderem suchte, sagte das System: „Keine Ahnung, dafür bin ich nicht ausgebildet." Das war zu unflexibel.

Die Lösung: Die „Allround-Talente" (Foundation Models)

Die Forscher von diesem Papier haben eine geniale Idee gehabt: Statt für jedes Problem einen neuen Spezialisten zu trainieren, nutzen sie Foundation Models.

Die Analogie:
Stell dir Foundation Models wie Superhelden vor, die in der Welt trainiert wurden, alles zu sehen und zu verstehen. Sie haben Milliarden von Bildern (nicht nur medizinische, sondern auch von Hunden, Autos, Landschaften) gesehen und gelernt, was ein „Rad", ein „Wolkenkratzer" oder ein „Hund" ist. Sie haben ein riesiges, universelles Verständnis von Bildern.

Die Frage der Forscher war: Können diese Superhelden auch medizinische Bilder verstehen, ohne dass wir sie extra dafür zur Schule schicken (trainieren)?

Was haben sie gemacht?

  1. Der riesige Test: Sie haben einen gigantischen Datensatz zusammengestellt – 1,6 Millionen Bilder aus vier verschiedenen Welten (CT, MRT, Röntgen, Ultraschall) und mit 161 verschiedenen Krankheiten. Das ist wie ein riesiges „Finale" für alle möglichen medizinischen Fragen.
  2. Der Wettbewerb: Sie haben verschiedene dieser „Superhelden"-Modelle gegeneinander antreten lassen. Manche waren auf natürliche Bilder trainiert (wie normale Fotos), andere speziell auf medizinische Texte und Bilder.
  3. Der Test: Sie gaben dem Computer ein Bild (z. B. eine Lunge mit einer bestimmten Krankheit) und fragten: „Finde mir die 10 ähnlichsten Bilder aus dem riesigen Stapel!"

Die Ergebnisse: Wer hat gewonnen?

Hier kommt es auf die Art des „Superhelden" an:

  • Die Spezialisten (Die „Alten"): Es gab ein System, das extra für diesen Test trainiert wurde. Das war wie ein Schüler, der nur für diese eine Prüfung gelernt hat. Er hat gewonnen. Er war am genauesten. Aber: Er braucht viel Zeit, Daten und Rechenleistung, um zu lernen.
  • Die Allrounder (Die „Foundation Models"): Die meisten der vorgefertigten Modelle haben überraschend gut abgeschnitten, ohne jemals extra für diesen Test gelernt zu haben!
    • Der Gewinner unter den Allroundern war BiomedCLIP. Stell dir das vor wie einen Arzt, der nicht nur Bilder sieht, sondern auch Millionen von medizinischen Fachartikeln gelesen hat. Er versteht den Zusammenhang zwischen Bild und Text. Er hat fast so gut abgeschnitten wie der Spezialist, aber er musste nicht extra trainiert werden. Er war „out-of-the-box" einsatzbereit.
    • Andere Modelle, die nur auf normalen Fotos trainiert wurden, waren okay, aber nicht so gut.
    • Modelle, die darauf trainiert waren, nur kleine Teile von Bildern zu erkennen (wie bei der Segmentierung), waren für diese Aufgabe eher schlecht. Sie konnten zwar sehen, wo ein Knochen ist, aber nicht gut beschreiben, was mit dem Knochen los ist.

Die Schwachstellen: Wo hakt es noch?

Auch die Superhelden haben Schwächen:

  1. Die 2D-Falle: Bei Röntgenbildern (die flach sind wie ein Foto) war es am schwierigsten, die richtigen Bilder zu finden. Das liegt daran, dass bei Röntgenstrahlen alles übereinander liegt – wie wenn man versucht, einen 3D-Berger auf einem flachen Blatt Papier zu verstehen. Bei CT und MRT (die Schicht für Schicht sind) funktionierte es viel besser.
  2. Krankheit vs. Anatomie: Das System findet Körperteile (Anatomie) viel besser als Krankheiten (Pathologie).
    • Vergleich: Es ist leicht, ein Bild von einer „Leber" zu finden, die wie eine Leber aussieht. Aber es ist sehr schwer, ein Bild von einer „Leber mit einem ganz kleinen, unscharfen Tumor" zu finden, wenn der Tumor nur winzig anders aussieht als eine gesunde Leber. Die Krankheit ist oft zu subtil für den Computer.
  3. Die Menge macht's: Je mehr Bilder von einer bestimmten Krankheit im Speicher sind, desto besser findet der Computer sie. Aber irgendwann (bei ca. 1.000 Bildern pro Krankheit) bringt mehr Bilder nichts mehr – dann braucht es einfach einen schlaueren Algorithmus.

Fazit: Was bedeutet das für die Zukunft?

Die Forscher sagen: Wir müssen nicht mehr für jedes kleine Problem einen neuen Spezialisten erfinden.

Die „Foundation Models" (wie BiomedCLIP) sind wie ein schlaues, universelles Werkzeug, das man sofort aus der Schublade holen kann. Es ist nicht perfekt (der spezialisierte Arzt ist immer noch besser), aber es ist so gut, dass es in vielen Fällen reicht, und es spart enorme Zeit und Geld, weil man nichts extra trainieren muss.

Die große Vision: In Zukunft könnten Radiologen einfach ein Bild hochladen und sofort Tausende von ähnlichen Fällen aus der ganzen Welt finden, um bessere Diagnosen zu stellen – alles dank dieser universellen KI-Modelle, die wir einfach „einfach so" nutzen können.

Kurz gesagt: Wir haben gelernt, dass KI, die die Welt schon kennt, auch unsere Krankenhäuser verstehen kann – und das ist ein riesiger Schritt in die richtige Richtung!