Leveraging Foundation Models for Content-Based Image Retrieval in Radiology

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der überfüllte Radiologie-Speicher

Stell dir vor, ein Radiologie-Krankenhaus ist wie eine riesige Bibliothek, die jeden Tag mit Millionen neuen Bildern (Röntgen, MRT, CT, Ultraschall) gefüllt wird. Diese Bilder sind Gold wert für Ärzte, um Krankheiten zu erkennen oder neue Forschung zu betreiben.

Das Problem? Man findet nichts mehr. Wenn ein Arzt ein Bild von einem verdächtigen Knochenbruch sieht, möchte er sofort 10 andere Bilder finden, die genau so aussehen, um zu vergleichen: „Sieht das bei anderen Patienten auch so aus? War die Behandlung erfolgreich?"

Bisherige Computer-Systeme, die das tun sollen (man nennt sie CBIR-Systeme), waren wie Spezialisten, die nur ein einziges Fachgebiet beherrschen. Ein System konnte vielleicht nur Lungenkrebs finden, ein anderes nur Knochenbrüche. Wenn der Arzt aber nach etwas anderem suchte, sagte das System: „Keine Ahnung, dafür bin ich nicht ausgebildet." Das war zu unflexibel.

Die Lösung: Die „Allround-Talente" (Foundation Models)

Die Forscher von diesem Papier haben eine geniale Idee gehabt: Statt für jedes Problem einen neuen Spezialisten zu trainieren, nutzen sie Foundation Models.

Die Analogie:
Stell dir Foundation Models wie Superhelden vor, die in der Welt trainiert wurden, alles zu sehen und zu verstehen. Sie haben Milliarden von Bildern (nicht nur medizinische, sondern auch von Hunden, Autos, Landschaften) gesehen und gelernt, was ein „Rad", ein „Wolkenkratzer" oder ein „Hund" ist. Sie haben ein riesiges, universelles Verständnis von Bildern.

Die Frage der Forscher war: Können diese Superhelden auch medizinische Bilder verstehen, ohne dass wir sie extra dafür zur Schule schicken (trainieren)?

Was haben sie gemacht?

Der riesige Test: Sie haben einen gigantischen Datensatz zusammengestellt – 1,6 Millionen Bilder aus vier verschiedenen Welten (CT, MRT, Röntgen, Ultraschall) und mit 161 verschiedenen Krankheiten. Das ist wie ein riesiges „Finale" für alle möglichen medizinischen Fragen.
Der Wettbewerb: Sie haben verschiedene dieser „Superhelden"-Modelle gegeneinander antreten lassen. Manche waren auf natürliche Bilder trainiert (wie normale Fotos), andere speziell auf medizinische Texte und Bilder.
Der Test: Sie gaben dem Computer ein Bild (z. B. eine Lunge mit einer bestimmten Krankheit) und fragten: „Finde mir die 10 ähnlichsten Bilder aus dem riesigen Stapel!"

Die Ergebnisse: Wer hat gewonnen?

Hier kommt es auf die Art des „Superhelden" an:

Die Spezialisten (Die „Alten"): Es gab ein System, das extra für diesen Test trainiert wurde. Das war wie ein Schüler, der nur für diese eine Prüfung gelernt hat. Er hat gewonnen. Er war am genauesten. Aber: Er braucht viel Zeit, Daten und Rechenleistung, um zu lernen.
Die Allrounder (Die „Foundation Models"): Die meisten der vorgefertigten Modelle haben überraschend gut abgeschnitten, ohne jemals extra für diesen Test gelernt zu haben!
- Der Gewinner unter den Allroundern war BiomedCLIP. Stell dir das vor wie einen Arzt, der nicht nur Bilder sieht, sondern auch Millionen von medizinischen Fachartikeln gelesen hat. Er versteht den Zusammenhang zwischen Bild und Text. Er hat fast so gut abgeschnitten wie der Spezialist, aber er musste nicht extra trainiert werden. Er war „out-of-the-box" einsatzbereit.
- Andere Modelle, die nur auf normalen Fotos trainiert wurden, waren okay, aber nicht so gut.
- Modelle, die darauf trainiert waren, nur kleine Teile von Bildern zu erkennen (wie bei der Segmentierung), waren für diese Aufgabe eher schlecht. Sie konnten zwar sehen, wo ein Knochen ist, aber nicht gut beschreiben, was mit dem Knochen los ist.

Die Schwachstellen: Wo hakt es noch?

Auch die Superhelden haben Schwächen:

Die 2D-Falle: Bei Röntgenbildern (die flach sind wie ein Foto) war es am schwierigsten, die richtigen Bilder zu finden. Das liegt daran, dass bei Röntgenstrahlen alles übereinander liegt – wie wenn man versucht, einen 3D-Berger auf einem flachen Blatt Papier zu verstehen. Bei CT und MRT (die Schicht für Schicht sind) funktionierte es viel besser.
Krankheit vs. Anatomie: Das System findet Körperteile (Anatomie) viel besser als Krankheiten (Pathologie).
- Vergleich: Es ist leicht, ein Bild von einer „Leber" zu finden, die wie eine Leber aussieht. Aber es ist sehr schwer, ein Bild von einer „Leber mit einem ganz kleinen, unscharfen Tumor" zu finden, wenn der Tumor nur winzig anders aussieht als eine gesunde Leber. Die Krankheit ist oft zu subtil für den Computer.
Die Menge macht's: Je mehr Bilder von einer bestimmten Krankheit im Speicher sind, desto besser findet der Computer sie. Aber irgendwann (bei ca. 1.000 Bildern pro Krankheit) bringt mehr Bilder nichts mehr – dann braucht es einfach einen schlaueren Algorithmus.

Fazit: Was bedeutet das für die Zukunft?

Die Forscher sagen: Wir müssen nicht mehr für jedes kleine Problem einen neuen Spezialisten erfinden.

Die „Foundation Models" (wie BiomedCLIP) sind wie ein schlaues, universelles Werkzeug, das man sofort aus der Schublade holen kann. Es ist nicht perfekt (der spezialisierte Arzt ist immer noch besser), aber es ist so gut, dass es in vielen Fällen reicht, und es spart enorme Zeit und Geld, weil man nichts extra trainieren muss.

Die große Vision: In Zukunft könnten Radiologen einfach ein Bild hochladen und sofort Tausende von ähnlichen Fällen aus der ganzen Welt finden, um bessere Diagnosen zu stellen – alles dank dieser universellen KI-Modelle, die wir einfach „einfach so" nutzen können.

Kurz gesagt: Wir haben gelernt, dass KI, die die Welt schon kennt, auch unsere Krankenhäuser verstehen kann – und das ist ein riesiger Schritt in die richtige Richtung!

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Content-Based Image Retrieval (CBIR) hat das Potenzial, die diagnostische Unterstützung und medizinische Forschung in der Radiologie erheblich zu verbessern, indem es ähnliche Bilder basierend auf visuellen Merkmalen statt nur auf Metadaten findet. Bisherige CBIR-Systeme in der Medizin sind jedoch stark limitiert:

Spezialisierung: Sie sind oft auf bestimmte Pathologien trainiert und generalisieren schlecht auf unbekannte Bedingungen.
Datenknappheit & Heterogenität: Radiologische Datensätze sind extrem heterogen (verschiedene Modalitäten, anatomische Variationen) und oft nur unzureichend oder unausgewogen annotiert.
Semantische Lücke: Es besteht eine Diskrepanz zwischen niedrigen visuellen Merkmalen und dem klinischen Verständnis.
Ressourcen: Das Training neuer, spezialisierter Modelle erfordert große Mengen an gelabelten Daten und Rechenleistung, was in vielen Szenarien nicht verfügbar ist.

Das Ziel der Arbeit ist es zu untersuchen, ob Vision-Foundation-Modelle (große, vortrainierte Modelle) als leistungsfähige, „out-of-the-box" Merkmalsextraktoren für ein generalistisches CBIR-System in der Radiologie eingesetzt werden können, ohne dass ein spezifisches Fine-Tuning erforderlich ist.

2. Methodik

Datensatz

Die Autoren haben einen umfassenden, kombinierten Datensatz erstellt, der 1,6 Millionen 2D-Bilder aus vier öffentlichen Quellen (NIH14, MIMIC-CXR, CheXpert, RadImageNet) vereint.

Modalitäten: Röntgen (XR), Computertomographie (CT), Magnetresonanztomographie (MRI) und Ultraschall (US).
Klassen: 185 Klassen (161 pathologisch, 24 anatomisch).
Aufteilung: Die Daten wurden patientenweise in einen Index-Set (zum Erstellen der Datenbank) und ein Query-Set (zum Testen) aufgeteilt. Der Datensatz spiegelt die natürliche, langschwänige Verteilung medizinischer Krankheiten wider (starke Klassenungleichheit).

Evaluierte Modelle

Es wurde eine breite Palette von Foundation-Modellen bewertet, unterschieden nach Trainingsparadigma und Domäne:

Überwachtes Lernen (Supervised): ResNet, ViT (auf natürlichen Bildern trainiert), Ark (speziell für CXR), SAM & MedSAM (Segmentation-Modelle).
Schwach überwacht (Weakly-Supervised): CLIP-Familie (CLIP, MedCLIP, BiomedCLIP, BMC-CLIP), die auf Bild-Text-Paaren trainiert wurden.
Selbstüberwacht (Self-Supervised): MAE, DINOv2, RAD-DINO (medizinische Anpassung von DINOv2).

Als Baseline dienten spezialisierte CBIR-Modelle (CVNet), die speziell auf dem kombinierten Datensatz mit einem kontrastiven Verlust trainiert wurden, um den „State-of-the-Art" für dieses spezifische Problem zu definieren.

Retrieval-Pipeline

Die Evaluation erfolgte im „Off-the-Shelf"-Modus (kein Fine-Tuning der Foundation-Modelle):

Preprocessing: Bilder werden auf die Eingabegröße der Modelle skaliert.
Feature Extraction: Jedes Bild wird durch das Modell geführt, um einen dichten Embedding-Vektor zu erzeugen.
Normalisierung: Vektoren werden auf Einheitslänge normalisiert ( $L_2$ ).
Indexierung: Speicherung in einer Vektordatenbank (FAISS) für effiziente Suche.
Retrieval: Berechnung der kosinussimilarität zwischen Query-Embedding und Index-Embeddings.
Metrik: Bewertung mittels Precision@N (P@1, P@3, P@5, P@10) auf Mikro- (Sample-basiert) und Makro-Ebene (Klassen-basiert).

3. Wichtige Ergebnisse

Gesamtleistung

BiomedCLIP erzielte die beste Leistung unter den Foundation-Modellen mit einem P@1 von 0,594 (Mikro-Average). BMC-CLIP folgte mit 0,592.
Spezialisierte Modelle (CVNet): Die speziell für CBIR trainierten Modelle (CVNet-Global101) übertrafen alle Foundation-Modelle mit einem P@1 von 0,650. Dies zeigt, dass spezialisiertes Training immer noch Vorteile bietet, aber Foundation-Modelle ohne jegliches Training bereits sehr konkurrenzfähig sind.
Modelltypen: Schwach überwachte Modelle (CLIP-Varianten) schnitten im Allgemeinen besser ab als rein überwachete Klassifikationsmodelle oder reine Segmentierungsmodelle (SAM/MedSAM zeigten schwächere Ergebnisse, da sie eher strukturelle als semantische globale Merkmale lernen).

Modalitätsspezifische Analyse

Ultraschall (US): Zeigte die höchste Retrieval-Genauigkeit (P@1 bis 0,817), gefolgt von CT und MRI.
Röntgen (XR): Zeigte die schlechtesten Ergebnisse (P@1 ~0,395), was auf die Schwierigkeiten bei der Interpretation von 2D-Projektionen und das Überlagern anatomischer Strukturen zurückzuführen ist.
Spezifische Modelle: Modelle, die speziell auf Röntgenbildern trainiert wurden (Ark, RAD-DINO), schnitten bei XR besser ab als allgemeine Modelle, generalisierten aber schlechter auf andere Modalitäten.

Anatomie vs. Pathologie

Es gab eine deutliche Diskrepanz zwischen der Erkennung anatomischer Strukturen und pathologischer Befunde.
Anatomie: P@1 von 0,812.
Pathologie: P@1 von nur 0,451.
Ursache: Pathologische Merkmale sind oft subtiler, variabler und werden von den stärkeren anatomischen Mustern überlagert. Die Embedding-Räume trennen Anatomien klar, während Pathologien oft überlappen.

Einfluss der Indexgröße

Eine Abhängigkeitsstudie zeigte, dass die Retrieval-Leistung mit der Anzahl der Beispiele pro Klasse im Index steigt, bis sie bei ca. 1.000 Beispielen pro Klasse zu saturieren beginnt. Mehr Daten bringen danach kaum noch Verbesserungen, was auf die Notwendigkeit besserer Modelle (statt mehr Daten) für seltene Klassen hindeutet.

Embedding-Space-Analyse

Clustering (kNN): BiomedCLIP und BMC-CLIP zeigten die beste Clusterbildung (AURPC 0,711).
Lineare Trennbarkeit (Linear Probing): Das Modell Ark zeigte hier die besten Ergebnisse, was darauf hindeutet, dass es die class-relevanten Merkmale am besten erhält, auch wenn es im Retrieval (kNN) nicht ganz so gut abschnitt wie BiomedCLIP.

4. Bedeutung und Schlussfolgerungen

Paradigmenwechsel: Die Arbeit belegt, dass Foundation-Modelle eine praktikable, skalierbare Alternative zu speziell trainierten CBIR-Systemen darstellen, insbesondere in datenarmen Szenarien oder wenn keine spezifischen Labels für das Zielszenario verfügbar sind.
Generalisierung: Modelle wie BiomedCLIP können über verschiedene Modalitäten hinweg generalisieren, ohne dass ein spezifisches Fine-Tuning nötig ist.
Herausforderungen: Die größte Hürde bleibt die präzise Erkennung seltener oder subtiler Pathologien im Vergleich zu anatomischen Strukturen.
Zukunftsausblick:
- Future Work sollte sich auf das Fine-Tuning von Foundation-Modellen für spezifische klinische Anwendungen konzentrieren.
- Die Integration von Re-Ranking-Methoden, um globale Features für lokale Verfeinerungen zu nutzen.
- Entwicklung von Mechanismen, um die Aufmerksamkeit des Modells gezielt auf pathologische Regionen zu lenken (Region-of-Interest), um die Leistung bei Pathologien zu verbessern.

Fazit: Vision-Foundation-Modelle, insbesondere schwach überwachte CLIP-Varianten wie BiomedCLIP, sind leistungsfähige, vielseitige Merkmalsextraktoren für die radiologische Bildsuche. Obwohl spezialisierte Modelle noch immer die höchste Genauigkeit erreichen, bieten Foundation-Modelle einen vielversprechenden Weg hin zu universellen, generalisierbaren Retrieval-Systemen, die ohne aufwendiges Training eingesetzt werden können.