Handling Supervision Scarcity in Chest X-ray Classification: Long-Tailed and Zero-Shot Learning

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der ungleiche Arzt-Patienten-Verkehr

Stellen Sie sich vor, Sie leiten eine riesige Notaufnahme, in der täglich Tausende Röntgenbilder von Brustkästen (CXR) ankommen. Ihr Ziel ist es, mit Hilfe eines Computerprogramms (einer KI) sofort zu erkennen, was den Patienten fehlt.

Aber es gibt zwei große Hürden:

Das "Popcorn-Problem" (Long-Tailed Distribution):
In der Notaufnahme kommen 99 % der Patienten mit ganz normalen, häufigen Beschwerden rein (z. B. eine leichte Lungenentzündung oder Wasser in der Lunge). Nur ganz selten kommt jemand mit einer extrem seltenen, aber gefährlichen Krankheit.
- Das Problem: Wenn Sie einen neuen Schüler (die KI) nur mit den 99 % normalen Fällen trainieren, wird er zum Experten für das Häufige, aber er wird die seltenen Fälle komplett übersehen. Er lernt nur, was er oft sieht, und ignoriert die "Nadeln im Heuhaufen".
Das "Geister-Problem" (Zero-Shot Learning):
Manchmal tauchen Krankheiten auf, für die der Arzt in der Datenbank gar keine Beispiele hat. Vielleicht eine völlig neue Art von Knochenbruch oder eine seltene Verformung, die noch nie dokumentiert wurde.
- Das Problem: Wie kann die KI etwas erkennen, für das sie nie gelernt hat? Es ist, als würde man jemanden bitten, ein Tier zu beschreiben, das er noch nie gesehen hat, nur weil er weiß, wie ein "Vierbeiner" oder ein "Flugzeug" aussieht.

Die Lösung: Ein cleveres Team aus zwei Spezialisten

Das Team um Ha-Hieu Pham und seine Kollegen hat an einem Wettbewerb teilgenommen, bei dem genau diese Probleme gelöst werden sollten. Sie haben zwei verschiedene Strategien entwickelt, wie zwei Spezialisten, die sich gegenseitig ergänzen.

Spezialist 1: Der "Gerechte Lehrer" (Für die häufigen und seltenen Fälle)

Für die Aufgabe, die bekannten Krankheiten zu erkennen (auch die seltenen), haben sie eine KI namens ConvNeXtV2 trainiert. Aber sie haben sie nicht einfach nur "laufen lassen".

Die Analogie: Stellen Sie sich vor, Sie unterrichten eine Klasse. Die meisten Schüler sind sehr gut in Mathe (die häufigen Krankheiten), aber ein paar wenige haben große Schwierigkeiten (die seltenen Krankheiten). Ein normaler Lehrer würde sich nur um die guten Schüler kümmern, weil sie schnell lernen.
Die Lösung des Teams: Sie haben dem Lehrer eine spezielle Regel gegeben: "Wenn ein Schüler eine seltene Krankheit richtig erkennt, gibt es einen doppelten Bonus!" (Das nennt man Distribution-Balanced Loss).
Der "Stempel-Check": Am Ende haben sie noch eine kleine Nachkontrolle eingebaut. Wenn das System sagt: "Der Patient ist völlig gesund", aber gleichzeitig noch ein paar andere Warnsignale leuchten, dämpft es diese Warnsignale. Das verhindert, dass das System aus Panik bei gesunden Menschen Krankheiten erfindet.

Ergebnis: Das System wurde zum Meister darin, sowohl die häufigen als auch die extrem seltenen Krankheiten zu finden, ohne sich in den häufigen zu verlieren. Sie landeten auf Platz 1 in diesem Bereich.

Spezialist 2: Der "Übersetzer" (Für die unbekannten Fälle)

Für die Aufgabe, Krankheiten zu erkennen, die im Training gar nicht vorkamen (die "Geister"), haben sie einen ganz anderen Ansatz gewählt.

Die Analogie: Stellen Sie sich vor, Sie müssen ein unbekanntes Tier beschreiben, ohne es je gesehen zu haben. Sie können es nicht durch "Beispiele" lernen. Aber Sie können es durch Beschreibungen lernen. Wenn Sie wissen, dass ein "Bull" ein großes, rundes Tier ist und ein "Goiter" eine Schwellung am Hals ist, können Sie das Bild analysieren und sagen: "Aha, hier ist eine große runde Stelle, das passt zur Beschreibung!"
Die Lösung des Teams: Sie nutzten ein Modell namens WhyXrayCLIP. Dieses Modell ist wie ein Übersetzer, der Bilder und Texte versteht. Es hat gelernt, dass ein Röntgenbild mit dem Text "Brustbeinverformung" zusammenpasst.
Der Trick: Statt die KI mit Bildern von "Scoliosis" (Wirbelsäulenverkrümmung) zu füttern (was verboten war), gaben ihr einfach den Text "Scoliosis" und fragten: "Passt dieses Bild zu diesem Wort?" Das Modell vergleicht das Bild mit der Textbeschreibung und gibt eine Wahrscheinlichkeit ab.

Ergebnis: Das System konnte Krankheiten erkennen, für die es nie ein einziges Trainingsbild gesehen hatte. Auch hier landeten sie auf Platz 1.

Warum ist das wichtig?

In der echten Welt sind Krankenhäuser oft überfordert. Es gibt zu wenige Daten für seltene Krankheiten, und Ärzte haben keine Zeit, alles manuell zu prüfen.

Die "Popcorn"-Strategie sorgt dafür, dass die KI nicht nur die "einfachen" Fälle abhakt, sondern auch die seltenen, lebenswichtigen Warnsignale findet.
Die "Übersetzer"-Strategie macht die KI zukunftssicher. Wenn morgen eine völlig neue Krankheit auftritt, muss man das System nicht neu programmieren. Man muss ihm nur den Namen und eine Beschreibung geben, und es kann es erkennen.

Fazit

Das Team hat gezeigt, dass man KI-Systeme nicht nur mit mehr Daten füttern muss, sondern sie auch "klüger" machen kann. Durch das gezielte Trainieren auf die Seltenen und das Nutzen von Textbeschreibungen für das Unbekannte haben sie die besten Ergebnisse bei diesem weltweiten Wettbewerb erzielt. Sie haben quasi einen Arzt-Assistenten gebaut, der sowohl die häufigen Erkältungen als auch die seltenen Wunderkuren im Blick hat – und sogar Dinge erkennt, die noch gar keinen Namen haben.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die automatische Klassifizierung von Röntgenbildern des Thorax (CXR) im klinischen Alltag wird durch unvollständige und fehlerhafte Überwachung (Supervision) behindert. Zwei Hauptprobleme stehen im Fokus:

Extreme Long-Tailed-Verteilung: In großen Datensätzen dominieren wenige häufige Befunde (Head-Klassen), während viele klinisch wichtige, aber seltene Anomalien (Tail-Klassen) nur selten vorkommen. Standard-Modelle neigen dazu, die häufigen Klassen zu bevorzugen und bei seltenen zu versagen.
Fehlende Annotationen für seltene/unbekannte Befunde: Für seltene oder bisher unbekannte pathologische Befunde liegen oft keine annotierten Trainingsdaten vor. Dies erschwert das Training von Modellen für diese Klassen (Zero-Shot-Szenario).

Der CXR-LT 2026 Challenge adressiert diese Herausforderungen auf Basis des PadChest-Datensatzes. Die Aufgabe besteht aus zwei Teilen:

Task 1: Long-Tailed Multi-Label-Klassifizierung für 30 bekannte (in-distribution, ID) Krankheitsklassen.
Task 2: Zero-Shot-Erkennung für 6 unbekannte (out-of-distribution, OOD) Krankheitsklassen ohne Verwendung von annotierten Beispielen dieser Klassen während des Trainings.

2. Methodik

Die Autoren stellen maßgeschneiderte Lösungen für beide Aufgaben vor, die auf Robustheit gegenüber Klassenungleichgewicht und unvollständiger Überwachung ausgelegt sind.

Task 1: Long-Tailed Multi-Label-Klassifizierung

Das Ziel ist die Verbesserung der Erkennung seltener Klassen bei Beibehaltung stabiler Leistung bei häufigen Befunden.

Architektur & Vorverarbeitung:
- Verwendung von ConvNeXtV2-Base als Backbone, initialisiert mit Gewichten, die auf MIMIC-CXR vortrainiert wurden.
- Zwei Varianten des Klassifikationskopfes werden feinabgestimmt: ein Standard-MLP und ein CSRA-Head (Class-Specific Spatial Attention), der räumliche Aufmerksamkeit für spezifische Klassen integriert.
- Vorverarbeitung umfasst Intensitäts-Clipping, Resizing auf 512x512 und Normalisierung.
Imbalance-aware Objective (Distribution-Balanced Loss):
- Um das Klassenungleichgewicht zu mildern, wird ein Distribution-Balanced (DB) Loss verwendet. Dieser kombiniert eine gewichtete Re-Balancierung basierend auf der effektiven Anzahl der Samples ( $eff_c$ ) mit einer Margin-Anpassung für positive Labels.
- Die Gewichte $w_c$ werden so berechnet, dass Tail-Klassen stärker gewichtet werden, ohne die Stabilität zu gefährden.
Class-Aware Sampling (CAS):
- Zusätzlich zum Loss wird ein Sampling-Verfahren eingesetzt, das Bilder mit seltenen positiven Labels überrepräsentiert (Oversampling), basierend auf einem Repeat-Faktor, der von der empirischen Häufigkeit der Klasse abhängt.
Inferenz-Pipeline:
- Ensemble & TTA: Zwei trainierte Checkpoints werden gewichtet gemittelt. Test-Time Augmentation (TTA) wird durch Mittelung der Vorhersagen über verschiedene Transformationen (Spiegelung, Rotation, Zoom) angewendet.
- Post-Processing (Normal Gating): Eine leichte Nachbearbeitung unterdrückt die Wahrscheinlichkeiten abnormaler Befunde, wenn das Modell sehr sicher ist, dass das Bild „Normal" ist ( $p_c \leftarrow p_c \cdot (1 - p_{normal})^{\alpha}$ ). Dies reduziert falsch-positive Vorhersagen.

Task 2: Zero-Shot OOD-Erkennung

Da keine annotierten Daten für die 6 OOD-Klassen (z. B. Skoliose, Osteopenie) verfügbar sind, wird das Problem als Vision-Language Matching formuliert.

Modell: Verwendung von WhyXrayCLIP, einem spezialisierten Vision-Language-Modell (basierend auf OpenCLIP ViT-L/14), das auf großen Mengen von Röntgenbildern und Berichten (MIMIC-CXR) feinabgestimmt wurde. Dies ermöglicht eine bessere semantische Ausrichtung zwischen Bild und Text im radiologischen Kontext.
Prompt-Ensembling: Für jede OOD-Klasse werden mehrere generische radiologische Textbeschreibungen (Prompts) definiert. Diese werden in Text-Embeddings kodiert.
Zero-Shot Scoring:
- Das Bild wird in ein Embedding kodiert.
- Die Ähnlichkeit (Cosine Similarity) zwischen dem Bild-Embedding und den gemittelten Text-Embeddings der Prompts wird berechnet.
- Die Scores werden mittels einer skalierten Sigmoid-Funktion in Wahrscheinlichkeiten im Bereich [0, 1] umgewandelt.
- Dies ermöglicht die Vorhersage von Klassen, die im Training nie gesehen wurden, rein durch Text-Prompts.

3. Wichtige Beiträge

Imbalance-Aware Multi-Label-Learning: Eine Kombination aus Distribution-Balanced Loss, Class-Aware Sampling und einem CSRA-Head, die speziell für die extremen Ungleichgewichte in medizinischen Bilddaten optimiert ist.
Prompt-Driven Zero-Shot Framework: Eine robuste Methode zur Erkennung unbekannter Krankheitsbilder ohne jegliche OOD-Labels, indem ein domänenspezifisches Vision-Language-Modell (WhyXrayCLIP) genutzt wird.
Innovative Post-Processing-Strategie: Die „Normal Gating"-Methode zur Reduktion von falsch-positiven Vorhersagen bei scheinbar normalen Bildern.
State-of-the-Art Ergebnisse: Das Team erreichte auf dem öffentlichen Leaderboard des CXR-LT 2026 Challenges den ersten Platz in beiden Aufgaben.

4. Ergebnisse

Die Leistung wurde mit dem macro-averaged mean Average Precision (mAP) bewertet, da dieser Metrik alle Klassen gleich gewichtet und somit die Leistung bei seltenen Befunden besser widerspiegelt.

Task 1 (Long-Tailed Classification):
- mAP: 0.583 (Platz 1, deutlich vor dem Zweitplatzierten mit 0.535).
- mAUC: 0.919.
- mF1: 0.376 (Beste Leistung).
- Hinweis: Die Kalibrierung (mECE) war auf dem öffentlichen Set suboptimal (0.928), was auf eine Überanpassung oder Unsicherheit hindeuten könnte, aber die Diskriminierungsfähigkeit ist hervorragend.
Task 2 (Zero-Shot OOD Recognition):
- mAP: 0.467 (Platz 1, Vorsprung von 0.102 gegenüber dem Zweitplatzierten).
- mAUC: 0.779 (Beste Leistung).
- mECE: 0.516 (Zweitbeste Kalibrierung unter den Top-10).

5. Bedeutung und Ausblick

Dieses Paper demonstriert, wie man die Lücke zwischen theoretischen Deep-Learning-Modellen und den realen klinischen Herausforderungen (Datenungleichgewicht, fehlende Labels für seltene Krankheiten) schließen kann.

Klinische Relevanz: Die Fähigkeit, seltene Krankheiten zu erkennen und unbekannte Befunde ohne zusätzliche Annotationen zu identifizieren, ist entscheidend für den Einsatz von KI in der Radiologie, wo Daten oft unausgewogen und unvollständig sind.
Generalisierung: Der Ansatz zeigt, dass domänenspezifische Vision-Language-Modelle (wie WhyXrayCLIP) effektiver für Zero-Shot-Aufgaben sind als generische Modelle.
Zukünftige Arbeit: Die Autoren planen, die Kalibrierung zu verbessern, die Robustheit über verschiedene Aufnahmeorte hinweg zu erhöhen und das Framework auf weitere radiologische Aufgaben wie Berichtsgenerierung und medizinische Visual Question Answering (VQA) zu erweitern.

Zusammenfassend liefert das Paper einen starken Beweis dafür, dass durch eine Kombination aus reweighting-basiertem Training, Ensemble-Methoden und Vision-Language-Modellen signifikante Fortschritte bei der Überwindung von Supervision-Scarcity in der medizinischen Bildanalyse erzielt werden können.