The MAMA-MIA Challenge: Advancing Generalizability and Fairness in Breast MRI Tumor Segmentation and Treatment Response Prediction

Lidia Garrucho, Smriti Joshi, Kaisar Kushibar, Richard Osuala, Maciej Bobowicz, Xavier Bargalló, Paulius Jaruševičius, Kai Geissler, Raphael Schäfer, Muhammad Alberb, Tony Xu, Anne Martel, Daniel Sleiman, Navchetan Awasthi, Hadeel Awwad, Joan C. Vilanova, Robert Martí, Daan Schouten, Jeong Hoon Lee, Mirabela Rusu, Eleonora Poeta, Luisa Vargas, Eliana Pastor, Maria A. Zuluaga, Jessica Kächele, Dimitrios Bounias, Alexandra Ertl, Katarzyna Gwoździewicz, Maria-Laura Cosaka, Pasant M. Abo-Elhoda, Sara W. Tantawy, Shorouq S. Sakrana, Norhan O. Shawky-Abdelfatah, Amr Muhammad Abdo-Salem, Androniki Kozana, Eugen Divjak, Gordana Ivanac, Katerina Nikiforaki, Michail E. Klontzas, Rosa García-Dosdá, Meltem Gulsun-Akpinar, Oğuz Lafcı, Carlos Martín-Isla, Oliver Díaz, Laura Igual, Karim Lekadir

Veröffentlicht 2026-03-03

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Das große „MAMA-MIA"-Kochwettbewerb: KI lernt, Brustkrebs zu erkennen

Stellen Sie sich vor, Sie haben einen riesigen Kochwettbewerb organisiert. Aber statt Gerichte zu kochen, müssen die Teilnehmer Künstliche Intelligenz (KI) trainieren, die auf Röntgenbildern (MRT) von Brustkrebs-Patienten zwei Dinge tun soll:

Den Tumor genau umrissen (wie einen Kontur auf einer Landkarte).
Vorhersagen, ob die Chemotherapie später erfolgreich sein wird.

Das Besondere an diesem Wettbewerb (der MAMA-MIA Challenge) ist, dass er nicht nur prüft, ob die KI gut kocht, sondern auch, ob sie fair kocht – also ob sie für alle Patienten gleich gut funktioniert, egal ob jung oder alt, dünn oder dick, oder aus welchem Land sie kommen.

Hier ist die Geschichte des Wettbewerbs, einfach erklärt:

1. Das Problem: Der „Einzelkämpfer"-Fehler

Bisher haben viele KI-Modelle nur in einer einzigen Küche (einem einzigen Krankenhaus) trainiert. Das ist wie ein Koch, der nur mit Zutaten aus einem bestimmten Supermarkt geübt hat. Wenn er dann plötzlich in einem anderen Supermarkt mit anderen Marken und anderen Zutaten arbeiten muss, scheitert er oft.
Außerdem haben diese KIs oft nur den „Durchschnitt" im Blick. Sie könnten also bei jungen Frauen super sein, aber bei älteren Frauen völlig versagen. Das ist unfair und gefährlich.

2. Der Wettbewerb: Ein echter Stress-Test

Die Forscher haben einen riesigen Datensatz zusammengestellt:

Das Training: Die KI lernte an Bildern von 1.506 Patientinnen aus den USA.
Der Prüfstein: Dann wurde die KI auf eine völlig neue Gruppe von 574 Patientinnen aus Europa (Spanien, Polen, Litauen) getestet.

Das ist wie ein Koch, der in New York gelernt hat, aber nun in Berlin geprüft wird. Die Geräte, die Zutaten und die Kunden sind anders. Das Ziel war zu sehen: Hält die KI, was sie verspricht, auch im echten Leben?

3. Die zwei Aufgaben

Aufgabe A: Der Tumor-Maler (Segmentierung)
Die KI sollte den Tumor auf dem Bild genau ausmalen.

Das Ergebnis: Hier waren die Teilnehmer sehr gut! Die besten KIs haben den Tumor fast so gut erkannt wie ein menschlicher Experte. Sie konnten sich sogar an die neuen „Küchen" in Europa anpassen.
Die Schwachstelle: Bei sehr kleinen Tumoren oder Tumoren, die keine klare Form haben (wie ein Fleck statt einer Kugel), hatten die KIs noch Mühe. Das ist wie wenn man versucht, einen kleinen Tintenfleck auf einem nassen Tuch genau abzumessen – das ist schwierig für alle.

Aufgabe B: Der Kristallkugelschauer (Vorhersage der Heilung)
Die KI sollte vorhersagen: Wird die Chemotherapie den Tumor komplett zerstören?

Das Ergebnis: Hier war es eine große Enttäuschung. Die meisten KIs waren kaum besser als ein Münzwurf. Selbst die besten Teams konnten die Vorhersage nicht wirklich verbessern.
Der Grund: Ein Bild vor der Behandlung reicht oft nicht aus, um zu sagen, wie der Körper während der Behandlung reagiert. Es ist, als würde man versuchen, das Wetter für den nächsten Monat vorherzusagen, indem man nur auf den Himmel heute Morgen schaut. Es fehlen zu viele Informationen (wie die Reaktion des Körpers im Laufe der Zeit).

4. Die Fairness-Regel: Nicht nur der Durchschnitt zählt

Das war der wichtigste Teil des Wettbewerbs. Es gab eine neue Regel:
Ein Team konnte nicht gewinnen, indem es einfach nur im Durchschnitt gut war. Es musste auch fair sein.

Die Metapher: Stellen Sie sich vor, ein Koch ist für Männer ein 10/10, aber für Frauen nur ein 2/10. Sein Durchschnitt wäre 6/10. Ein anderer Koch gibt beiden Gruppen immer ein 6/10.
In diesem Wettbewerb wurde der zweite Koch (der faire) bevorzugt, auch wenn der erste im Durchschnitt etwas besser schien. Die Forscher wollten sicherstellen, dass die KI keine Gruppe von Patientinnen benachteiligt.

5. Was haben wir gelernt? (Die Moral der Geschichte)

Beim „Malen" (Tumor finden): Die KI ist fast einsatzbereit! Sie kann Tumore sehr gut finden, auch in verschiedenen Krankenhäusern. Das ist ein großer Schritt für die Medizin.
Beim „Vorhersagen" (Heilung): Die KI ist noch nicht so weit. Nur mit einem Bild vor der Behandlung kann sie nicht sicher sagen, ob die Therapie wirkt. Wir brauchen mehr Daten (z. B. Bilder während der Behandlung) und bessere Modelle.
Fairness ist wichtig: Wenn wir KI in der Medizin einsetzen, dürfen wir nicht zulassen, dass sie bestimmte Gruppen (z. B. ältere Frauen) schlechter behandelt. Der Wettbewerb hat gezeigt, dass man beides erreichen kann: gute Leistung und Fairness.

Fazit:
Der MAMA-MIA-Wettbewerb war wie ein ehrlicher Prüfstein. Er hat gezeigt, dass die KI beim Finden von Krebs schon fast ein Profi ist, aber beim Vorhersagen des Erfolgs noch viel lernen muss. Und vor allem hat er uns gelehrt: Eine KI, die nur im Durchschnitt gut ist, reicht nicht – sie muss für jeden Patienten gut sein.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Die Brustkrebsdiagnose und -behandlung, insbesondere im Kontext der neoadjuvanten Chemotherapie (NAC), stützt sich stark auf dynamische kontrastmittelverstärkte Magnetresonanztomographie (DCE-MRI). Obwohl künstliche Intelligenz (KI) vielversprechende Ergebnisse bei der Tumorsegmentierung und der Vorhersage des pathologischen kompletten Ansprechens (pCR) zeigt, leiden bestehende Modelle unter erheblichen Mängeln:

Mangelnde Generalisierbarkeit: Die meisten Modelle werden an Daten aus einzelnen Zentren trainiert und testen ihre Leistung nur intern, was zu einem schlechten Transfer auf externe Daten (andere Hersteller, Protokolle, geografische Regionen) führt.
Fehlende Fairness-Analyse: Demografische Faktoren wie Alter, Menopausenstatus und Brustdichte beeinflussen das MRI-Aussehen und die Tumorsichtbarkeit. Herkömmliche Aggregatmetrikken verdecken jedoch Leistungsunterschiede zwischen diesen Subgruppen, was zu potenziellen Ungerechtigkeiten und klinischen Risiken führt.
Fehlende Standardisierung: Es gab bisher keinen großen Benchmark, der sowohl die Segmentierung als auch die pCR-Vorhersage gemeinsam unter strengen Bedingungen der externen Validierung und Fairness bewertet.

2. Methodik

A. Benchmark-Design und Datensätze

Der MAMA-MIA-Challenge wurde als großer, multi-institutioneller Benchmark konzipiert, der zwei Hauptaufgaben umfasst:

Aufgabe 1: Automatische Segmentierung des primären Brusttumors.
Aufgabe 2: Vorhersage des pathologischen kompletten Ansprechens (pCR) auf Basis von nur prätherapeutischen Bildern.

Trainingsdaten: 1.506 Patienten aus 25 US-amerikanischen Institutionen (Daten aus TCIA-Kollektionen wie ISPY-1, ISPY-2, NACT, DUKE). Die Daten weisen eine große Heterogenität bei Herstellern (GE, Siemens, Philips) und Feldstärken (1,5T und 3T) auf.
Validierungs- und Testdaten: 574 Patienten aus drei unabhängigen europäischen Zentren (Polen, Litauen, Spanien). Dies ermöglichte eine strenge Bewertung der kontinentübergreifenden Generalisierbarkeit.
Annotation: Hochwertige Ground-Truth-Masken wurden von Expert:innen erstellt.

B. Evaluierungsrahmen und Fairness

Ein zentrales Merkmal des Benchmarks ist die vereinheitlichte Bewertung, die Vorhersageleistung und Fairness kombiniert.

Gesamtscore ( $S$ ): $S = (1-\lambda) S_p + \lambda S_f$ , wobei $S_p$ die Leistung und $S_f$ die Fairness darstellt. In diesem Challenge wurde $\lambda = 0,5$ gewählt, um beiden Aspekten gleiche Bedeutung zu verleihen.
Fairness-Metriken: Die Leistung wurde über Subgruppen hinweg analysiert (Alter, Menopausenstatus, Brustdichte).
- Für die Segmentierung wurde die Varianz der Dice-Koeffizienten (DSC) und des normalisierten Hausdorff-Abstands zwischen den Subgruppen minimiert.
- Für die Klassifikation (pCR) wurde ein „Equalized Odds"-Kriterium verwendet, um konsistente Fehlerraten (TPR/FPR) über alle Subgruppen sicherzustellen.

C. Teilnehmer und Methoden

26 internationale Teams nahmen am Finale teil.

Segmentierung (Aufgabe 1): Die meisten Top-Methoden basierten auf 3D nnU-Net-Varianten (oft mit Residual-Encodern). Einige Teams nutzten Self-Supervised Learning (SSL) auf großen externen Datensätzen zur Vorab-Training. Wichtige Strategien waren Ensembling, Multi-Phase-Eingaben (prä- und post-kontrast) und robuste Vorverarbeitung.
pCR-Vorhersage (Aufgabe 2): Die Ansätze reichten von lesion-zentrierten 3D-Klassifikatoren (z.B. ResNet, Video-CNNs) bis hin zu Pipelines, die Merkmale aus Segmentierungsnetzen extrahierten und mit klassischen ML-Modellen (XGBoost) kombinierten.

3. Wichtige Ergebnisse

A. Tumorsegmentierung (Aufgabe 1)

Leistung: Die Top-5-Teams übertrafen den nnU-Net-Baseline signifikant (Verbesserung von 0,43–4,89% im DSC) und zeigten gleichzeitig eine verbesserte Fairness.
Generalisierung: Die Modelle generalisierten gut auf externe europäische Daten, obwohl die Leistung je nach Zentrum variierte.
Herausforderungen: Die größte Leistungsunterschiede zwischen Top- und Bottom-Teams zeigten sich bei kleinen Tumoren und nicht-massiven Läsionen (Non-Mass Enhancement). Auch Artefakte (z.B. durch Implantate) stellten eine große Schwierigkeit dar.
Fairness: Es wurden keine systematischen Leistungsunterschiede zwischen den Subgruppen (Alter, Dichte, Menopause) bei den Top-Methoden festgestellt, was auf eine hohe Robustheit hindeutet.

B. pCR-Vorhersage (Aufgabe 2)

Leistung: Die Ergebnisse waren enttäuschend. Nur drei Teams übertrafen den Zufalls-Baseline signifikant, und selbst diese Verbesserungen waren marginal. Die meisten Modelle waren statistisch nicht besser als ein Zufallsklassifikator.
Herausforderungen: Hohe Klassenungleichgewichte (wenige pCR-Fälle), mangelnde Sensitivität für echte Responder und eine systematische Überkonfidenz der Modelle (schlechte Kalibrierung) waren die Hauptprobleme.
Fairness vs. Leistung: Es zeigte sich ein deutlicher Trade-off. Teams mit der höchsten reinen Vorhersageleistung hatten oft die schlechteste Fairness. Umgekehrt erzielten die Top-Teams im Gesamtranking eine ausgewogenere Leistung über die Subgruppen, opferten aber etwas reine Genauigkeit.
Fazit: Die Vorhersage des Ansprechens allein auf Basis von prätherapeutischen MRI-Daten ist in einem multi-institutionellen Setting derzeit nicht zuverlässig lösbar.

4. Hauptbeiträge des Papers

Großes Benchmark: Einführung des MAMA-MIA-Benchmarks als ersten großen, multi-institutionellen Standard für Brust-MRI, der Segmentierung und pCR-Vorhersage kombiniert.
Fairness-Protokoll: Entwicklung eines Evaluierungsrahmens, der Fairness über demografische Subgruppen explizit in den Gesamtscore integriert.
Umfassende Analyse: Eine detaillierte Analyse von 26 Teams, die Trends in Modellarchitekturen, Generalisierungsverhalten und den Trade-offs zwischen Genauigkeit und Fairness aufzeigt.
Ressourcen: Bereitstellung standardisierter Datensätze, Evaluierungscode und Richtlinien für die Community, um robuste und gerechte KI-Systeme zu fördern.

5. Bedeutung und Ausblick

Der MAMA-MIA-Challenge liefert kritische Erkenntnisse für das Feld der medizinischen KI:

Segmentierung: Die Technologie ist weit fortgeschritten und für den klinischen Einsatz in Standardfällen bereit, muss jedoch für schwierige Fälle (kleine Tumoren, Artefakte) weiterentwickelt werden.
pCR-Vorhersage: Die Ergebnisse widerlegen die Annahme, dass pCR allein aus prätherapeutischen Bildern zuverlässig vorhergesagt werden kann. Es fehlen wahrscheinlich longitudinale Daten (Verlauf während der Therapie) oder multimodale Informationen (z.B. molekulare Marker).
Fairness: Die Studie zeigt, dass Fairness kein „Add-on" ist, sondern ein integraler Bestandteil der Bewertung sein muss. Allerdings kann Fairness keine mangelnde Vorhersagekraft kompensieren.
Zukunft: Für Fortschritte sind Ansätze wie kontinuierliches Lernen, Integration von longitudinalen Daten, kontinuierliche Zielvariablen (statt binärer Labels) und die Berücksichtigung von Unsicherheit notwendig.

Zusammenfassend stellt der MAMA-MIA-Benchmark einen Meilenstein dar, der den Fokus von reinen Genauigkeitsmetriken hin zu robusten, fairen und klinisch relevanten KI-Systemen in der Brustkrebsdiagnostik lenkt.