Investigating Demographic Bias in Brain MRI Segmentation: A Comparative Study of Deep-Learning and Non-Deep-Learning Methods

Each language version is independently generated for its own context, not a direct translation.

🧠 Das große Gehirn-Puzzle: Warum KI manchmal unfair ist

Stell dir vor, du hast ein riesiges, komplexes Puzzle: das menschliche Gehirn. Die Aufgabe der Forscher war es, kleine, winzige Teile dieses Puzzles (genannt Nucleus Accumbens, kurz NAc) automatisch mit Hilfe von Computern zu finden und auszuschneiden. Das ist wichtig, weil die Größe dieser Teile Hinweise auf Krankheiten wie Depressionen geben kann.

Das Problem? Die Computer (Künstliche Intelligenz oder KI) haben nicht immer alle gleich gut gelernt.

1. Das Problem: Der "Einseitige Kochkurs"

Stell dir vor, du möchtest einen Kochkurs für eine Suppe geben.

Szenario A: Du lässt den Koch nur mit Zutaten von weißen Männern kochen.
Szenario B: Du lässt ihn nur mit Zutaten von schwarzen Frauen kochen.

Wenn der Koch dann versucht, eine Suppe für jemanden zu kochen, der nicht in seine Gruppe passt, schmeckt sie vielleicht nicht so gut. In der Studie haben die Forscher genau das getestet: Sie haben verschiedene KI-Modelle trainiert, aber jeweils nur mit Daten von einer bestimmten Gruppe (z. B. nur schwarze Männer oder nur weiße Frauen).

Dann haben sie geprüft: Wie gut kann diese KI die Gehirnteile von anderen Gruppen erkennen?

2. Die Teilnehmer: Drei KI-Typen und ein alter Handwerker

Die Forscher haben vier verschiedene "Köche" getestet:

nnU-Net: Ein sehr moderner, robuster Koch, der sich selbst anpasst.
UNesT: Ein Koch, der sehr auf Details achtet (ein Transformer-Modell).
CoTr: Ein Koch, der zwei Techniken kombiniert.
ANTs: Ein alter, bewährter Handwerker, der keine KI nutzt, sondern eine Art "Vergleichskarte" (Atlas) benutzt.

3. Was sie herausfanden: Die Ergebnisse

Das "Rassismus"-Problem (und warum es schlimmer ist als das Geschlechter-Problem)
Das Interessanteste an der Studie ist, dass die Hautfarbe (Rasse) einen viel größeren Einfluss auf die Fehler der KI hatte als das Geschlecht.

Die alten Handwerker (ANTs) und der Detail-Koch (UNesT): Wenn diese Modelle nur mit Daten von schwarzen Menschen trainiert wurden, waren sie bei weißen Menschen sehr ungenau. Und umgekehrt: Wenn sie nur mit weißen Daten trainiert wurden, versagten sie bei schwarzen Menschen. Sie waren extrem "voreingenommen".
Der robuste Koch (nnU-Net): Dieser war der Gewinner! Er hat fast immer gut gearbeitet, egal ob er mit Daten von schwarzen oder weißen Menschen trainiert wurde. Er hat gelernt, das Gehirn an sich zu verstehen, nicht nur die Hautfarbe des Patienten.

Ein seltsames Phänomen:
Manchmal war ein Modell, das auf einer Gruppe trainiert wurde, sogar besser bei einer anderen Gruppe als bei seiner eigenen Trainingsgruppe! Das ist wie ein Koch, der nur für Kinder gekocht hat, aber dann plötzlich für Erwachsene noch bessere Suppe macht als für die Kinder. Das zeigt, dass die Dinge nicht immer so linear sind, wie wir denken.

4. Die gefährliche Folge: Wenn die Zahlen lügen

Das Schlimmste an diesem Bias (der Voreingenommenheit) ist nicht nur, dass die KI das Bild falsch ausschneidet. Es ist, was danach passiert.

Die Hand-Annotation (Der Goldstandard): Wenn Menschen von Hand die Gehirnteile messen, sehen sie: "Schwarze Menschen haben tendenziell etwas andere Volumina als weiße Menschen." Das ist ein biologischer Fakt.
Die verzerrte KI: Wenn die voreingenommene KI (wie ANTs oder UNesT) die Bilder misst, verschwindet dieser Unterschied. Die KI sagt fälschlicherweise: "Nein, alle sind gleich groß."

Die Metapher:
Stell dir vor, du wiegst Menschen auf einer Waage, die aber immer 5 kg zu wenig anzeigt, wenn die Person schwarz ist.

Der Arzt sieht: "Oh, die schwarzen Patienten wiegen weniger." (Falsch!)
Die KI sagt: "Alle wiegen gleich viel." (Auch falsch, aber auf eine andere Art!)

In beiden Fällen ist die Diagnose falsch. Wenn die KI aber die Unterschiede "wegrechnet", könnte sie wichtige medizinische Hinweise übersehen, die nur in bestimmten Gruppen auftreten.

5. Die Lösung: Mehr Vielfalt auf dem Teller

Die Studie zeigt uns eine klare Botschaft:
Wenn du eine KI trainieren willst, die fair ist, darfst du sie nicht nur mit Daten von einer einzigen Gruppe füttern. Du brauchst einen bunten Mix.

Wenn man dem "Koch" (dem Modell) eine große, diverse Auswahl an Zutaten (Daten von schwarzen und weißen Männern und Frauen) gibt, wird er viel fairer und genauer.
Besonders das Modell nnU-Net hat gezeigt, dass moderne KI-Methoden, die richtig trainiert werden, diese Fairness erreichen können.

Fazit in einem Satz

Die Studie warnt uns: Wenn wir KI für medizinische Bilder nutzen, müssen wir sicherstellen, dass sie alle Menschen gleich gut versteht. Sonst riskieren wir, dass bestimmte Gruppen in der Medizin benachteiligt werden oder wichtige Unterschiede übersehen werden. Ein "bunter" Trainingsdatensatz ist der Schlüssel zu einer gerechten Medizin.

Each language version is independently generated for its own context, not a direct translation.

Titel: Untersuchung demografischer Verzerrungen bei der Segmentierung von Gehirn-MRTs: Ein vergleichender Vergleich von Deep-Learning- und nicht-Deep-Learning-Methoden

Quelle: arXiv:2510.17999v2 [cs.CV], veröffentlicht im Februar 2026 (Special Issue: Fairness of AI in Medical Imaging).

1. Problemstellung

Trotz der erheblichen Fortschritte, die Deep-Learning-Algorithmen im Bereich der medizinischen Bildanalyse (insbesondere bei der strukturellen Abgrenzung in MRTs) erzielt haben, besteht eine kritische Herausforderung in der inhärenten Verzerrung (Bias) der Trainingsdaten. Modelle können unfaire Vorhersagen treffen, die auf sensiblen Attributen wie Rasse und Geschlecht basieren. Dies kann zu Leistungsunterschieden zwischen Bevölkerungsgruppen führen, was wiederum schwerwiegende klinische Folgen wie Fehldiagnosen oder Unterdiagnosen für bestimmte Patientengruppen nach sich ziehen kann.

Bisherige Forschung konzentrierte sich stark auf Fairness in Klassifizierungsaufgaben, während Fairness in der Segmentierung weniger Beachtung fand. Zudem fehlen oft vergleichende Studien, die moderne Deep-Learning-Architekturen mit traditionellen, nicht-deep-learning-basierten Methoden (wie Atlas-basierten Ansätzen) im Hinblick auf demografische Verzerrungen gegenüberstellen.

2. Methodik

Datensatz:

Quelle: Human Connectome Project (HCP) Young Adult Dataset.
Subjekte: Erwachsene im Alter von 22–35 Jahren.
Demografische Gruppen: Die Studie unterteilt die Daten in vier Gruppen: schwarze Frauen (BF), schwarze Männer (BM), weiße Frauen (WF) und weiße Männer (WM).
Zielstruktur: Links- und rechtsseitiger Nucleus Accumbens (NAc), ein subkortikaler Bereich, der als Biomarker für verschiedene psychiatrische Erkrankungen dient.
Ground Truth: Manuell annotierte Goldstandard-Segmentierungen durch einen Neuroanatomisten.

Modell-Architekturen:
Es wurden vier verschiedene Segmentierungsmethoden getestet:

UNesT: Ein hierarchischer Transformer-basierter Encoder mit konvolutionellem Decoder.
nnU-Net: Ein adaptives Framework, das den gesamten Pipeline-Prozess (Vorverarbeitung, Architektur, Hyperparameter) automatisch an den Datensatz anpasst.
CoTr: Ein Hybrid-Modell, das Convolutional Neural Networks (CNNs) mit deformierbaren Transformern (DeTrans) kombiniert.
ANTs (Multi-Atlas Label Fusion): Eine traditionelle, nicht-deep-learning-basierte Methode, die auf der Registrierung von Atlanten und einem Joint Label Fusion-Verfahren basiert.

Experimentelles Design (Bias-Induktion):
Um den Einfluss von Datenungleichgewichten zu untersuchen, wurden für jede Architektur vier separate Modelle trainiert. Jedes Modell wurde ausschließlich mit Daten einer der vier demografischen Gruppen trainiert (z. B. ein UNesT-Modell nur mit Daten schwarzer Frauen). Dies führte zu "verzerrten" Modellen, die getestet wurden, um ihre Leistung auf allen vier Gruppen zu bewerten.

Bewertungsmetriken:

Segmentierungsqualität: Dice Similarity Coefficient (DSC) und Normalized Surface Dice (NSD).
Fairness-Metrik: Equity-Scaled Segmentation Performance (ESSP). Diese Metrik bestraft die Gesamtleistung basierend auf der Abweichung der Genauigkeit zwischen den demografischen Gruppen ( $\Delta$ ). Ein höherer ESSP-Wert bedeutet bessere Fairness.
Statistische Analyse: Lineare Mischmodelle (Linear Mixed Models) wurden verwendet, um den Einfluss von "gleicher Rasse", "gleichem Geschlecht" und deren Interaktion auf die Segmentierungsgenauigkeit und die daraus abgeleiteten Volumina zu quantifizieren.

3. Wichtige Beiträge

Vergleichende Studie: Erstmals werden in der Gehirn-MRT-Segmentierung Deep-Learning-Modelle (UNesT, nnU-Net, CoTr) direkt mit einer traditionellen Atlas-basierten Methode (ANTs) im Hinblick auf demografische Verzerrungen verglichen.
Goldstandard-Daten: Nutzung von manuell kuratierten, hochwertigen Ground-Truth-Daten für den Nucleus Accumbens, um eine verlässliche Evaluierung zu gewährleisten.
Umfassende Analyse: Untersuchung nicht nur der Segmentierungsgenauigkeit, sondern auch der Auswirkungen von Verzerrungen auf volumetrische Analysen (Morphometrie).
Metrik-Erweiterung: Anwendung der ESSP-Metrik, um Fairness quantitativ in die Leistungsbewertung zu integrieren.

4. Ergebnisse

Segmentierungsleistung und Fairness:

nnU-Net und CoTr: Zeigten die robusteste Leistung. Sie erreichten die höchsten ESSP-Werte und die geringsten Leistungsunterschiede ( $\Delta$ ) zwischen den Gruppen. nnU-Net war das einzige Modell, dessen Genauigkeit nicht signifikant von der Übereinstimmung von Trainings- und Testdaten (Rasse oder Geschlecht) beeinflusst wurde.
ANTs und UNesT: Zeigten eine deutliche Anfälligkeit für Verzerrungen.
- Modelle, die auf Daten weißer Probanden trainiert wurden, erzielten signifikant bessere Ergebnisse als Modelle, die auf Daten schwarzer Probanden trainiert wurden.
- ANTs zeigte massive Einbußen in der ESSP, wenn es auf schwarze Probanden angewendet wurde (z. B. 13% Reduktion bei DSC im Vergleich zu weißer Trainingsdaten).
- Rasse vs. Geschlecht: Die Übereinstimmung der Rasse zwischen Trainings- und Testdaten hatte einen signifikanten Einfluss auf die Genauigkeit (besonders bei ANTs und UNesT), während die Übereinstimmung des Geschlechts kaum einen signifikanten Effekt hatte.

Volumetrische Analyse:

Manuelle Segmentierung: Zeigte signifikante Unterschiede im NAc-Volumen basierend auf Geschlecht und Rasse.
Automatisierte (verzerrte) Modelle:
- Der Geschlechtseffekt blieb in den meisten automatisierten Modellen erhalten.
- Der Rasseneffekt, der in den manuellen Daten sichtbar war, verschwand jedoch in fast allen automatisierten Modellen (außer CoTrBF im linken NAc). Dies deutet darauf hin, dass verzerrte Modelle reale biologische Unterschiede aufgrund von Rasse nicht korrekt erfassen oder diese durch den Bias der Trainingsdaten maskieren.
Untersegmentierung: Modelle wie ANTsBM (trainiert auf schwarze Männer) zeigten eine starke Untersegmentierung des NAc (Volumina bis zu 28% kleiner als die manuelle Referenz).

Einfluss der Datengröße und Balance:

Bei UNesT führte eine Vergrößerung des Trainingsdatensatzes auf eine ausgewogene Verteilung (120 Probanden) zu einer signifikanten Verringerung der Verzerrung.
Bei ANTs führte eine Vergrößerung des Atlas-Sets (von 10 auf 40 Atlanten) zwar zu einer höheren Genauigkeit, aber nicht zwingend zu mehr Fairness; die Leistungsunterschiede zwischen den Gruppen blieben bestehen oder verschlechterten sich sogar.

5. Bedeutung und Schlussfolgerung

Die Studie unterstreicht, dass die Wahl der Architektur und die Zusammensetzung des Trainingsdatensatzes entscheidend für die Fairness in der medizinischen Bildanalyse sind.

Robustheit: nnU-Net erwies sich als am robustesten gegenüber demografischen Verzerrungen, vermutlich aufgrund seiner adaptiven Daten-Augmentationsstrategien, die generalisierbare anatomische Muster erzwingen.
Verletzlichkeit: Traditionelle Atlas-Methoden (ANTs) und bestimmte Transformer-Architekturen (UNesT) sind anfälliger für Verzerrungen, insbesondere wenn sie auf kleinen, unausgewogenen Datensätzen trainiert werden.
Klinische Implikation: Da verzerrte Modelle reale biologische Unterschiede (insbesondere rassenspezifische Volumenunterschiede) nicht korrekt abbilden oder sogar verschleiern, besteht die Gefahr, dass klinische Biomarker unzuverlässig werden. Dies könnte zu gesundheitlichen Ungleichheiten führen.

Fazit: Für eine gerechte und klinisch zuverlässige Gehirn-MRT-Segmentierung sind diverse und ausgewogene Trainingsdatensätze unerlässlich. Zudem ist eine systematische Bias-Analyse während der Entwicklung von Modellen notwendig, da nicht alle Architekturen gleichermaßen robust gegenüber demografischen Verzerrungen sind.