Distribution-Aware Federated Learning for Diabetes Prediction Using Tabular Clinical Data Under Non-IID and Class-Imbalanced Settings

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Ein verrücktes Puzzle ohne die Anleitung

Stell dir vor, du möchtest ein perfektes Rezept für Diabetes-Vorhersage entwickeln. Normalerweise würde man dafür alle Patientendaten aus dem ganzen Land in einen riesigen Topf werfen und daraus lernen. Aber das geht nicht! Aus Datenschutzgründen (wie HIPAA oder DSGVO) darf kein Krankenhaus seine Patientendaten einfach so an einen zentralen Server schicken. Jeder muss seine Daten in seinem eigenen Tresor behalten.

Hier kommt Federated Learning (verteiltes Lernen) ins Spiel. Das ist wie eine Gruppe von Köchen, die alle an einem Rezept arbeiten, aber niemand gibt sein Geheimnis preis. Jeder Koch trainiert sein eigenes Modell mit seinen lokalen Daten und schickt nur die Ergebnisse (die "Gedanken" des Modells) an einen Chefkoch, der alles zusammenfügt.

Aber es gibt zwei riesige Hürden:

Der "Nicht-IID"-Effekt (Ungleichverteilung):
Stell dir vor, ein Koch in einer ländlichen Gegend hat nur Daten von alten Leuten, während ein Koch in der Stadt nur Daten von jungen Sportlern hat. Wenn der Chefkoch einfach alle Rezepte mittelt, entsteht ein Durcheinander, das für niemanden passt. Die Daten sind nicht "gleichmäßig" verteilt.
Das "Klassen-Ungleichgewicht" (Die seltene Krankheit):
Diabetes ist relativ selten. In den Daten gibt es vielleicht 100 gesunde Menschen auf 15 Kranke. Wenn ein Koch nur 10 Kranke und 90 Gesunde hat, lernt er am liebsten: "Sag einfach immer 'Gesund'!" Dann ist er zwar oft richtig (weil die meisten gesund sind), aber er verpasst die Kranken. Das ist im medizinischen Bereich fatal.

Die Lösung: DA-FL (Der "Gerechtigkeits-Modus")

Die Autoren dieses Papiers haben eine neue Methode namens DA-FL (Distribution-Aware Federated Learning) entwickelt. Sie nennen es "verteilungsbewusst".

Stell dir das System wie einen klugen Moderator in einer Diskussion vor:

1. Der lokale Trainer (Beim einzelnen Koch)

Bevor ein Koch sein Rezept abschickt, sagt er sich: "Moment, ich habe hier viel zu wenige Kranke. Wenn ich einfach trainiere, werde ich alle Kranken ignorieren."
Deshalb gibt es eine Strafregel: Wenn der Koch einen Kranken falsch einschätzt, bekommt er eine riesige Strafe. Wenn er einen Gesunden falsch einschätzt, ist die Strafe klein. So wird er gezwungen, sich wirklich um die seltenen Fälle zu kümmern.

2. Der Chefkoch (Der Server) – Der eigentliche Clou

Jetzt kommen die Ergebnisse aller Köche beim Chefkoch an. Normalerweise würde der Chefkoch sagen: "Du hast 10.000 Daten, du bist also 10-mal wichtiger als der mit 1.000 Daten." Das ist unfair, wenn der mit 10.000 Daten fast nur Gesunde hat.

DA-FL ändert die Regel:
Der Chefkoch schaut sich an: "Wie hoch ist der Anteil der Diabetiker bei diesem Koch im Vergleich zum Durchschnitt?"

Szenario A: Ein Koch hat nur 1 Diabetiker auf 10.000 Gesunde. Der Chefkoch sagt: "Dein Beitrag ist wichtig für die Menge, aber für das Erkennen von Diabetes bringst du wenig Neues. Ich gewichte deinen Beitrag etwas herunter."
Szenario B: Ein anderer Koch hat eine ungewöhnlich hohe Zahl an Diabetikern (vielleicht weil er in einer Risikogegend arbeitet). Der Chefkoch sagt: "Wow, du hast hier viel wertvolles Wissen über die seltene Krankheit! Ich gewichte deinen Beitrag massiv hoch."

Das ist wie ein Verstärker für die Minderheit. Die Stimmen derjenigen, die die "seltenen" Fälle gut verstehen, werden lauter gemacht, damit sie im globalen Rezept nicht untergehen.

Was hat das gebracht? (Die Ergebnisse)

Die Forscher haben das mit echten Daten (CDC BRFSS 2021) getestet und simuliert, wie es wäre, wenn 5 verschiedene Krankenhäuser zusammenarbeiten würden.

Bessere Treffsicherheit: Die neue Methode (DA-FL) hat die Diabetiker viel besser erkannt als die alten Methoden. Sie hat die "F1-Score" (eine Art Durchschnittsnote für Genauigkeit) um 18 % verbessert.
Stabilität: Das ist das Wichtigste: Die alten Methoden waren wie ein Wackelkandidat. Manchmal funktionierten sie super, manchmal gar nicht (sie sagten einfach "alle gesund"). DA-FL war 31-mal stabiler. Das bedeutet: Man kann sich darauf verlassen, dass das System jeden Tag gleich gut funktioniert.
Kein Datenschutz-Verlust: Das Tolle ist: Die Köche mussten ihre Daten nicht teilen. Sie haben nur eine winzige Zahl (den Anteil der Diabetiker) geschickt, um den Verstärker zu berechnen.

Zusammenfassung in einem Satz

DA-FL ist wie ein fairer Moderator in einer Gruppe von Experten, der sicherstellt, dass diejenigen, die Erfahrung mit seltenen Krankheiten haben, lauter gehört werden als diejenigen, die nur viele "normale" Fälle haben – und das alles, ohne dass jemand seine privaten Patientendaten preisgeben muss.

Das Ergebnis ist ein KI-Modell, das nicht nur "gesunde" Patienten erkennt, sondern wirklich hilft, die gefährdeten zu finden, und dabei stabil und zuverlässig bleibt.

Each language version is independently generated for its own context, not a direct translation.

Titel

Verteilungsorientiertes Federated Learning für die Diabetes-Vorhersage unter Verwendung tabellarischer klinischer Daten in nicht-IID- und klassenungleichgewichtigen Szenarien

1. Problemstellung

Die Anwendung von maschinellem Lernen in der klinischen Diagnostik, insbesondere für Diabetes, wird durch zwei Hauptprobleme behindert:

Datenschutz und Dezentralisierung: Patientendaten sind aufgrund strenger Vorschriften (z. B. HIPAA, GDPR) über verschiedene Gesundheitseinrichtungen verteilt und können nicht zentralisiert werden. Federated Learning (FL) bietet hier eine Lösung, indem Modelle dezentral trainiert werden.
Statistische Heterogenität (Non-IID) und Klassenungleichgewicht:
- Non-IID: Die Datenverteilungen variieren stark zwischen den Einrichtungen (unterschiedliche Patientendemografien, Diagnosegeräte), was zu einem "Client-Drift" führt und die Leistung standardisierter Aggregationsmethoden wie FedAvg verschlechtert.
- Klassenungleichgewicht: In klinischen Datensätzen (wie dem CDC BRFSS 2021) sind positive Fälle (Diabetes) oft eine Minderheit (hier ca. 14,2 %). Herkömmliche FL-Methoden gewichten Client-Updates nur nach der Datenmenge. Dies führt dazu, dass Clients mit vielen negativen Fällen (Mehrheitsklasse) das globale Modell dominieren, während die Minderheitsklasse (Diabetes) schlecht erkannt wird. Dies resultiert in einer geringen Sensitivität und schlechten Metriken wie F1-Macro und G-Mean.

2. Methodik: Distribution-Aware Federated Learning (DA-FL)

Die Autoren schlagen DA-FL vor, einen neuen Aggregationsansatz, der ein zweistufiges Korrekturmechanismus implementiert, um das Klassenungleichgewicht sowohl auf lokaler als auch auf globaler Ebene zu adressieren, ohne Rohdaten auszutauschen.

A. Lokales Training (Klasse-gewichteter Verlust)

Auf Client-Seite wird der Standard-Binary-Cross-Entropy-Loss modifiziert, um das lokale Klassenungleichgewicht zu berücksichtigen.

Jeder Client $k$ berechnet ein Gewicht $\omega_k$ basierend auf dem Verhältnis der negativen zu den positiven lokalen Proben ( $\omega_k = n_k^{(0)} / n_k^{(1)}$ ).
Dieser Faktor wird verwendet, um den Verlust für Fehlklassifikationen der Minderheitsklasse (Diabetes) zu verstärken. Dies zwingt das lokale Modell, empfindlicher auf die Minderheitsklasse zu reagieren, unabhängig von der lokalen Prävalenz.

B. Globale Aggregation (Verteilungsorientierte Gewichtung)

Auf Server-Seite wird die Standard-Aggregation (FedAvg) durch einen Minority-Class-Amplifikationsfaktor $\phi_k$ modifiziert.

Berechnung von $\phi_k$ :
$\phi_k = \text{clip}\left(\frac{p_k}{\bar{p}}, \phi_{\min}, \phi_{\max}\right)$
Dabei ist $p_k$ die lokale positive Rate des Clients und $\bar{p}$ die globale positive Rate der gesamten Föderation. Der Faktor wird auf den Bereich $[0.1, 5.0]$ begrenzt, um extreme Dominanz zu verhindern.
Gewichtsanpassung: Das effektive Gewicht eines Clients für die Aggregation wird von $n_k$ $n_{k}$ (Datenmenge) auf $\tilde{n}_k = n_k \cdot \phi_k$ $\tilde{n}_{k} = n_{k} \cdot ϕ_{k}$ angepasst.
- Clients mit einer höheren lokalen positiven Rate als der globale Durchschnitt erhalten ein amplifiziertes Gewicht ( $\phi_k > 1$ ).
- Clients mit sehr wenigen positiven Fällen erhalten ein reduziertes Gewicht ( $\phi_k \approx 0.1$ ).
Datenschutz: Es werden keine Rohdaten oder detaillierte Histogramme geteilt. Nur die skalare positive Rate $p_k$ (als Metadaten) wird an den Server gesendet, was die Privatsphäre wahrt.

C. Architektur

Modell: Ein Multilayer Perceptron (MLP) mit 4 vollverbundenen Schichten (64-128-64-1 Neuronen), ReLU-Aktivierung und Dropout.
Eingabe: 21 klinische und demografische Merkmale (z. B. BMI, Blutdruck).
Framework: Implementiert mit der Flower-Bibliothek.

3. Experimentelles Setup

Datensatz: CDC BRFSS 2021 (236.378 Einträge, 14,2 % Diabetes-Fälle).
Simulation: 5 Clients ( $K=5$ ), 30 Kommunikationsrunden.
Non-IID-Szenarien: Erzeugt durch Dirichlet-Partitionierung mit Konzentrationparametern $\alpha = 0.1$ (extrem), $0.5$ (moderat) und $1.0$ (mild).
Benchmarks: FedAvg, FedProx, Centralized Training (als Obergrenze) und Local-Only (als Untergrenze).
Metriken: F1-Macro, G-Mean, Recall, AUC-ROC, Accuracy.

4. Ergebnisse

Die Ergebnisse zeigen, dass DA-FL FedAvg und FedProx in fast allen relevanten Metriken deutlich übertrifft, insbesondere unter moderaten Non-IID-Bedingungen ( $\alpha = 0.5$ ).

Leistungssteigerung:
- F1-Macro: +18,2 % gegenüber FedAvg (von 0,2650 auf 0,4471).
- G-Mean: +26,7 % gegenüber FedAvg (von 0,4658 auf 0,7329).
- Recall: +15,1 % gegenüber FedAvg (wichtig für die klinische Sensitivität).
Stabilität:
- DA-FL zeigt eine dramatisch höhere Stabilität über die 30 Runden hinweg.
- Die Standardabweichung des F1-Macro-Scores ist 31-mal niedriger als bei FedAvg (0,0046 vs. 0,1431).
- Während FedAvg und FedProx in einigen Runden einen G-Mean von 0,000 erreichen (komplettes Versagen der Minderheitenerkennung), bleibt DA-FL selbst im schlechtesten Fall über 0,56.
Extreme Non-IID ( $\alpha = 0.1$ ): Auch unter extremen Bedingungen behält DA-FL die höchste Sensitivität (Recall) und den besten G-Mean bei, obwohl FedProx hier leicht bessere F1-Werte erzielt.

5. Hauptbeiträge

DA-FL-Algorithmus: Einführung einer serverseitigen Aggregationsstrategie, die die lokale Klassenverteilung (positive Rate) nutzt, um die Gewichtung der Clients dynamisch anzupassen.
Zweistufige Korrektur: Kombination aus klassengewichtetem lokalen Verlust und verteilungsorientierter globaler Aggregation.
Umfassende Evaluation: Systematische Tests auf einem großen klinischen Datensatz unter drei verschiedenen Non-IID-Schweregraden.
Reproduzierbarkeit: Bereitstellung eines Open-Source-Frameworks basierend auf Flower.

6. Bedeutung und Fazit

Die Studie demonstriert, dass DA-FL eine praktikable und effektive Lösung für das Problem des Klassenungleichgewichts in federierten klinischen Umgebungen ist.

Klinische Relevanz: Die signifikante Verbesserung der Sensitivität (Recall) bedeutet, dass mehr Diabetes-Patienten korrekt identifiziert werden, was lebensrettend sein kann.
Zuverlässigkeit: Die extreme Stabilität von DA-FL ist entscheidend für den klinischen Einsatz, da unvorhersehbare Leistungsschwankungen zwischen Trainingsrunden (wie bei FedAvg) Patientensicherheitsrisiken darstellen.
Effizienz: Der Ansatz fügt nur einen minimalen Rechenaufwand hinzu ( $O(K)$ ) und erfordert keinen Austausch von Rohdaten oder zusätzlichen Kommunikationsrunden.

Zusammenfassend bietet DA-FL einen robusten Weg, um federiertes Lernen in realen, heterogenen und unausgewogenen klinischen Szenarien erfolgreich einzusetzen.