Variability in Automated Sepsis Case Detection: A Systematic Analysis of Implementation Methods in Clinical Data Repositories

⚕️

Dies ist eine KI-generierte Erklärung eines Preprints, das nicht peer-reviewed wurde. Dies ist kein medizinischer Rat. Treffen Sie keine Gesundheitsentscheidungen auf Grundlage dieses Inhalts. Vollständigen Haftungsausschluss lesen

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Koch, der ein berühmtes Rezept für eine „Sepsis-Suppe" (eine schwere Infektion im Körper) nachkochen soll. Das Rezept ist das medizinische Leitfadenbuch „Sepsis-3". Es sagt genau: „Wenn der Patient eine Infektion hat und seine Organe um mindestens 2 Punkte schlechter funktionieren, dann ist es Sepsis."

Klingt einfach, oder? Zwei Köche sollten also mit demselben Rezept und denselben Zutaten (den Patientendaten aus den großen Datenbanken MIMIC-III und eICU-CRD) fast identische Suppen erhalten.

Aber hier kommt das Problem: In dieser Studie haben die Forscher 64 verschiedene Köche (Wissenschaftler) untersucht, die alle versuchten, dieses Rezept zu kochen. Das Ergebnis war ein Chaos an Geschmacksrichtungen.

Das große Chaos im Labor

Die Forscher stellten fest, dass die Anzahl der Patienten, die als „Sepsis-Patienten" identifiziert wurden, zwischen 3 % und 65 % schwankte.

Ein Koch sagte: „Hier, ich habe 65 % der Patienten als krank gefunden!"
Ein anderer Koch sagte: „Nein, bei mir sind es nur 3 %."

Das ist, als würde ein Koch sagen: „Ich habe 65 % der Äpfel im Korb als faul erkannt," und ein anderer sagt: „Bei mir sind nur 3 % faul," obwohl sie beide in denselben Korb geschaut haben.

Warum ist das so? Die 6 versteckten Fallen

Die Studie hat herausgefunden, dass das Problem nicht am Rezept selbst lag, sondern daran, wie die Köche es umsetzten. Sie haben sechs Bereiche identifiziert, in denen jeder Koch seine eigenen Regeln erfand:

Die Zutatenliste (Parameter): Manche Köche haben nur nach dem Blutdruck geschaut, andere haben auch den Sauerstoffwert und die Nierenfunktion geprüft. Manche haben sogar nach ganz anderen Werten gesucht.
Der Zeitplan (Zeitfenster): Hat der Koch die Daten der letzten Stunde geprüft oder die der letzten 24 Stunden? Hat er nach der Infektion geschaut oder direkt bei der Aufnahme ins Krankenhaus?
Das Mischen (Aggregation): Wenn ein Wert zweimal gemessen wurde, haben sie den Durchschnitt genommen oder den schlechtesten Wert? (Stellen Sie sich vor: Wenn Sie einmal 38 °C und einmal 40 °C Fieber haben – zählen Sie dann 39 °C oder nehmen Sie die 40 °C als Beweis für die Krankheit?)
Die Lücken füllen (Fehlende Daten): Was tun, wenn ein Wert fehlt? Hat der Koch gedacht: „Fehlt der Wert, ist der Patient gesund" (und hat 0 Punkte gegeben)? Oder hat er versucht, den Wert zu erraten?
Der Startpunkt (SOFA-Basis): Um zu wissen, ob sich etwas verschlechtert hat, braucht man einen Startwert. Haben die Köche angenommen, dass der Patient am Anfang gesund war (Startwert 0)? Oder haben sie geschaut, wie schlecht der Patient schon war, bevor die Infektion begann?
Die Infektion finden: Wie wissen wir, dass eine Infektion vorliegt? Haben sie nur auf die Diagnose im Computer geachtet (ICD-Codes) oder haben sie geschaut, ob Antibiotika und Laborproben zeitlich zusammenpassen?

Die Entdeckung durch den Code-Krimi

Die Forscher haben nicht nur die Kochbücher (die wissenschaftlichen Artikel) gelesen, sondern auch in die Küchen geschaut (den Computercode der Autoren).
Sie fanden heraus:

In den Artikeln wurde oft gar nicht geschrieben, welche dieser Regeln angewendet wurden. Es war wie ein Koch, der sagt: „Ich habe eine Suppe gemacht," aber nicht verrät, ob er Salz oder Zucker verwendet hat.
Viele Köche haben die Rezepte anderer Köche einfach kopiert, ohne zu wissen, warum diese Regeln dort standen. Ein Fehler in einem Code hat sich also wie ein Virus in viele andere Studien ausgebreitet.

Warum ist das wichtig?

Stellen Sie sich vor, Sie bauen ein Auto-Notfallsystem, das Sepsis erkennt. Wenn Sie dieses System mit Daten trainieren, die von Koch A stammen, und dann in einem Krankenhaus einsetzen, das Daten von Koch B nutzt, wird das System versagen. Es wird entweder zu viele falsche Alarme schlagen oder echte Notfälle übersehen.

Die Botschaft der Studie ist einfach:
Ein Rezept allein reicht nicht. Wenn wir wollen, dass medizinische KI-Systeme funktionieren und wir uns auf Forschungsergebnisse verlassen können, müssen wir endlich aufhören, die Details zu verstecken.

Die Lösung?
Die Autoren fordern:

Offene Küche: Jeder muss genau aufschreiben, wie er gerechnet hat (keine Geheimrezepte mehr).
Der Code muss mit: Wenn man eine Studie veröffentlicht, muss auch der Computercode öffentlich sein, damit jeder nachkochen kann.
Ein Standard-Rezept: Wir brauchen eine offizielle, von allen akzeptierte Version des Rezepts, damit alle Köche auf der Welt die gleiche Suppe kochen.

Nur so können wir sicherstellen, dass die „Sepsis-Suppe" überall gleich schmeckt und die Patienten wirklich sicher sind.

Each language version is independently generated for its own context, not a direct translation.

Titel: Variabilität bei der automatisierten Sepsis-Fallerkennung: Eine systematische Analyse von Implementierungsmethoden in klinischen Datenrepositorien

Autoren: Falk Meyer-Eschenbach et al. (Charité – Universitätsmedizin Berlin und weitere Institutionen)
Veröffentlicht: Preprint auf medRxiv (März 2026)

1. Problemstellung

Sepsis stellt eine globale klinische und ökonomische Herausforderung dar. Seit der Einführung der Sepsis-3-Definition (2016) wird Sepsis als eine lebensbedrohliche Organfunktionsstörung definiert, die durch eine Infektion verursacht wird und durch einen Anstieg des SOFA-Scores (Sequential Organ Failure Assessment) um mindestens 2 Punkte quantifiziert wird.

Trotz dieser standardisierten klinischen Definition zeigen Studien, die dieselben öffentlichen Intensivstations-Datenbanken (insbesondere MIMIC-III und eICU-CRD) verwenden, extrem unterschiedliche Sepsis-Erkennungsraten.

Das Kernproblem: Die algorithmische Umsetzung der Definition variiert stark. Unterschiede in der Datenverarbeitung führen dazu, dass Studien mit identischen Quelldaten und nominell gleicher Definition Erkennungsraten zwischen 3,4 % und 65,2 % (in MIMIC-III) aufweisen.
Folgen: Diese Heterogenität gefährdet die Reproduzierbarkeit von Forschungsergebnissen, den Vergleich von Machine-Learning-Modellen und die klinische Validität von Vorhersagesystemen. Oft fehlen detaillierte methodische Angaben in den Publikationen, was eine exakte Replikation unmöglich macht.

2. Methodik

Die Autoren führten eine PRISMA-gestützte systematische Übersichtsarbeit durch, kombiniert mit einer tiefgehenden Quellcode-Analyse.

Datenbasis:
- MIMIC-III (46.520 Patienten, Beth Israel Deaconess Medical Center, 2001–2012).
- eICU-CRD (200.859 ICU-Aufenthalte, 208 US-Krankenhäuser, 2014–2015).
- MIMIC-IV wurde ausgeschlossen, da es dieselbe Institution wie MIMIC-III nutzt und keine unabhängige Validierung erlaubt.
Literaturrecherche: Suche in PubMed und Web of Science (2016–2024).
- Einschlusskriterien: Englische Open-Access-Publikationen, Nutzung von MIMIC-III/eICU, explizite SOFA-basierte Sepsis-Erkennung, nachvollziehbare Erkennungsraten.
- Ergebnis: Von 396 geprüften Publikationen wurden 64 Studien (44 für MIMIC-III, 20 für eICU-CRD) für die detaillierte Analyse ausgewählt.
Analyse-Rahmen (6 methodische Domänen):
Die Studie zerlegte den Prozess der Sepsis-Erkennung in sechs kritische Entscheidungsbereiche:
1. D1: Parameter-Abdeckung (Welche klinischen Parameter werden genutzt?).
2. D2: Zeitliche Fenster (Zeitfenster für SOFA-Berechnung, Referenzpunkt: ICU-Aufnahme vs. Infektionsbeginn).
3. D3: Aggregationsmethoden (Wie werden mehrere Messwerte in einem Fenster zusammengefasst? z.B. Worst-Case vs. Mittelwert).
4. D4: Umgang mit fehlenden Daten (Imputation, Null-Imputation, Forward-Fill).
5. D5: SOFA-Berechnungsvarianten (Basislinie: 0 vs. dynamisch; Komponenten-Modifikationen).
6. D6: Infektionserkennung (ICD-Codes vs. Antibiotika-Kultur-Matching nach Seymour et al.).
Quellcode-Analyse: Für Studien mit verfügbarem Code (12 Studien) wurde der Code direkt untersucht, um Implementierungsentscheidungen zu identifizieren, die in den Texten nicht erwähnt wurden. Zudem wurden Abhängigkeiten zwischen Repositorien (z.B. MIT-LCP) verfolgt.

3. Wichtige Ergebnisse

A. Extreme Variabilität der Erkennungsraten

MIMIC-III: Erkennungsraten reichten von 3,4 % bis 65,2 % (Median: 26,4 %). Selbst bei Studien, die dieselbe Kohorte (z.B. alle Patienten >18 Jahre) ohne zusätzliche Filter nutzten, schwankten die Raten zwischen 16,9 % und 42,2 %.
eICU-CRD: Erkennungsraten reichten von 9,8 % bis 47,9 % (Median: 18,7 %).
Trend: Es zeigte sich keine Konvergenz der Methoden über die Zeit (2016–2024); die Variabilität bleibt bestehen.

B. Mangelnde Dokumentation

Die methodische Transparenz in den Publikationen war generell gering:

Nur 53,1 % der Studien dokumentierten die SOFA-Berechnung detailliert.
Nur 42,2 % beschrieben die Infektionserkennungsmethoden.
Nur 17,2 % gaben Auskunft zum Umgang mit fehlenden Daten.
Parameter-Abdeckung (D1) war in den Texten oft gar nicht beschreibbar und konnte nur durch Code-Analyse ermittelt werden.

C. Erkenntnisse aus der Quellcode-Analyse

Die Analyse von 12 Repositorien (insgesamt 321 Implementierungsentscheidungen) deckte massive Heterogenität auf, die in den Publikationen nicht offengelegt wurde:

Parameter-Abdeckung: Unterschiedliche Anzahl und Auswahl von ITEMIDs (z.B. 125 vs. 143 Parameter), besonders bei kardiovaskulären Monitoring-Parametern.
Zeitliche Fenster: Unterschiedliche Referenzpunkte (ICU-Aufnahme vs. Infektionsbeginn) und Fenstergrößen (1h bis 48h).
Fehlende Daten: Unterschiedliche Strategien (z.B. Null-Imputation, die den SOFA-Score künstlich senken kann, vs. komplexe Interpolation).
Basislinie (Baseline): Einige Repositorien setzten die Basislinie auf 0 (absolute SOFA $\ge$ 2), andere nutzten einen dynamischen Basiswert (niedrigster beobachteter SOFA).
Infektionserkennung: Unterschiedliche Kombinationen aus Antibiotika-Gabe, Kulturproben und ICD-Codes.

D. Propagation von Entscheidungen

Die Analyse zeigte, dass viele Studien auf denselben Code-Repositories basieren (z.B. mimic-code von MIT-LCP oder sepsis3-mimic). Dies führt dazu, dass spezifische (und möglicherweise suboptimale) Implementierungsentscheidungen über viele Studien hinweg "vererbt" werden, ohne dass dies in der Literatur kritisch hinterfragt wird.

4. Hauptbeiträge der Studie

Systematische Quantifizierung: Erste umfassende Analyse, die nicht nur die Erkennungsraten vergleicht, sondern die spezifischen algorithmischen Entscheidungen identifiziert, die für die Diskrepanzen verantwortlich sind.
Rahmenwerk (D1–D6): Einführung eines strukturierten 6-Domänen-Frameworks zur Klassifizierung von Implementierungsentscheidungen bei der Sepsis-Erkennung.
Code-Transparenz: Nachweis, dass die Analyse von Quellcode notwendig ist, um die tatsächliche Methodik zu verstehen, da Publikationen oft unvollständig sind.
Identifikation von "Clustern": Aufdeckung von Gruppen von Studien, die identische Kohorten und Raten teilen (oft durch gemeinsame Datenanalytik-Dienste oder Code-Abhängigkeiten), was auf eine fehlende methodische Diversität hindeutet.

5. Bedeutung und Empfehlungen

Die Studie zeigt, dass die computergestützte Umsetzung (Implementation) der Sepsis-3-Definition eine größere Rolle für die Variabilität der Ergebnisse spielt als die Wahl der Patientenkohorte oder die Definition selbst.

Empfehlungen der Autoren:

Standardisierte Berichterstattung: Einführung einer Checkliste für die Berichterstattung aller sechs methodischen Domänen (D1–D6) in zukünftigen Publikationen (ähnlich wie CONSORT oder TRIPOD).
Veröffentlichung von Version-Controlled Code: Quellcode muss öffentlich und versioniert verfügbar sein, um Reproduzierbarkeit zu gewährleisten.
Referenz-Implementierungen: Entwicklung von konsensbasierten Referenz-Implementierungen für gängige Datenbanken (MIMIC, eICU), um eine "Ground Truth" für Vergleiche zu schaffen.
Vorbereitung auf SOFA-2: Da die kommende SOFA-2-Definition noch komplexer sein wird, müssen proaktiv Standardisierungsmaßnahmen ergriffen werden, um die hier dokumentierten Probleme zu vermeiden.

Fazit: Ohne eine Standardisierung der Implementierungsdetails bleiben Sepsis-Vorhersagemodelle und klinische Entscheidungsunterstützungssysteme in ihrer Zuverlässigkeit und klinischen Nutzbarkeit eingeschränkt, unabhängig von ihrer algorithmischen Leistungsfähigkeit.