From Statistical Fidelity to Clinical Consistency: Scalable Generation and Auditing of Synthetic Patient Trajectories

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der perfekte, aber falsche Patient

Stellen Sie sich vor, Sie wollen einen neuen Arzt-Assistenten trainieren, der lernen soll, wie Krankheiten behandelt werden. Dafür brauchen Sie Daten von echten Patienten. Aber aus Datenschutzgründen (wegen der Privatsphäre) dürfen Sie diese echten Akten nicht einfach weitergeben.

Die Lösung? Man erstellt künstliche Patientenakten (synthetische Daten). Das ist wie das Erstellen von „Schauspielern", die genau so aussehen und sich genau so verhalten wie echte Menschen, aber keine echten Personen sind.

Das Problem bisher war: Die bisherigen KI-Modelle waren gut darin, die Statistik nachzuahmen. Sie wussten: „In 10 % der Fälle haben Menschen Diabetes." Aber sie waren schlecht darin, die Logik zu verstehen.

Der Fehler: Die KI könnte einen männlichen Patienten erschaffen, der schwanger ist, oder einem Kind ein Medikament geben, das nur für Erwachsene gedacht ist.
Die Metapher: Stellen Sie sich vor, die KI ist ein sehr talentierter Maler, der ein Porträt malt. Die Farben (Statistik) sind perfekt gemischt. Aber wenn Sie genauer hinsehen, hat das Porträt drei Arme oder die Augen sind an der falschen Stelle. Es sieht auf den ersten Blick realistisch aus, ist aber medizinisch unmöglich.

Die Lösung: Coogee – Der „Zwei-Schritte"-Plan

Die Forscher haben ein neues System namens Coogee entwickelt. Man kann es sich wie eine hochmoderne Fabrik vorstellen, die in zwei Schritten arbeitet:

Schritt 1: Der Architekt (Die Generierung)

Zuerst baut die KI die Patienten. Aber statt einfach nur zufällige Wörter zu mischen, nutzt sie ein medizinisches Lexikon (eine Wissensdatenbank).

Die Analogie: Stellen Sie sich vor, ein Kind lernt, Lego zu bauen. Früher durften die Kinder beliebige Steine zusammenstecken (was zu krummen Türmen führte). Bei Coogee bekommt das Kind einen Bauplan und Steine, die nur passen, wenn sie logisch zusammengehören.
Die KI lernt nicht nur, wie oft ein Begriff vorkommt, sondern was er bedeutet. Sie weiß, dass „Herzinfarkt" und „Blutverdünner" zusammengehören, aber nicht „Herzinfarkt" und „Schwangerschafts-Check-up" bei einem Mann.

Schritt 2: Der strengen Prüfer (Das Auditing)

Auch der beste Architekt macht mal Fehler. Deshalb kommt der zweite Schritt: Ein KI-Prüfer (ein großes Sprachmodell, ähnlich wie ChatGPT, aber mit medizinischem Wissen).

Die Analogie: Stellen Sie sich vor, der Architekt hat 10.000 Häuser gebaut. Bevor sie verkauft werden, läuft ein strenger Bauinspektor durch. Er schaut sich jedes Haus an und sagt: „Moment, dieser Ofen führt direkt ins Schlafzimmer – das ist lebensgefährlich! Riss es!"
Dieser Inspektor wirft alle künstlichen Patientenakten weg, die logische Fehler enthalten (z. B. ein Mann mit einer Gebärmutter oder Medikamente ohne Diagnose). Nur die Akten, die zu 100 % logisch und realistisch sind, dürfen weiterverwendet werden.

Was haben sie herausgefunden?

Statistik allein reicht nicht: Wenn man nur auf die Zahlen schaut, sehen die künstlichen Daten fast genauso gut aus wie echte. Aber wenn man sie von echten Ärzten prüfen lässt, fallen sofort die logischen Fehler auf (in etwa der Hälfte der Fälle!).
Der Prüfer rettet die Daten: Nach dem „Inspektor"-Schritt waren die künstlichen Daten so gut, dass selbst die besten menschlichen Experten und andere KIs sie kaum noch von echten Patientenakten unterscheiden konnten.
Sicherheit: Die künstlichen Patienten sind sicher. Man kann nicht herausfinden, ob sie auf einer echten Person basieren. Es ist wie eine Maske, die so perfekt ist, dass niemand den echten Menschen dahinter erkennt.

Warum ist das wichtig?

Stellen Sie sich vor, Sie entwickeln eine neue App, die Ärzten hilft, bessere Diagnosen zu stellen. Wenn Sie diese App nur mit „statistisch korrekten, aber logisch verrückten" Daten trainieren, wird die App im echten Leben versagen. Sie könnte einem Mann eine Schwangerschaftsbehandlung verschreiben.

Mit Coogee können Forscher nun sicher und in großem Maßstab künstliche Patienten erstellen, die:

Privatsphäre schützen (keine echten Daten werden geteilt).
Medizinisch sinnvoll sind (keine logischen Fehler).
Für die Zukunft nutzbar sind (z. B. um zu testen, wie sich neue Medikamente auswirken würden).

Zusammenfassend: Die Forscher haben eine Maschine gebaut, die nicht nur „Statistik lernt", sondern auch „medizinisches Denken". Sie erstellen künstliche Patienten, die so realistisch sind, dass sie in der Forschung verwendet werden können, ohne dass echte Menschen ihre Daten preisgeben müssen. Es ist der Unterschied zwischen einem Foto, das nur von weitem wie ein Mensch aussieht, und einem lebendigen Schauspieler, der die Rolle perfekt spielt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Der Zugang zu echten elektronischen Gesundheitsakten (EHR) für die Forschung ist aufgrund von Datenschutzbestimmungen und institutionellen Barrieren stark eingeschränkt. Synthetische EHR-Daten werden als Lösung vorgeschlagen, um sichere Datenteilung zu ermöglichen. Bisherige Methoden leiden jedoch unter einem kritischen Mangel:

Statistische vs. Klinische Konsistenz: Während viele Modelle die statistischen Eigenschaften realer Daten (Häufigkeiten, Verteilungen) gut abbilden, fehlt es oft an klinischer Konsistenz. Das bedeutet, dass die generierten Patientenhistorien zwar statistisch plausibel erscheinen, aber logische Fehler aufweisen (z. B. Medikamente, die bei bestimmten Geschlechtern kontraindiziert sind, oder unterbrochene kausale Ketten zwischen Diagnose und Behandlung).
Limitationen bestehender Modelle: Frühere Ansätze (GANs, VAEs) nutzten oft grobe Aggregationen. Neuere Transformer-Modelle nutzen Sub-Tokenisierung, die medizinische Codes zerlegt und zu „Halluzinationen" (nicht existierenden Codes) führen kann. Zudem basierte die Validierung meist nur auf aggregierten Statistiken, nicht auf einer klinischen Prüfung der Logik.
Skalierungsproblem: Die manuelle Überprüfung durch Ärzte ist der Goldstandard, aber für große synthetische Datensätze zu zeitaufwendig, subjektiv und nicht skalierbar.

2. Methodik: Das Coogee-Framework

Die Autoren stellen Coogee vor, ein zweistufiges Framework, das „wissensbasierte Generierung" mit „skalierbarem automatischem Audit" kombiniert.

A. Wissensbasierte Generierung (High-Fidelity Generation)

Das generative Modell wurde auf der MIMIC-IV-Datenbank (ca. 180.712 Patienten) trainiert und zielt darauf ab, fast 32.000 verschiedene klinische Ereignisse (Demografie, Labore, Medikamente, Eingriffe, Diagnosen) abzubilden.

Atomare Tokenisierung: Um die Fragmentierung medizinischer Codes zu vermeiden, wird jeder klinische Begriff als einziger, unteilbarer Token dargestellt (One-to-One-Mapping zu Ontologien wie ICD-10-CM, ATC). Dies verhindert die Erzeugung ungültiger Codes durch Rekombination von Sub-Token.
Wissensbasierte Einbettungen (Knowledge-Grounded): Anstatt nur auf statistischen Häufigkeiten zu basieren, werden die Token durch ein Wissensgraph-Modell (PrimeKG) angereichert. Ein Relational Graph Convolutional Network (RGCN) kodiert biologische Zusammenhänge (z. B. Weg zwischen Medikament und Krankheit) und klinische Definitionen (via ClinicalBERT). Dies ermöglicht dem Modell, semantische Beziehungen zu lernen, auch bei seltenen Erkrankungen („Long-Tail"-Problematik).
Architektur: Ein Decoder-only Transformer mit Grouped-Query Attention (GQA), Rotary Position Embeddings (RoPE) für zeitliche Abstände und effizienter Matrixfaktorisierung der Embeddings, um den Rechenaufwand bei der großen Vokabulargröße zu senken.

B. Skalierbares Automatisches Audit (Scalable Automated Auditing)

Da probabilistische Generierung dennoch semantische Inkonsistenzen erzeugen kann, wird ein zweiter Schritt eingeführt:

LLM-Auditor: Ein lokales Large Language Model (Qwen3-30B) agiert als medizinischer Experte.
Prüfkriterien: Der Auditor bewertet jede Patientenhistorie in drei Dimensionen:
1. Demografische Ausrichtung: Konsistenz zwischen biologischen Attributen (Alter, Geschlecht) und Ereignissen (z. B. keine Schwangerschaft bei männlichen Patienten).
2. Klinische Logik: Einhaltung kausaler Ketten (z. B. muss eine Diagnose eine Medikation rechtfertigen).
3. Temporale Plausibilität: Realistische Zeitabstände zwischen Ereignissen.
Filterung: Nur Trajektorien mit einem Realismus-Score von ≥7/10 („Meist realistisch" bis „Unterscheidbar von echten Daten") werden für den finalen Datensatz behalten.

3. Schlüsselbeiträge

Erkennung der „Konsistenzlücke": Die Studie zeigt, dass hohe statistische Treue (Statistical Fidelity) nicht ausreicht. Ohne Auditierung sind synthetische Daten oft klinisch unbrauchbar, da sie logische Widersprüche enthalten.
Coogee-Framework: Ein erster Ansatz, der vollständige, realistische Patientenhistorien generiert und gleichzeitig durch einen automatisierten LLM-Auditor auf klinische Validität prüft.
Skalierbare Validierung: Der Nachweis, dass LLMs als zuverlässige, skalierbare Stellvertreter für menschliche Ärzte bei der Prüfung klinischer Logik dienen können (hohe Übereinstimmung mit Experten-Reviews).
Wissensintegration: Die erfolgreiche Integration von medizinischem Wissen (Knowledge Graphs) in die Generierung, um die Erzeugung nicht-existierender medizinischer Konzepte zu verhindern.

4. Ergebnisse

Statistische Treue: Das generierte Modell zeigte eine hervorragende Übereinstimmung mit realen Daten (mittlere Verzerrung ~0,00; Korrelation $R^2 = 0,99$ ) in Bezug auf Code-Häufigkeiten und Ko-Occurrence.
Klinische Konsistenz:
- Ohne Auditierung enthielten 45–60 % der synthetischen Stichproben (N=20) Inkonsistenzen, die von Klinikern erkannt wurden.
- Nach dem automatischen Audit reduzierte sich der Unterschied zwischen realen und synthetischen Daten signifikant (Cohen's $d$ sank von 0,59–1,60 auf 0,18–0,67).
- Die Diskriminierungsfähigkeit von LLMs und Klinikern zwischen realen und synthetischen Daten nahm nach dem Audit drastisch ab (z. B. Cohen's $d$ für Qwen-3-Max von 1,11 auf 0,20).
Downstream-Nutzen: Modelle, die auf den auditierten synthetischen Daten trainiert wurden, erreichten bei klinischen Vorhersageaufgaben (Phänotypisierung, Sterblichkeit, Wiederaufnahme) eine Leistung, die der von Modellen auf echten Daten entsprach oder diese sogar übertraf (Train-on-Synthetic, Test-on-Real).
Datenschutz: Es wurden keine Datenschutzrisiken festgestellt. Die Mitgliedschafts-Inferenz-Angriffe (MIA) erreichten eine Genauigkeit von 0,51 (zufälliges Raten), was bestätigt, dass keine Informationen über die Trainingsdaten geleakt wurden.

5. Bedeutung und Implikationen

Die Studie stellt einen Paradigmenwechsel in der Generierung synthetischer Gesundheitsdaten dar:

Vom Statistischen zum Klinischen: Synthetische Daten dürfen nicht mehr nur auf statistischer Ähnlichkeit bewertet werden. Sie müssen klinisch logisch konsistent sein, um in der Forschung und für KI-Entwicklung sicher einsetzbar zu sein.
Standardisierung des Audits: Automatisiertes Auditieren durch LLMs sollte als Standardkomponente in Pipelines zur Erzeugung synthetischer Daten integriert werden, um Vertrauen und Governance zu gewährleisten.
Digital Twins: Das Framework ermöglicht die sichere, skalierbare Simulation realistischer Patientenhistorien, was eine Grundlage für „Digital Twins" in der Medizin und die Entwicklung fairer, datenschutzkonformer klinischer KI-Systeme bildet.

Zusammenfassend beweist Coogee, dass die Kombination aus wissensbasiertem Generieren und strengem, automatischem Auditieren notwendig ist, um synthetische Daten zu schaffen, die sowohl statistisch präzise als auch klinisch vertrauenswürdig sind.