PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, die Krankenakte eines Patienten ist wie ein riesiges, chaotisches Tagebuch, das über Jahre hinweg geführt wurde. Darin stehen Termine, Medikamente, Diagnosen und Symptome. Das Problem ist: Wenn man diesen Text in eine Computer-Datenbank überträgt, wird er oft in eine langweilige, statische Liste verwandelt. Man zählt einfach nur, wie oft das Wort "Kopfschmerz" vorkommt, und ignoriert dabei völlig, wann es passiert ist oder in welcher Reihenfolge die Dinge geschehen sind.

Das ist, als würde man versuchen, einen ganzen Roman zu verstehen, indem man nur zählt, wie oft das Wort "und" vorkommt, ohne sich die Handlung anzusehen.

Hier kommt PaReGTA ins Spiel. Es ist eine neue, intelligente Methode, um diese medizinischen Daten für künstliche Intelligenz (KI) verständlich zu machen. Hier ist die Erklärung in einfachen Worten:

1. Der Übersetzer: Von Daten zu Geschichten

Stellen Sie sich vor, Sie haben einen Übersetzer, der nicht nur Wörter, sondern ganze Sätze versteht.

Das alte Problem: Früher wurden medizinische Daten wie "Aspirin" oder "Depression" einfach als isolierte Punkte in einer Liste gespeichert.
Die PaReGTA-Lösung: PaReGTA nimmt diese Daten und verwandelt sie in kleine, verständliche Sätze für jede Arztbesuch. Statt nur "Aspirin" zu speichern, schreibt es: "Am 1. Juli besuchte der Patient den Arzt und nahm Aspirin ein."
Der Clou: Es fügt auch Zeitinformationen hinzu, wie "62 Tage nach dem letzten Besuch". So behält die KI den zeitlichen Fluss im Kopf, genau wie ein Mensch, der eine Geschichte liest.

2. Der Lernende: Ein Genie, das sich spezialisiert

Die Autoren nutzen ein großes, vorgefertigtes Sprachmodell (ein "Großes Sprachmodell" oder LLM), das bereits Millionen von Texten gelesen hat.

Die Analogie: Stellen Sie sich einen sehr gebildeten Professor vor, der alles über die Welt weiß, aber noch nie ein Krankenhaus gesehen hat.
Der Feinschliff: PaReGTA nimmt diesen Professor und lässt ihn ein paar Wochen lang nur medizinische Texte lesen (ein Prozess namens "SimCSE"). Plötzlich versteht er medizinische Nuancen. Er weiß, dass "Lasmiditan" ein spezielles Migränemedikament ist, ohne dass man ihm eine riesige Tabelle mit Medikamentenklassen geben muss. Er lernt direkt aus den rohen Namen, die in den Akten stehen.

3. Der Zusammenfasser: Was ist wichtig?

Ein Patient hat oft Dutzende Arztbesuche. Welche sind die wichtigsten für die Diagnose?

Die Analogie: Stellen Sie sich vor, Sie müssen einen Bericht über jemanden schreiben, der viele Reisen gemacht hat.
- Methode A (Zeit): Sie geben den neuesten Reisen mehr Gewicht, weil sie zeigen, wie die Person jetzt ist.
- Methode B (Wichtigkeit): Sie geben den Reisen mehr Gewicht, die besonders ungewöhnlich oder entscheidend waren (z. B. eine Notaufnahme), egal wann sie waren.
PaReGTA kombiniert beide Methoden. Es erstellt eine einzige, kompakte "Zusammenfassung" (eine mathematische Repräsentation) des Patienten, die sowohl die neuesten Entwicklungen als auch die wichtigsten historischen Ereignisse berücksichtigt.

4. Der Detektiv: Warum hat die KI das entschieden?

Das ist vielleicht der wichtigste Teil für Ärzte. Wenn eine KI sagt: "Dieser Patient hat wahrscheinlich chronische Migräne", wollen die Ärzte wissen: Warum?

Das Problem: Bei normalen KI-Modellen ist das wie eine Blackbox. Man sieht das Ergebnis, aber nicht den Weg dorthin.
Die Lösung (PaReGTA-RSS): PaReGTA hat einen eingebauten "Detektiv". Dieser Detektiv macht folgendes Experiment:
1. Er nimmt die Patientengeschichte.
2. Er streicht eine Information heraus (z. B. alle Einträge über "Depression").
3. Er lässt die KI die Geschichte neu bewerten.
4. Wenn sich die Vorhersage stark ändert, weiß der Detektiv: "Aha! Die Depression war ein entscheidender Faktor!"
So können Ärzte sehen, welche Medikamente oder Krankheiten den größten Einfluss auf die Diagnose hatten.

Warum ist das so toll?

Es funktioniert auch mit wenig Daten: Viele KI-Modelle brauchen riesige Datenmengen. PaReGTA nutzt das Vorwissen des Sprachmodells und kommt auch mit kleineren Patientengruppen gut zurecht.
Es ist flexibel: Es muss nicht alles perfekt standardisiert sein. Wenn in der Akte "Aspirin 325mg" steht, statt nur "Aspirin", versteht die KI das trotzdem.
Es ist ehrlich: Es liefert nicht nur eine Vorhersage, sondern auch eine Erklärung, die Ärzte nachvollziehen können.

Zusammenfassend:
PaReGTA ist wie ein hochintelligenter Assistent, der die chaotischen, zeitlichen Notizen eines Patienten in eine klare, verständliche Geschichte verwandelt, die wichtigsten Momente hervorhebt und dem Arzt genau erklärt, welche Details zur Diagnose geführt haben. Es macht aus trockenen Daten eine lebendige medizinische Erzählung.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Elektronische Gesundheitsakten (EHRs) enthalten wertvolle longitudinale Daten über Diagnosen, Medikamente und Verläufe. Die Herausforderung besteht darin, diese zeitlich strukturierten Daten effektiv für maschinelle Lernmodelle zu kodieren.

Verlust zeitlicher Informationen: Herkömmliche Ansätze wie One-Hot-Encoding oder aggregierte Zählvektoren (Bag-of-Codes) ignorieren die zeitliche Abfolge und die Dynamik von Visiten. Sie fassen komplexe klinische Narrative in unsortierte Zusammenfassungen zusammen.
Limitationen sequenzieller Modelle: Zwar können RNNs oder Transformer (z. B. CEHR-BERT) zeitliche Abhängigkeiten modellieren, sind jedoch oft rechenintensiv, benötigen große Datenmengen und sind empfindlich gegenüber Datenknappheit und Heterogenität (z. B. inkonsistente Medikamentennamen).
Interpretierbarkeit: Bei LLM-basierten Ansätzen ist die Herleitung von Feature-Importance schwierig, da die Verbindung zwischen rohen klinischen Variablen und den latenten Embeddings komplex ist. Herkömmliche Methoden wie SHAP sind rechnerisch zu teuer, da sie die gesamte Pipeline (Text $\to$ Embedding $\to$ Pooling) bei jeder Perturbation neu berechnen müssten.
Datenheterogenität: Medikamente werden oft als Produktbezeichnungen (nicht standardisierte Begriffe) gespeichert, was eine manuelle Normalisierung erfordert und die Generalisierbarkeit erschwert.

2. Methodik: PaReGTA

PaReGTA (Patient Representation Generation with Temporal Aggregation) ist ein End-to-End-Framework, das auf Large Language Models (LLMs) basiert, um longitudinale EHR-Daten in feste Patientendarstellungen zu überführen. Der Ansatz besteht aus drei Hauptphasen:

A. Visit-Level-Textualisierung

Statt rohe Tabellendaten direkt zu verarbeiten, werden EHR-Ereignisse in klinisch sinnvolle Kategorien (Medikamente, Komorbiditäten) unterteilt und in kurze, templatisierte Sätze pro Visite umgewandelt.

Zeitliche Tokenisierung: Um zeitliche Informationen zu erhalten, werden verschiedene Tokenisierungsschemata getestet (z. B. absolute Daten, Zeitabstände zwischen Visiten, Monate seit letzter Visite).
Rohdaten-Nutzung: Medikamente werden direkt als im EHR gespeicherte Produktbezeichnungen kodiert, ohne aufwändige Mapping-Prozesse auf höhere Konzepte.

B. Domain-Adaptation via Contrastive Learning

Ein vortrainiertes Sentence-Embedding-Modell (hier: GTE-base-v1.5) wird mittels SimCSE (Simple Contrastive Learning of Sentence Embeddings) feinabgestimmt.

Unsupervised Fine-Tuning: Da keine gelabelten Satzpaare benötigt werden, wird das Modell durch Dropout-Augmentierung desselben Eingabesatzes trainiert, um semantisch ähnliche Embeddings zu gruppieren und unähnliche zu trennen. Dies passt das Modell an die spezifische klinische Terminologie der Kohorte an.

C. Hybride zeitliche Pooling-Strategie

Um aus den Embeddings einzelner Visiten eine einzige Patientendarstellung zu erzeugen, wird ein hybrides Pooling verwendet:

Zeitverfall (Time-Decay): Jüngere Visiten erhalten höhere Gewichte ( $r_i = e^{-\gamma(t_N - t_i)}$ ).
Attention-Mechanismus: Visiten, die global informativ für die Vorhersage sind (ähnlich dem globalen Kontext), werden zusätzlich gewichtet.
Hybrid-Gewichtung: Eine konvexe Kombination aus Zeitgewichtung und Attention-Gewichtung ( $\alpha$ ) erzeugt das finale Patient-Embedding.

D. Interpretierbarkeit: PaReGTA-RSS

Um die Bedeutung klinischer Faktoren zu quantifizieren, wird PaReGTA-RSS (Representation Shift Score) eingeführt.

Prinzip: Ein klinischer Faktor (z. B. eine Medikamentenklasse) wird aus den Visitentexten entfernt, und die Änderung im Patient-Embedding ( $\Delta r_i$ ) wird berechnet.
Bewertung: Die Änderung wird durch eine downstreame Logistische Regression (LR) projiziert. Der Score entspricht der Änderung des Logits ( $c^\top \Delta r_i$ ). Dies ermöglicht eine additive, patientenspezifische und kohortenspezifische Zuordnung von Wichtigkeit ohne teure Perturbationen der gesamten Pipeline.

3. Wichtige Beiträge

PaReGTA-Framework: Ein skalierbarer, zeitbewusster Kodierungsansatz, der vortrainierte LLMs nutzt und somit auch in datenlimitierten Kohorten gut funktioniert.
Temporale Tokenisierung: Systematische Evaluierung zeigt, dass relative Zeitabstände („Gap" zwischen Visiten) effektiver sind als absolute Daten oder reine Zeitabstände zur letzten Visite.
Robustheit bei heterogenen Daten: Das Modell kann direkt mit nicht-standardisierten Medikamentennamen umgehen, was den Aufwand für Concept-Mapping eliminiert.
PaReGTA-RSS: Eine neue Methode zur Erklärbarkeit von LLM-basierten EHR-Modellen, die klinisch sinnvolle Faktoren identifiziert.
Validierung: Erfolgreicher Einsatz auf dem großen, harmonisierten „All of Us"-Datensatz (39.088 Migräne-Patienten).

4. Ergebnisse

Die Studie wurde an der Klassifikation von Migräne-Typen (chronisch vs. episodisch) durchgeführt.

Vorhersageleistung: PaReGTA übertrifft sparse Baselines (One-Hot, Count BoC) signifikant.
- Beispiel LightGBM: Accuracy stieg von 84,02 % (One-Hot) auf 92,33 % (PaReGTA mit Gap-Tokenisierung). Der AUC verbesserte sich von 0,7634 auf 0,9524.
- Tiefe sequenzielle Modelle (RETAIN, T-LSTM) zeigten in diesem Setting Instabilität und konvergierten nicht zuverlässig.
Abtragsstudien:
- Die Kombination aus SimCSE-Finetuning und hybridem Pooling ist entscheidend; das Entfernen eines dieser Module führt zu Leistungsabfällen.
- Die „Gap"-Tokenisierung (Zeitabstand zur vorherigen Visite) erwies sich als überlegen gegenüber absoluten Daten oder reinen „Last-Visit"-Abständen.
Embedding-Qualität: Die Metriken für Uniformität und Isotropie zeigten, dass das Visit-Level-Embedding mit SimCSE-Finetuning einen deutlich besseren geometrischen Raum erzeugt als rohe Textzusammenführungen.
Interpretierbarkeit (RSS):
- Das Modell identifizierte korrekt bekannte klinische Marker: Botulinumtoxin und CGRP-Therapien waren für chronische Migräne am wichtigsten, Triptane für akute Behandlungen.
- Komorbiditäten wie Bluthochdruck, Angststörungen und Schlafstörungen zeigten hohe Wichtigkeit.
- Subgruppenanalysen zeigten geschlechtsspezifische Unterschiede (z. B. höhere Bedeutung von Depression bei Männern, Fibromyalgie bei Frauen).
- Zeitliche Analyse zeigte, dass chronische Patienten stark auf längere historische Fenster (180–365 Tage) angewiesen sind, während episodische Patienten weniger davon profitieren.

5. Bedeutung und Fazit

PaReGTA demonstriert, dass Large Language Models effektiv genutzt werden können, um die Lücke zwischen rohen, heterogenen EHR-Daten und leistungsfähigen klinischen Vorhersagemodellen zu schließen, ohne die Nachteile reiner Deep-Learning-Sequenzmodelle (hoher Ressourcenbedarf, Datenhunger) zu teilen.

Praktische Relevanz: Der Ansatz ist robust gegenüber fehlenden oder inkonsistenten Daten (z. B. Medikamentennamen) und benötigt keine aufwändige manuelle Feature-Engineering.
Modellunabhängigkeit: Da PaReGTA auf Sentence-Embeddings aufbaut, ist es mit zukünftigen, besseren Embedding-Modellen kompatibel und kann diese einfach integrieren.
Erklärbarkeit: Durch PaReGTA-RSS wird die „Black Box" von LLM-basierten Kodierungen durchbrochen, was für die klinische Akzeptanz entscheidend ist.

Zusammenfassend bietet PaReGTA einen neuen Standard für die longitudinale EHR-Analyse, der zeitliche Informationen bewahrt, interpretierbar ist und in realen, heterogenen klinischen Umgebungen überlegene Leistung zeigt.