PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat een medische patiëntendossier (EHR) niet als een saaie Excel-tabel wordt gelezen, maar als een levend verhaal dat zich over jaren afspeelt.

Deze paper introduceert PaReGTA, een slimme manier om die verhalen te vertalen naar een taal die kunstmatige intelligentie (AI) echt begrijpt, zonder de tijdlijn te verliezen. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. Het Probleem: De "Vergeten Tijd"

Stel je voor dat je een detective bent die een dossier bekijkt.

De oude manier (One-hot encoding): De detective krijgt een lijstje met alleen de namen van de verdachten (bijv. "migraine", "pijnpil", "slaapstoornis"), maar zonder te weten wanneer ze iets deden of in welke volgorde. Het is alsof je een foto van een chaos ziet zonder te weten wat er eerst of laatst gebeurde. De tijd is verdwenen.
De dure manier (Sequence models): Andere methoden proberen elk woord in het verhaal in de juiste volgorde te zetten, maar dat is als een gigantische, zware machine die veel stroom (rekenkracht) en een enorme bibliotheek aan voorbeelden nodig heeft om te werken. In de echte wereld, waar data vaak schaars of rommelig is, werken deze machines vaak niet goed.

2. De Oplossing: PaReGTA (De Slimme Vertaler)

PaReGTA is als een slimme vertaler die het dossier van een patiënt omzet in een begrijpelijk verhaal voor de AI. Het werkt in drie stappen:

Stap 1: Het Verhaal Schrijven (Textualization)

In plaats van alleen cijfers en codes te gebruiken, zet PaReGTA de medische gegevens om in korte zinnen, alsof een arts een dagboek bijhoudt.

Vergelijking: In plaats van te zeggen "Code 123 op dag 5", zegt het: "Op dag 5 kreeg de patiënt een hoofdpijnpijn en nam een pil."
Het geheim: Het voegt tijdsaanwijzingen toe. Bijvoorbeeld: "Deze afspraak was 30 dagen na de vorige." Zo weet de AI dat de tijd een rol speelt.

Stap 2: De Leraar (Fine-tuning)

PaReGTA gebruikt een al bestaande, super-slimme taalcomputer (een LLM, zoals een slimme Google Translate voor medische teksten). Maar deze computer is nog niet gespecialiseerd in migraine.

Vergelijking: Stel je een universitair professor voor die alles over taal weet, maar niets van medicijnen. PaReGTA geeft die professor een snelle, intensieve cursus (met een techniek genaamd SimCSE) zodat hij leert wat "lasmiditan" of "chronische migraine" in dit specifieke verhaal betekent. Hij doet dit zonder dat er duizenden mensen handmatig zinnen moeten controleren; hij leert door zelf te oefenen.

Stap 3: De Samenvatting (Pooling)

Nu heeft de AI duizenden korte zinnen over de bezoeken van een patiënt. Hoe maak je daar één samenvatting van?

Vergelijking: Stel je voor dat je een dossier van 50 bezoeken moet samenvatten.
- Recency (Recentheid): De laatste bezoeken zijn vaak het belangrijkst (net als de laatste hoofdstukken van een boek geven vaak de oplossing).
- Belangrijkheid: Sommige bezoeken zijn cruciaal, zelfs als ze lang geleden waren (bijv. de eerste diagnose).
- PaReGTA gebruikt een slimme mix van beide: het geeft extra gewicht aan recente gebeurtenissen, maar laat ook zien welke oude gebeurtenissen echt belangrijk waren voor het totaalplaatje.

3. Waarom is dit zo goed?

Het werkt met rommelige data: In echte ziekenhuizen worden medicijnen soms opgeschreven als "Paracetamol 500mg" en soms als "Dafalgan". De oude methoden raken hierdoor in de war. PaReGTA leest de tekst gewoon zoals hij is en gebruikt zijn brede kennis om te begrijpen dat het hetzelfde is.
Het is niet duur: Het hoeft niet vanaf nul te worden getraind (zoals een baby die alles moet leren), maar bouwt voort op bestaande kennis. Daardoor werkt het zelfs met kleinere groepen patiënten.
Het is uitlegbaar (PaReGTA-RSS): Dit is misschien wel het coolste deel. Vaak is AI een "zwarte doos": je ziet het antwoord, maar niet waarom.
- De truc: PaReGTA-RSS is als een experiment. De AI kijkt naar het verhaal, geeft een voorspelling, en zegt dan: "Oké, laten we het woord 'slaapstoornis' even uit het verhaal halen en kijken of het antwoord verandert." Als het antwoord heel anders wordt, dan was 'slaapstoornis' een heel belangrijke factor. Zo kunnen artsen precies zien welke medicijnen of ziektes de AI als belangrijk heeft gezien.

4. Het Resultaat

De onderzoekers hebben dit getest op bijna 40.000 migraine-patiënten.

De uitkomst: PaReGTA was veel beter in het onderscheiden van "chronische migraine" (altijd pijn) versus "episodische migraine" (af en toe pijn) dan de oude methoden.
De diepe modellen faalden: De zware, complexe AI-modellen die proberen alles in één keer te leren, werkten niet goed in deze specifieke dataset. PaReGTA, met zijn slimme vertaling en samenvatting, won het makkelijk.

Samenvattend

PaReGTA is als een slimme vertaler die medische dossiers omzet in begrijpelijke verhalen, leert van de tijdlijn, en artsen vervolgens uitlegt waarom een bepaalde patiënt een bepaalde diagnose krijgt. Het combineert de kracht van moderne taal-AI met de praktische behoeften van de medische wereld, zonder de tijdlijn te verliezen.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Elektronische Gezondheidsrecords (EHR) bevatten waardevolle longitudinale gegevens over diagnoses, medicatie en comorbiditeiten. Echter, het effectief benutten van deze data voor voorspellende modellen stuit op twee hoofdproblemen:

Verlies van temporale informatie: Traditionele methoden, zoals one-hot encoding of getelde vectoren (bag-of-words), aggregeren bezoeken tot ongeordende samenvattingen. Hierdoor gaat de klinisch betekenisvolle tijdsorde en dynamiek (bijv. de volgorde van ziekten) verloren.
Beperkingen van bestaande oplossingen:
- Handgemaakte features: Vereisen veel domeinkennis en zijn moeilijk te schalen of te generaliseren.
- Diepe sequentiemodellen (RNN, Transformer): Zijn vaak data-hongerig, computationally duur en gevoelig voor de onregelmatige en schaarse aard van EHR-data. Ze vereisen vaak grote, gestandaardiseerde datasets die in de praktijk moeilijk beschikbaar zijn.
- Interpreteerbaarheid: LLM-gebaseerde encoding maakt het moeilijk om traditionele feature-importance methoden (zoals SHAP of LIME) toe te passen, omdat de relatie tussen ruwe klinische variabelen en de uiteindelijke embedding een "black box" is.

Methodologie: PaReGTA

De auteurs stellen PaReGTA (Patient Representation Generation with Temporal Aggregation) voor, een end-to-end framework dat gebruikmaakt van Large Language Models (LLM) om gestructureerde EHR-data om te zetten in temporale patiëntrepresentaties. Het proces bestaat uit drie hoofdstappen:

Tekstuele vertaling op bezoeksniveau (Visit-level Textualization):
- Ruwe EHR-records worden opgesplitst in klinische concepten (medicatie, comorbiditeiten).
- Deze records worden omgezet in korte, gestructureerde zinnen per bezoek.
- Temporale tokens: Er worden expliciete tijdsindicatoren toegevoegd aan de tekst, zoals de absolute datum, het tijdsverschil tussen bezoeken (gap), of de tijd sinds het laatste bezoek.
- Uniek kenmerk: Medicatienamen worden direct gebruikt zoals ze in het EHR staan (productnamen), zonder dure mapping naar hogere niveaus (zoals drugklassen), gebruikmakend van de semantische kennis van de LLM.
Domeinadaptatie via Contrastive Learning (SimCSE):
- Een voorgeprogrammeerde sentence-embedding LLM (GTE-base-v1.5) wordt gebruikt als basis.
- Om de model aan te passen aan de specifieke klinische context (migraine), wordt Unsupervised SimCSE toegepast. Hierbij worden positieve paren gegenereerd door dropout-noise toe te passen op dezelfde zin, zonder dat gelabelde zinnenparen nodig zijn. Dit verbetert de geometrie van de embedding-ruimte voor de specifieke cohort.
Hybride Temporele Pooling:
- In plaats van alle bezoeken in één keer te verwerken, worden eerst embeddings per bezoek gegenereerd.
- Deze worden vervolgens samengevoegd tot één patiëntrepresentatie via een hybride pooling-mechanisme dat twee factoren combineert:
  - Tijdsverval (Time-decay): Geef meer gewicht aan recentere bezoeken.
  - Aandacht (Attention): Geef gewicht aan bezoeken die globaal informatief zijn voor de voorspelling, ongeacht de datum.
- Het resultaat is een vaste dimensie patiëntvector die compatibel is met conventionele machine learning-modellen.

Interpreteerbaarheid: PaReGTA-RSS
Om de "black box" van LLM-embeddings te doorbreken, introduceren de auteurs PaReGTA-RSS (Representation Shift Score).

Principe: Een klinische factor (bijv. een medicijn) wordt uit de invoer-tekst verwijderd.
Berekening: De nieuwe patiëntembedding wordt berekend en vergeleken met de originele embedding. Het verschil ( $\Delta r$ ) wordt vermenigvuldigd met de coëfficiënten van een downstream model (bijv. logistieke regressie) om de impact op de voorspelling te kwantificeren.
Dit levert zowel patiënt-specifieke als cohort-specifieke belangrijkheidsscores op.

Belangrijkste Resultaten

Het model werd getest op een cohort van 39.088 migraine-patiënten uit het "All of Us" Research Program, met als taak het classificeren van chronische versus episodische migraine.

Prestaties: PaReGTA presteerde aanzienlijk beter dan traditionele baselines (one-hot encoding en count-based Bag-of-Codes).
- De beste configuratie (met "Gap"-temporale tokens) bereikte een AUC van 0,9524 en een nauwkeurigheid van 92,39% (met XGBoost).
- Dit is een significante verbetering ten opzichte van de baselines (AUC ~0,76 voor one-hot).
Temporale Tokens: Het gebruik van relatieve tijdsverschillen ("Gap") bleek effectiever dan absolute data of het gebruik van alleen het tijdstip sinds het laatste bezoek.
Robuustheid: PaReGTA functioneerde goed zonder medicatiegegevens (alleen comorbiditeiten) en kon direct werken met ruwe productnamen van medicijnen, wat de afhankelijkheid van complexe normalisatieprocessen wegneemt.
Deep Learning Baselines: Bekende sequentiemodellen (zoals RETAIN en T-LSTM) faalden in dit specifieke cohort om stabiele resultaten te leveren, waarschijnlijk vanwege data-schaarste en onregelmatigheid.
Interpretatie: De RSS-analyse identificeerde klinisch relevante factoren. Bijvoorbeeld: Botulinumtoxine en CGRP-therapieën hadden de grootste impact voor chronische migraine, terwijl angst en depressie variabele impact hadden afhankelijk van het geslacht van de patiënt.

Bijdragen en Relevantie

De paper levert de volgende cruciale bijdragen:

Een nieuw encoding-framework: PaReGTA combineert de semantische kracht van LLM's met expliciete temporale encoding en hybride pooling, wat ideaal is voor data-limietende klinische omgevingen.
Praktische toepasbaarheid: Het vermogen om ruwe, heterogene medicatienamen direct te verwerken, lost een groot probleem op in de EHR-dataverwerking.
Interpreteerbaarheid voor LLM's: PaReGTA-RSS biedt een methode om de bijdrage van specifieke klinische factoren te kwantificeren in een LLM-gebaseerde pipeline, wat essentieel is voor klinische adoptie.
Validatie: De resultaten tonen aan dat het behoud van temporale informatie via tekstuele encoding superieur is aan traditionele methoden en dat het model robuust is tegen real-world heterogeniteit.

Conclusie:
PaReGTA demonstreert dat het combineren van voorgeprogrammeerde LLM's met lichtgewicht domeinadaptatie en temporale pooling een krachtige, schaalbare en interpreteerbare oplossing biedt voor het modelleren van longitudinale EHR-data, zonder de noodzaak van enorme datasets of complexe diepe architecturen.

PaReGTA: An LLM-based EHR Data Encoding Approach to Capture Temporal Information

1. Het Probleem: De "Vergeten Tijd"

2. De Oplossing: PaReGTA (De Slimme Vertaler)

Stap 1: Het Verhaal Schrijven (Textualization)

Stap 2: De Leraar (Fine-tuning)

Stap 3: De Samenvatting (Pooling)

3. Waarom is dit zo goed?

4. Het Resultaat

Samenvattend

Probleemstelling

Methodologie: PaReGTA

Belangrijkste Resultaten

Bijdragen en Relevantie

Meer zoals dit

Entropy After for reasoning model early exiting

Alternatives to the Laplacian for Scalable Spectral Clustering with Group Fairness Constraints

A Benchmark of Classical and Deep Learning Models for Agricultural Commodity Price Forecasting on A Novel Bangladeshi Market Price Dataset

Probabilistic Language Tries: A Unified Framework for Compression, Decision Policies, and Execution Reuse

FLeX: Fourier-based Low-rank EXpansion for multilingual transfer