EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Each language version is independently generated for its own context, not a direct translation.

Het Grote Probleem: De "Voorspeller" die te traag is

Stel je voor dat je een superintelligente arts hebt die alle medische dossiers van miljoenen patiënten heeft gelezen. Deze arts kan ziektes voorspellen. Tot nu toe deden de slimste computersystemen dit op één specifieke manier: autoregressief.

De analogie van de "Droomreis":
Stel je voor dat je deze computer vraagt: "Zal deze patiënt binnen 30 dagen opnieuw in het ziekenhuis komen?"
De oude manier van werken is alsof de computer 20 verschillende droomtoekomstjes voor die patiënt droomt. In elke droom loopt het leven van de patiënt een maand door.

In droom 1: Hij komt niet terug.
In droom 2: Hij komt terug.
In droom 3: Hij komt niet terug...
Na al die dromen telt de computer: "Oké, in 4 van de 20 dromen kwam hij terug. De kans is dus 20%."

De nadelen:

Het is traag: Het dromen van 20 toekomstjes duurt lang.
Het is onnauwkeurig bij zeldzame dingen: Als iets heel zeldzaam is (bijvoorbeeld 1 op de 100), dan zie je dat in 20 dromen misschien geen enkele keer gebeuren. De computer denkt dan: "Geen enkele droom liet het zien, dus de kans is 0%." Terwijl het misschien wel 1% is. Dat is gevaarlijk.
Het is niet flexibel: Je kunt de computer niet simpelweg vragen: "Wat is de kans op een hartinfarct?" en dan later "Wat is de kans op een gebroken been?" zonder het hele droomproces opnieuw te starten.

De Oplossing: EveryQuery (De "Snelle Vraag-Antwoord Machine")

De auteurs van dit paper hebben een nieuwe manier bedacht, genaamd EveryQuery. In plaats van dromen, leert deze computer direct het antwoord op een specifieke vraag.

De analogie van de "Vraagspeler":
Stel je voor dat EveryQuery een super-snel antwoordmachine is.

Input: Je geeft de computer twee dingen:
1. Het medische dossier van de patiënt (de geschiedenis).
2. Een gestructureerde vraag (bijv. "Zal er binnen 30 dagen een code voor 'diabetes' verschijnen?").
Output: De computer kijkt één keer naar het dossier en de vraag, en zegt direct: "De kans is 85%."

Er wordt geen droomtoekomstje gegenereerd. Er is geen tellen van 20 scenario's. Het is één directe blik.

Waarom is dit zo geweldig? (De 3 Voordelen)

Snelheid (Efficiëntie):
- Oude manier: 20 dromen per patiënt = 6 seconden wachttijd.
- EveryQuery: 1 directe blik = 0,02 seconden.
- Analogie: Het is het verschil tussen het schrijven van 20 verschillende verhalen om te zien hoe een verhaal eindigt, versus gewoon direct het einde van het verhaal te lezen. EveryQuery is 3.000 keer sneller.
Beter bij zeldzame ziektes:
- Omdat EveryQuery niet hoeft te "dromen", maar direct kijkt naar signalen in het dossier die wijzen op een specifieke ziekte, mist hij zeldzame gebeurtenissen niet.
- Analogie: De oude computer was als iemand die in een donkere kamer 20 keer een flitslampje aanzet om te zien of er een muis loopt. Als de muis zeldzaam is, zie je hem misschien nooit. EveryQuery is als iemand die direct een bewegingsmelder heeft die reageert op de muis, ongeacht hoe zeldzaam hij is.
Flexibiliteit (Promptability):
- Je kunt de computer vragen stellen alsof je een chatbot gebruikt. "Wat is de kans op X?", "Wat is de kans op Y?". Je hoeft de computer niet opnieuw te trainen voor elke nieuwe ziekte.

Wat is er mis? (De beperking)

Natuurlijk is er een addertje onder het gras. De "vraagtaal" van EveryQuery is op dit moment nog wat beperkt.

De analogie van de "Enkele Vraag":
EveryQuery is goed in vragen als: "Zal patiënt X specifiek ziekte A krijgen?"
Maar hij heeft moeite met vragen als: "Zal patiënt X welke ziekte dan ook krijgen?" of "Zal hij terugkomen om een van de 70 mogelijke redenen?"

In het paper wordt dit getest bij 30-daagse heropnames (patiënten die weer terugkomen). Om dit te beantwoorden, moet je eigenlijk vragen: "Komt hij terug voor reden A? Of reden B? Of C? ... Of Z?"
De computer moet dan 70 aparte vragen stellen en de antwoorden samenvoegen. Dat werkt niet zo goed als de oude "droomcomputer", die gewoon het hele toekomstbeeld ziet en ziet: "Ah, hij komt terug, ongeacht de reden."

Conclusie

EveryQuery is een doorbraak voor medische AI. Het is als het vervangen van een trage, dure droommachine door een razendsnelle, precieze vraag-antwoord machine.

Het is sneller (3.000x).
Het is betrouwbaarder bij zeldzame ziektes.
Het is makkelijker te gebruiken (je stelt gewoon een vraag).

De enige keer dat het faalt, is bij complexe vragen waarbij je "of-dit-of-dat" moet berekenen over honderden mogelijkheden. Maar voor de meeste medische voorspellingen is dit een enorme stap voorwaarts.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Bestaande foundation-modellen voor elektronische gezondheidsrecords (EHR) gebruiken overwegend een autoregressieve aanpak. Deze modellen worden getraind om toekomstige medische gebeurtenissen te genereren (next-token prediction). Hoewel ze zero-shot voorspellingen mogelijk maken, hebben ze drie fundamentele beperkingen:

Rekenintensiteit: Voorspellingen vereisen het genereren van vele synthetische toekomsttrajecten (bijv. 20 rollouts) per patiënt en het aggregeren van statistieken, wat zeer duur is in rekentijd.
Statistische ruis: Vooral bij zeldzame klinische gebeurtenissen (lage prevalentie) zijn de schattingen onbetrouwbaar. Omdat zeldzame gebeurtenissen zelden in de gegenereerde trajecten voorkomen, zijn de kansschattingen sterk gekwantiseerd (bijv. stappen van 1/20) en hebben ze een hoge variantie.
Gebrek aan promptbaarheid: Gebruikers kunnen de voorspelling niet direct conditioneren op specifieke klinische vragen zonder complexe aggregatieprocedures of het herdefiniëren van de inferentiepiplijn.

Er is een behoefte aan een model dat zero-shot inferentie, efficiëntie (enkele forward pass) en promptbaarheid (directe conditionering op een gestructureerde query) combineert.

Methodologie: EveryQuery

EveryQuery introduceert een nieuwe architectuur die task-conditioned pretraining gebruikt in plaats van autoregressieve generatie.

Probleemformulering:
- De patiëntgeschiedenis wordt getokeniseerd als een sequentie $x$ van medische codes (diagnoses, medicijnen, procedures, etc.).
- Een query $q$ wordt gedefinieerd als een gestructureerde parameter: $q = (c, \Delta t)$ , waarbij $c$ een specifieke medische code is en $\Delta t$ een tijdsvenster (bijv. 30 dagen).
- De taak is om direct de waarschijnlijkheid te schatten dat code $c$ optreedt binnen $\Delta t$ na het laatste event in de geschiedenis.
Architectuur:
- Het model gebruikt een bidirectionele transformer (ModernBERT-base, ~149M parameters).
- De query-code $c$ wordt gemap naar een token en voorgeplaatst (prepended) aan de patiëntsequentie: $[q; x_1, ..., x_L]$ .
- Door de bidirectionele attention kan de query-token direct "kijken" naar de relevante delen van de patiëntgeschiedenis.
- Er zijn twee output-heads: één voor de kans op het optreden van het event ( $\hat{y}_{occurs}$ ) en één voor censuur ( $\hat{y}_{cens}$ , d.w.z. of er genoeg data is om het event te observeren).
Pretraining:
- Het model wordt getraind op willekeurig samengestelde combinaties van patiënten en queries.
- Queries worden gesampled uit een set van 10.000 codes (uit een totaal van 11.467). Codes buiten deze set worden als "held-out" gebruikt voor evaluatie, maar komen wel voor in de patiëntgeschiedenis.
- Het verlies is een multi-task objectief dat zowel de censuur als de gebeurtenisvoorspelling optimaliseert.

Kernbijdragen

Task-Conditioned Pretraining: Een nieuwe methode waarbij het model direct wordt getraind om antwoorden te geven op gestructureerde klinische vragen, in plaats van toekomstige trajecten te genereren.
Zero-Shot Inference zonder Finetuning: Het model kan direct voorspellingen doen voor willekeurige taken binnen het query-domein zonder aanpassing van de output-heads.
Efficiëntie en Promptbaarheid: Voorspellingen gebeuren via één deterministische forward pass, wat de rekentijd drastisch verlaagt en directe interactie met klinische vragen mogelijk maakt.

Resultaten

De evaluatie vond plaats op de MIMIC-IV dataset, vergeleken met een autoregressieve baseline (MEDS-EIC-AR).

Algemene Prestatie: EveryQuery presteerde beter dan de autoregressieve baseline op 82% van de 39 willekeurig gesamplede voorspellingstaken. De gemiddelde AUC-verbetering was +0.16 (95% CI: [0.10, 0.22]).
Generalisatie naar Held-Out Codes: Het model toonde geen prestatiedaling op taken waarbij de query-codes expliciet waren uitgesloten van de pretraining-distributie (Out-of-Distribution). Dit bewijst dat de task-conditioning goed generaliseert naar nieuwe uitkomsttargets.
Voordeel bij Zeldzame Gebeurtenissen: Er is een sterke negatieve correlatie ( $\rho = -0.32$ $ρ = - 0.32$ ) tussen de prevalentie van een gebeurtenis en het winstpercentage van EveryQuery.
- De autoregressieve baseline faalt bij zeldzame gebeurtenissen omdat deze afhankelijk is van het genereren van het event in de trajecten.
- EveryQuery is onafhankelijk van prevalentie omdat het direct attendeert op bewijs in de geschiedenis voor de gevraagde code.
Rekenefficiëntie: EveryQuery is ongeveer 3.000x sneller dan de autoregressieve baseline. Waar de baseline 20 trajecten per patiënt moet genereren (gemiddeld 6 seconden per patiënt), doet EveryQuery een voorspelling in ~20 milliseconden per patiënt.
Representatie-analyse: De embeddings worden georganiseerd rondom de query en niet rondom de patiënt. Embeddings voor dezelfde query over verschillende patiënten zijn meer op elkaar gelijkend dan embeddings van dezelfde patiënt voor verschillende queries. Dit bevestigt dat het model de representatie zelf conditioneert op de taak.
Beperking (Readmission): EveryQuery faalde bij de voorspelling van 30-dagen heropname. Deze taak vereist disjunctief redeneren ("welke van de 70 mogelijke opnamecodes treedt op?"). Omdat EveryQuery slechts één code per query kan verwerken, vereist dit aggregatie van 70 aparte voorspellingen, wat leidde tot een lagere AUC (0.56) dan de autoregressieve baseline (0.64).

Betekenis en Conclusie

EveryQuery demonstreert dat task-conditioned pretraining een superieur alternatief is voor autoregressieve generatie voor specifieke klinische voorspellingstaken. Het lost het fundamentele probleem op van hoge variantie en rekenkosten bij zeldzame gebeurtenissen in EHR-modellen.

De belangrijkste implicatie is dat foundation-modellen voor EHR niet per se generatief hoeven te zijn om zero-shot te werken; een gestructureerde query-aanpak biedt meer efficiëntie en nauwkeurigheid voor voorspellingen. De belangrijkste beperking is momenteel de expressiviteit van de query-taal (geen ondersteuning voor disjuncties of complexe logica), wat een richting is voor toekomstig werk.

Kortom, EveryQuery levert een sneller, nauwkeuriger en directer "promptbaar" klinisch voorspellingsmodel dat vooral uitblinkt bij het voorspellen van zeldzame, maar kritieke medische gebeurtenissen.

EveryQuery: Zero-Shot Clinical Prediction via Task-Conditioned Pretraining over Electronic Health Records

Het Grote Probleem: De "Voorspeller" die te traag is

De Oplossing: EveryQuery (De "Snelle Vraag-Antwoord Machine")

Waarom is dit zo geweldig? (De 3 Voordelen)

Wat is er mis? (De beperking)

Conclusie

Probleemstelling

Methodologie: EveryQuery

Kernbijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning

AnchorNote: Exploring Speech-Driven Spatial Externalization for Co-Located Collaboration in Augmented Reality

Your Robot Will Feel You Now: Empathy in Robots and Embodied Agents

FIGURA: A Modular Prompt Engineering Method for Artistic Figure Photography in Safety-Filtered Text-to-Image Models

Measuring Research Convergence in Interdisciplinary Teams Using Large Language Models and Graph Analytics