Operationalizing Longitudinal Causal Discovery Under Real-World Workflow Constraints

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, complexe machine probeert te begrijpen: het Japanse nationale gezondheidssysteem. Elke jaar worden miljoenen mensen onderzocht, krijgen ze advies en worden hun gezondheidsgegevens opgeschreven. De onderzoekers van dit paper willen weten: Wat veroorzaakt wat? Bijvoorbeeld: Leidt het krijgen van gezondheidsadvies echt tot een lagere bloeddruk of een gezonder gewicht?

Het probleem is dat deze data niet zomaar uit de lucht vallen. Ze worden gegenereerd door een strenge, vaste workflow (een vast proces). Mensen komen op een bepaalde dag, doen bepaalde tests, krijgen dan advies, en een jaar later komen ze weer terug.

De onderzoekers zeggen: "Als we gewoon een standaard computerprogramma gebruiken om patronen te zoeken, krijgen we de verkeerde antwoorden. Waarom? Omdat het programma niet begrijpt hoe de data is verzameld."

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Blinde" Detective

Stel je voor dat je een detective bent die een moord moet oplossen, maar je hebt alleen een lijst met getuigenissen die in willekeurige volgorde zijn geschreven. Je ziet dat iemand een mes vasthield (A) en dat er bloed op de vloer ligt (B).

De oude manier: Een standaard algoritme denkt: "A en B gaan samen, dus A veroorzaakt B." Maar wat als B eigenlijk de oorzaak was van A? Of wat als er een derde factor was?
De realiteit: In de gezondheidszorg weten we dat het proces een volgorde heeft. Eerst komt de patiënt, dan de arts, dan de test, dan het advies. Als je die volgorde negeert, is het alsof je probeert een auto te repareren zonder te weten welke onderdelen eerst gemonteerd moeten worden. Je krijgt een "wolk" van mogelijke oplossingen, maar geen van hen is betrouwbaar.

2. De Oplossing: De "Workflow-Filter"

De onderzoekers hebben een nieuwe aanpak bedacht. In plaats van een nieuw, super-complex algoritme te bouwen, hebben ze een speciale bril op het bestaande algoritme gezet.

De Metafoor: Stel je voor dat je een enorme zee van mogelijke verbanden hebt (zoals een doolhof). De "workflow" (het vaste proces van de gezondheidszorg) fungeert als een muur die je in het doolhof bouwt.
Hoe het werkt: Ze zeggen tegen de computer: "Je mag alleen zoeken in de paden die logisch zijn binnen het vaste proces. Je mag niet denken dat een test uit 2023 een oorzaak kan zijn van een advies uit 2020."
Het resultaat: Door deze "workflow-muren" te bouwen, verdwijnt de verwarring. Het algoritme hoeft niet meer te gissen over onmogelijke scenario's. Het kan zich focussen op de paden die echt mogelijk zijn.

3. De "Block-Structuur": De Keuken van de Data

De data is een mix van verschillende soorten dingen: cijfers (zoals gewicht), ja/nee-vragen (rookt u?) en medicatie.

De Metafoor: Stel je een keuken voor waar je een gerecht maakt. Je hebt ingrediënten die je eerst moet snijden (vragenlijst), dan moet je ze in de pan gooien (medicatie), en pas daarna meet je de temperatuur (bloeddruk).
De aanpak: De onderzoekers zeggen: "We groeperen de ingrediënten in blokken. Je mag niet snijden nadat je hebt gemeten." Ze zorgen ervoor dat de computer begrijpt dat bepaalde dingen (zoals medicatie en levensstijl) over een heel jaar worden gemeten, terwijl andere dingen (zoals bloeddruk) op één specifiek moment worden gemeten. Dit voorkomt dat de computer denkt dat bloeddruk direct de oorzaak is van je rookgedrag op dat exacte moment.

4. De "Zekerheidsmeter" (Bootstrapping)

In de echte wereld is niets 100% zeker. Wat als de resultaten toeval zijn?

De Metafoor: Stel je voor dat je een koekje bakt en vraagt aan 1000 vrienden om het te proeven. Als 950 van hen zeggen "Het is lekker", dan ben je vrij zeker. Als 500 zeggen "Lekker" en 500 "Slecht", dan weet je het niet.
De aanpak: De onderzoekers laten de computer 1000 keer hetzelfde model "bakken" met willekeurige variaties in de data. Ze kijken dan: "Hoe vaak komt hetzelfde resultaat uit?" Als het resultaat elke keer hetzelfde is, geven ze een groen licht. Als het varieert, geven ze een waarschuwing. Dit zorgt voor betrouwbare antwoorden die echt gebruikt kunnen worden voor beleid.

5. Het Eindresultaat: Een "Wat-als" Simulator

Het doel is niet alleen een mooi plaatje van verbanden, maar een gereedschap voor beslissingen.

De Metafoor: Het is als een videospel-simulator voor gezondheid.
- Vraag: "Wat gebeurt er met de bloeddruk van de bevolking als we morgen iedereen een advies geven om minder te roken?"
- Antwoord: De simulator geeft een voorspelling met een zekerheidsmarge.
- Omgekeerd: "Wat moeten we doen om de gemiddelde bloeddruk met 5 punten te verlagen?" De simulator berekent welke actie nodig is.

Samenvatting in één zin

De onderzoekers hebben laten zien dat je geen nieuwe, ingewikkelde wiskunde nodig hebt om oorzaak en gevolg te vinden in grote gezondheidsdata; je moet alleen de regels van het proces (de workflow) hardop uitspreken aan de computer, zodat deze niet in de war raakt en betrouwbare, bruikbare antwoorden geeft.

Waarom is dit belangrijk?
Omdat het verschil maakt tussen "misschien werkt het wel" en "we weten nu met zekerheid dat dit advies de bloeddruk verlaagt". Het maakt causaliteit (oorzaak-gevolg) bruikbaar voor echte mensen in de echte wereld, zonder dat ze een doctoraat in wiskunde nodig hebben om de resultaten te begrijpen.

Each language version is independently generated for its own context, not a direct translation.

Titel: Operationalisering van longitudinale causale ontdekking onder real-world workflow-beperkingen

Auteurs: Tadahisa Okuda et al.
Context: Toepassing op een landelijke cohortstudie voor gezondheids screenings in Japan (107.261 personen, 429.044 persoon-jaren).

1. Het Probleem: De Kloof tussen Theorie en Implementatie

Hoewel causale ontdekking (causal discovery) de afgelopen twee decennia aanzienlijke theoretische vooruitgang heeft geboekt (bijv. via LiNGAM-algoritmen), blijft de implementatie in grote, operationele longitudinale systemen beperkt.

Het Kernprobleem: In de praktijk worden data gegenereerd door institutionele workflows (bijv. jaarlijkse gezondheidscontroles), niet door abstracte tijdsindices. Deze workflows bepalen wanneer variabelen worden gemeten, hoe blootstellingen worden toegewezen en hoe intervallen worden samengevat.
De Gevolgen: Wanneer deze workflow-gegenereerde partiële ordeningen niet formeel worden vastgelegd, omvat de ruimte van toegestane causale grafieken (DAGs) structuren die inconsistent zijn met het daadwerkelijke meetproces. Dit vergroot de zoekruimte en introduceert vermijdbare structurele ambiguïteit, vooral in panelen met een mix van discrete en continue variabelen waar de oriëntatie binnen een tijdstip vaak zwak geïdentificeerd is.
Huidige tekortkoming: Bestaande methoden vertrouwen vaak op "forward-in-time" constraints, maar dit lost het probleem niet op als de "kalendertijd" niet overeenkomt met de "causale tijd" van het institutionele proces.

2. Methodologie: Een Ontwerplaag voor Workflow-gebaseerde Beperkingen

De auteurs stellen geen nieuw optimalisatie-algoritme voor, maar introduceren een ontwerplaag (design layer) die bestaande methoden (zoals Longitudinal LiNGAM) compatibel maakt met real-world workflows. De aanpak bestaat uit vier principes:

A. Workflow-afgeleide structurele beperkingen

Institutionele volgorde en opname-eigenschappen worden gecodeerd als structurele masks (masks) die de reeks toegestane kanten (edges) in de grafiek beperken, onafhankelijk van medische domein-kennis.

Regels: Geen tijdsomkering, cross-time links beperkt tot $t-1 \to t$ , en binnen-tijdse toegankelijkheid consistent met de workflow.
Doel: Het reduceren van de admissible DAG-ruimte ( $G_{workflow} \subset G_{unconstrained}$ ) zonder subjectieve medische aannames te maken.

B. Tijdlijn-gealigneerde blokken voor gemengde panelen

Om instabiliteit in de oriëntatie van gemengde (discrete/continue) variabelen te voorkomen, worden variabelen binnen een tijdstip gegroepeerd in geordende blokken:

Interventie/Beleid: (bijv. gezondheidsadvies) komt eerst.
Discrete indicatoren: (bijv. medicatie, levensstijl) komen daarna.
Continue uitkomsten: (bijv. bloeddruk, BMI) komen het laatst.

Belangrijk: Er worden geen directe binnen-tijdse kanten toegestaan tussen medicatie en levensstijl, omdat de data de volgorde binnen hetzelfde jaar niet kan onderscheiden. Hun afhankelijkheid wordt gemodelleerd via cross-time links.

C. Uncertainty Quantification via Bootstrap

Voor operationele besluitvorming is het cruciaal om onzekerheid te kwantificeren.

Methode: Subject-level bootstrap resampling ( $B=1000$ ).
Output: Empirische verdelingen en percentiel-betrouwbaarheidsintervallen voor totale effecten (direct + indirect) met verschillende lags (0, 1, 2 jaar).

D. Dynamische Representatie voor Besluitvorming

Het geleerde model wordt niet alleen als een statische graaf gepresenteerd, maar als een lineair dynamisch systeem. Dit ondersteunt:

Forward simulation: "What-if" scenario's (wat gebeurt er met de uitkomst als we de input veranderen?).
Inverse target-setting: Welke aanpassing in de input is nodig om een specifieke toekomstige uitkomst te bereiken?

3. Experimentele Opzet en Data

Dataset: Een nationaal cohort van jaarlijkse gezondheids screenings in Japan (2020-2023).
Variabelen: 15 variabelen per tijdstip, waaronder:
- Interventie: Deelname aan gezondheidsadvies (Health-guidance).
- Uitkomsten: BMI, systolische/diastolische bloeddruk (SBP/DBP), HbA1c, LDL.
- Covariaten: Medicatie, levensstijl (roken, bewegen, alcohol), leeftijd, geslacht, en geschiedenis van deelname.
Model: Workflow-constrained Longitudinal LiNGAM. Variabelen op tijd $t=0$ worden behandeld als exogene startcondities.

4. Belangrijkste Resultaten

A. Totale Effecten van Gezondheidsadvies

De analyse toont de totale causale effecten van gezondheidsadvies op latere meetpunten:

BMI: Een significant negatief effect (verlaging) op korte termijn (lag 0), dat afzwakt op langere termijn.
Bloeddruk (SBP): Een significant negatief effect op korte termijn.
DBP: Het effect is op korte termijn niet significant, maar wordt positief op langere termijn (mogelijk door gemedieerde paden).
HbA1c en LDL: Geen statistisch significante effecten over de geobserveerde lags.
Onzekerheid: De onzekerheid (breedte van het betrouwbaarheidsinterval) neemt toe naarmate de tijdshorizon verder gaat.

B. Structurele Patronen (Motieven)

Ondanks de complexiteit van de volledige longitudinale graaf, vertonen de binnen-tijdse substructuren van de vijf continue uitkomsten een terugkerend patroon (motief) over de tijd.

De richting van de kanten tussen deze uitkomsten is consistent over de tijd, behalve de link tussen SBP en DBP, waarvan de richting varieert (weergegeven als een ongerichte link in het motief).

C. Robuustheid (Sensitiviteitsanalyses)

De resultaten zijn robuust bij:

Vervanging van BMI door andere maatstaven voor vetmassa (buikomvang, lichaamsgewicht).
Vervanging van de "deelnemers-indicator" door een "toewijzings-indicator" (gebaseerd op de regels voor kwalificatie voor het programma).
Opmerking: Bij gebruik van de toewijzings-indicator worden sommige effecten (zoals op SBP) minder uitgesproken en onzekerder, wat wijst op selectie-effecten bij de daadwerkelijke deelname.

5. Bijdragen en Significantie

Van Algoritme naar Infrastructuur: De paper verschuift de focus van het ontwikkelen van nieuwe schattingsalgoritmen naar het formuleren van een reproduceerbare ontwerplaag. Door workflow-gebaseerde beperkingen expliciet te maken, wordt de zoekruimte voor causale ontdekking verkleind zonder domeinspecifieke aannames te hoeven doen.
Operationalisatie: Het biedt een brug tussen operationele workflows en causale inferentie. De methode maakt het mogelijk om causale structuren te leren die consistent zijn met hoe data daadwerkelijk wordt gegenereerd in ziekenhuizen of overheidsinstanties.
Decision-Ready Outputs: In plaats van alleen een grafiek te leveren, produceert het systeem interpreteerbare totale effecten met kwantitatieve onzekerheid en een dynamisch model dat direct inzetbaar is voor "what-if" analyses en doelstellingen.
Schaalbaarheid: De succesvolle toepassing op een dataset van meer dan 100.000 personen bewijst dat deze aanpak schaalbaar is voor grote operationele systemen.

Conclusie

De auteurs concluderen dat het formaliseren van workflow-afgeleide constraint-klassen een noodzakelijke stap is om longitudinale causale ontdekking reproduceerbaar en inzetbaar te maken in de praktijk. Door de structuur van de data-generatie (de workflow) te respecteren in het model, wordt de interpretatie van causale relaties verbeterd en de kloof tussen theoretische causaliteit en operationele besluitvorming overbrugd.