Interventional Time Series Priors for Causal Foundation Models

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ De Grote Uitdaging: Waarom weten we niet wat er zou gebeuren?

Stel je voor dat je een superintelligente robot wilt bouwen die de toekomst kan voorspellen. Maar niet zomaar voorspellen, zoals "het gaat morgen regenen". Nee, je wilt dat de robot antwoorden geeft op vragen als: "Wat zou er gebeuren als ik nu een paraplu zou openen?" of "Wat als ik de prijs van koffie verdubbel?"

In de wereld van data noemen we dit causale inferentie: het begrijpen van oorzaak en gevolg.

Het probleem is dat we in het echte leven meestal alleen maar kijken naar wat er gebeurd is (observaties). We zien mensen met paraplu's in de regen, maar we hebben nooit gezien wat er gebeurt als we allemaal plotseling een paraplu openen terwijl het droog is. Zonder die "wat-zou-er-gebeurd-zijn" data (interventies) kan een slimme AI niet leren wat de echte oorzaak is. Ze leert alleen patronen, en dat is gevaarlijk.

🛠️ De Oplossing: CausalTimePrior

De auteurs van dit paper (Dennis Thumm en Ying Chen) hebben een oplossing bedacht. Ze hebben een virtuele fabriek gebouwd die synthetische tijdsreeksen (data over tijd) maakt. Maar dit is geen gewone fabriek.

Stel je deze fabriek voor als een gigantisch, onzichtbaar universum dat ze zelf hebben gecreëerd. In dit universum:

Ze weten precies hoe alles werkt (de "waarheid").
Ze kunnen dingen veranderen (interveniëren) en kijken wat er gebeurt.
Ze doen dit duizenden keren per seconde.

Deze fabriek heet CausalTimePrior.

🎲 Hoe werkt deze "Virtuele Fabriek"?

De fabriek maakt twee soorten scenario's voor elk experiment:

Het "Normale" Leven (Observatie): De robot kijkt naar een reeks gebeurtenissen. Bijvoorbeeld: "De temperatuur stijgt, en daarna stijgt het ijsverbruik."
Het "Wat-Zou-Gebeurd-Zijn" Leven (Interventie): De robot mag nu ingrijpen. De fabriek zegt: "Oké, laten we de temperatuur niet laten stijgen, maar vasthouden op 20 graden. Wat gebeurt er nu met het ijsverbruik?"

De magie zit in de diversiteit van deze fabriek:

Niet-lineaire magie: Soms is de wereld niet rechtlijnig. Een klein beetje regen kan een overstroming veroorzaken, maar een beetje meer regen misschien niet (net als een emmer die vol is). De fabriek maakt deze complexe, kromme relaties na.
Scheuren in de realiteit (Regime-switching): Soms verandert de wereld plotseling. Stel je voor dat je een auto rijdt, en dan schakelt je motor ineens over op een andere manier van werken. De fabriek kan deze "regime-switches" simuleren, waar de regels van oorzaak en gevolg plotseling veranderen.
Alle soorten ingrepen: Je kunt de robot dwingen om iets te doen (hard), iets een beetje aan te passen (soft), of iets te veranderen dat langzaam opbouwt (tijd-variërend).

🤖 De Leerling: De "Foundation Model"

Nu hebben ze deze fabriek. Wat doen ze er mee? Ze trainen een AI-robot (een zogenaamde Prior-Data Fitted Network of PFN) op de output van deze fabriek.

Stel je voor dat je een student wilt leren rijden.

Oude manier: Je geeft de student een boek met theorie en laat hem daarna een keer rijden.
Nieuwe manier (Foundation Model): Je laat de student 100.000 keer in een simulator rijden. Hij ziet duizenden verschillende situaties, maakt duizenden fouten, en leert hoe de auto reageert op elke mogelijke ingreep.

Doordat de robot zo veel gevarieerde "wat-zou-er-gebeurd-zijn" scenario's heeft gezien, leert hij de fundamentele regels van oorzaak en gevolg.

🚀 Het Resultaat: In-Context Leren

Het mooiste deel is wat er gebeurt als je deze getrainde robot in de echte wereld zet. Je hoeft hem niet opnieuw te trainen!

Je kunt de robot een nieuwe, onbekende situatie geven (bijvoorbeeld: data van een nieuwe stad of een nieuwe markt) en zeggen: "Kijk naar deze data. Wat zou er gebeuren als we hier X doen?"

Omdat de robot in zijn "hoofd" (zijn training) duizenden verschillende causale structuren heeft gezien, kan hij direct een antwoord geven. Hij hoeft niet te gokken op basis van correlaties (zoals "ijsverbruik en temperatuur gaan samen omhoog"), maar hij begrijpt dat de temperatuur de oorzaak is van het ijsverbruik. Als je de temperatuur verandert, verandert het ijsverbruik. Als je het ijsverbruik verandert (bijvoorbeeld door de prijs te verhogen), verandert de temperatuur niet.

🌟 Samenvatting in één zin

De auteurs hebben een virtuele universum-fabriek gebouwd die duizenden verschillende "wat-zou-er-gebeurd-zijn" scenario's genereert, zodat ze een AI kunnen trainen die niet alleen patronen ziet, maar echt begrijpt wat de oorzaak is van een gebeurtenis, zelfs in complexe, veranderende tijdsreeksen.

Dit opent de deur naar slimme systemen die ons kunnen helpen beslissingen te nemen in de echte wereld, van het beheer van energienetten tot het voorspellen van effecten van medische behandelingen, zonder dat we eerst jarenlang data hoeven te verzamelen.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Interventional Time Series Priors for Causal Foundation Models" in het Nederlands.

Titel: Interventional Time Series Priors for Causal Foundation Models

Auteurs: Dennis Thumm en Ying Chen (National University of Singapore)
Context: ICLR 2026 Workshop on Time Series in the Age of Large Models (TSALM)

1. Het Probleem

Hoewel Prior-Data Fitted Networks (PFNs) succesvol zijn toegepast als foundation modellen voor causale inferentie op tabulaire data, is hun uitbreiding naar tijdsreeksen (time series) beperkt door een fundamenteel gebrek aan geschikte synthetische data-generatoren.

Het tekort aan interventiedata: Bestaande benchmarks voor tijdsreeksen (zoals CausalTime, TimeGraph, CauseMe) genereren weliswaar data met een waarheid (ground-truth) over causale grafieken, maar leveren uitsluitend observational data op.
De noodzaak van interventies: Om een model te trainen dat causale effecten kan schatten (de kern van causale inferentie), zijn gepaarde datasets nodig die zowel observaties als interventies (experimentele ingrepen) bevatten. Zonder deze interventiedoelen kunnen modellen niet leren voorspellen wat er gebeurt onder een do-operator (een causale ingreep).
Beperkingen van bestaande oplossingen: Bestaande generatoren met interventiesteun zijn vaak beperkt tot lineaire mechanismen, statische interventies, of vereisen specifieke trainingssets in plaats van een universele prior te bieden.

2. Methodologie: CausalTimePrior

De auteurs introduceren CausalTimePrior, een principieel framework voor het genereren van synthetische Temporale Structurele Causale Modellen (TSCMs) met gepaarde observationele en interventionele tijdsreeksen.

A. Het TSCM Framework

Het model baseert zich op het Dynamic Structural Causal Model (DSCM) framework voor discrete tijd:

Grafiekstructuur ( $G$ ): Een tijdvertraagde DAG (Directed Acyclic Graph) met instantane kanten ( $G_0$ ) en vertraagde kanten ( $G_k$ ) voor lags $k$ .
Structurele vergelijkingen ( $F$ ): $X_t^{(i)} = f_i(Pa(X_t^{(i)})) + \epsilon_t^{(i)}$ . De mechanismen $f_i$ kunnen niet-lineair zijn.
Ruis ( $\epsilon$ ): Getrokken uit diverse verdelingen (Gaussisch, Uniform, Laplace).

B. De Prior Distributie ( $\Pi$ )

De prior samplet TSCMs met de volgende eigenschappen:

Grafiek Prior: Variabele aantallen ( $N$ ), lags ( $K$ ) en kantkansen. Instantane kanten worden gegenereerd via een Erdős-Rényi-model (met topologische ordening voor acycliciteit), terwijl vertraagde kanten een afnemende waarschijnlijkheid hebben.
Mechanisme Prior: Een mix van lineaire en niet-lineaire autoregressieve mechanismen. Activatiefuncties omvatten $\{id, \sin, \cos, \tanh, | \cdot |, (\cdot)^2, \exp(-|\cdot|)\}$ om een breed scala aan dynamieken te dekken.
Interventietypes: Het framework ondersteunt drie soorten interventies:
- Hard Interventies: Vervangt een variabele door een constante waarde (snijdt inkomende kanten door).
- Soft Interventies: Voegt een verschuiving ( $\delta$ ) toe aan het mechanisme.
- Tijdsvariabele Interventies: De interventiewaarde volgt een profiel (stap, helling, sinus, of getraceerde baan).

C. Regime-Switching Priors

Een unieke bijdrage is de ondersteuning voor regime-switching dynamics. Hierbij veranderen de causale structuren en mechanismen over tijd, gestuurd door een Markov-keten. Dit simuleert structurele breuken in real-world data, waarbij causaliteit niet statisch is.

D. Data Generatie Pipeline

Voor elk trainingsvoorbeeld:

Sample een TSCM ( $S$ ) uit de prior.
Definieer interventies (doel, tijd, type, waarde).
Genereer de observationele reeks ( $X_{obs}$ ) via forward simulatie.
Genereer de interventionele reeks ( $X_{int}$ ) onder de do-operator.
Vorm een trainings-tuple: $(X_{obs}, \text{interventie-spec}, \text{uitkomst})$ .

3. Belangrijkste Bijdragen

Eerste Prior voor TSCMs met Interventies: CausalTimePrior is het eerste framework dat synthetische TSCMs genereert met zowel observationele als interventionele data, specifiek ontworpen voor het trainen van causale foundation modellen.
Regime-Switching Integratie: Het is de eerste generator die regime-switching dynamiek (veranderende causale structuren) combineert met generatie van interventionele data.
Diversiteit: Ondersteuning voor niet-lineaire mechanismen, verschillende interventietypes (hard, soft, time-varying) en complexe grafiekstructuren.
Validatie van PFN: Bewijs dat PFNs getraind op deze prior in staat zijn om causale effecten te schatten uit observationele data alleen (in-context learning).

4. Resultaten en Experimenten

De auteurs trainden een eenvoudige PFN (2-laags GRU) op 100.000 gegenereerde TSCMs en evalueerden deze op 1.000 gehouden TSCMs.

Structuurleer: Het model leert onderscheid te maken tussen causale en niet-causale relaties.
- Voor interveniërende queries (de variabele die direct wordt beïnvloed) is de voorspelling/ground-truth ratio 0.95.
- Voor downstream queries (variabelen die causaal verbonden zijn) is de ratio 0.85.
- Voor niet-causale queries (geen causaal pad) is de ratio 0.46, wat aangeeft dat het model correct voorspelt dat er geen effect is (dicht bij nul), terwijl de ground-truth door eigen dynamiek niet-nul kan zijn.
Vergelijking met Baselines:
- De PFN bereikt een vergelijkbare RMSE (Root Mean Square Error) als een per-dataset gefit Vector Autoregression (VAR) model, maar vereist geen per-dataset training (zero-shot/in-context).
- Het presteert aanzienlijk beter dan VAR bij het onderscheiden van correlatie van causaliteit. In gevallen met sterke spurious correlaties (schijnbare correlaties zonder causaal verband) maakt VAR grote fouten, terwijl de PFN het causale verloop correct identificeert.
Ablatie: Training met een mix van interventietypes (hard, soft, time-varying) leidt tot betere nauwkeurigheid in het voorspellen van de richting en grootte van effecten dan training alleen op harde interventies.
Out-of-Distribution (OOD): Het model degradeert bij grotere en dichter verbonden grafieken dan tijdens training, maar behoudt nog steeds een basisbegrip van causale structuur.

5. Betekenis en Toekomstperspectief

Dit werk opent de weg naar foundation modellen voor tijdsreeks-causaliteit.

Impact: Het lost het kritieke probleem op van het ontbreken van synthetische trainingsdata met interventies voor tijdsreeksen. Dit maakt het mogelijk om modellen voor te trainen die direct toepasbaar zijn op nieuwe datasets zonder specifieke fine-tuning.
Toekomst: De auteurs plannen uitbreidingen naar continue-tijd dynamiek (via SDEs/Neural ODEs), het incorporeren van expliciete canonieke structuren (confounders, mediators) in de prior, en validatie op semi-synthetische datasets afgeleid van real-world data.

Kortom, CausalTimePrior biedt de ontbrekende schakel om causale foundation modellen voor tijdsreeksen te realiseren, waardoor modellen kunnen leren redeneren over "wat zou er gebeurd zijn als..." (counterfactuelen) in dynamische, niet-lineaire systemen.