Realizing Common Random Numbers: Event-Keyed Hashing for Causally Valid Stochastic Models

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorm complex computerspel speelt: een Agent-Based Model (ABM). In dit spel simuleren we hoe ziektes zich verspreiden in een stad, hoe mensen beslissingen nemen, of hoe een vaccinatiecampagne werkt. Om te weten of een vaccin echt werkt, spelen we het spel twee keer:

De "normale" versie: Niemand is gevaccineerd.
De "interventie" versie: Iedereen (of een groep) krijgt het vaccin.

Om een eerlijk oordeel te vellen, willen we de twee versies vergelijken. Maar omdat het spel vol zit met toeval (wie wordt ziek, hoe lang duurt de incubatie?), willen we dat de "toevalsrolletjes" in beide versies precies hetzelfde zijn. Dit heet in de vakwereld Common Random Numbers (CRN). Het idee is: "Als we dezelfde toevalsrolletjes gebruiken, zien we dan echt het effect van het vaccin, of is het gewoon geluk?"

Het probleem, zoals deze paper uitlegt, is dat de huidige manier waarop computers die toevalsrolletjes genereren, een grote fout bevat. Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen.

1. De Oude Manier: De "Koffieautomaat" (Stateful PRNG)

Stel je een koffieautomaat voor in een kantoor. Deze machine heeft een intern geheugen (een state).

Je drukt op knop A (een persoon wordt ziek). De machine geeft kopje nummer 1.
Je drukt op knop B (die persoon moet nu een incubatietijd berekenen). De machine geeft kopje nummer 2.
Je drukt op knop C (een andere persoon wordt getest). De machine geeft kopje nummer 3.

Het probleem:
Stel je nu voor dat je in de "vaccin-versie" van het spel een persoon vaccineert. Door het vaccin wordt die persoon niet ziek.

In de normale versie: De persoon werd ziek -> er werd een kopje "incubatie" gedraaid (kopje 2) -> de volgende persoon kreeg kopje 3.
In de vaccin-versie: De persoon werd niet ziek -> er wordt geen kopje "incubatie" gedraaid -> de volgende persoon krijgt direct kopje 2!

De ramp:
De tweede persoon krijgt in de vaccin-versie een heel ander "toevalsgetal" (kopje 2) dan in de normale versie (kopje 3).
Dit betekent dat we de twee versies niet meer eerlijk vergelijken. Het is alsof je twee auto's vergelijkt, maar in de ene versie heb je per ongeluk de banden van de andere auto gebruikt. De "toevalsrolletjes" zijn verschoven door de volgorde van gebeurtenissen, niet door de gebeurtenissen zelf.

De auteurs noemen dit een execution-path dependency: de toevalsrolletjes hangen af van hoe het programma "loopt", niet van wie of wat er gebeurt. Dit maakt het onmogelijk om eerlijke conclusies te trekken over individuele oorzaken.

2. De Nieuwe Oplossing: De "Naamplaatjes" (Event-Keyed Hashing)

Hoe lossen we dit op? We moeten stoppen met het gebruiken van een volgorde (1, 2, 3...) en beginnen met het gebruik van naamplaatjes.

Stel je voor dat elke gebeurtenis in je spel een uniek naamplaatje heeft, zoals een paspoortnummer.

Gebeurtenis: "Persoon 1 wordt ziek op dag 3". Naamplaatje: ID-1-Dag3.
Gebeurtenis: "Persoon 2 wordt getest op dag 3". Naamplaatje: ID-2-Dag3.

In plaats van te vragen aan de koffieautomaat: "Geef me het volgende kopje", vragen we: "Geef me het kopje dat hoort bij naamplaatje ID-2-Dag3".

Waarom werkt dit?

In de normale versie: Persoon 1 wordt ziek. De machine draait het kopje voor ID-1-Dag3. Persoon 2 krijgt het kopje voor ID-2-Dag3.
In de vaccin-versie: Persoon 1 wordt niet ziek. De machine draait geen kopje voor ID-1-Dag3 (want die gebeurtenis is er niet). Maar! De machine geeft Persoon 2 exact hetzelfde kopje voor ID-2-Dag3 als in de normale versie.

De volgorde maakt niet meer uit. Of er nu 100 of 101 kopjes vooraf zijn gedraaid, het kopje voor Persoon 2 blijft hetzelfde omdat het aan zijn naamplaatje is gekoppeld, niet aan zijn plek in de rij.

3. De Diepere Betekenis: Wat is "Hetzelfde Toeval"?

De paper gaat nog een stap verder. Het stelt een belangrijke vraag: "Wat betekent het eigenlijk om 'dezelfde toeval' te hebben?"

Stel je voor dat een patiënt (Patiënt A) een arts ontmoet.

Optie A (De "Tijdsplek" aanpak): Het toeval hangt vast aan het moment en de plek. "De patiënt ontmoette iemand op dinsdag om 10:00." Als de arts verandert (van dokter Jan naar dokter Piet), is het toeval nog steeds hetzelfde, omdat het een afspraak op dat tijdstip was.
Optie B (De "Persoonlijke" aanpak): Het toeval hangt vast aan de specifieke relatie. "De patiënt ontmoette dokter Jan." Als dokter Jan wegvalt en dokter Piet komt, is het toeval anders, want het is een andere relatie.

De auteurs zeggen: Jij als onderzoeker moet kiezen. Je moet bewust beslissen wat je "dezelfde gebeurtenis" noemt.

De oude software (de koffieautomaat) nam dit voor je uit handen, maar deed het op een verkeerde manier (gebaseerd op de rij volgorde).
De nieuwe software (de naamplaatjes) dwingt je om bewust te kiezen: "Voor dit experiment beschouw ik deze twee situaties als hetzelfde toeval."

Samenvatting in één zin

Deze paper zegt: "We gebruiken al te lang computers die toeval genereren op basis van 'wie er eerst komt', wat leidt tot oneerlijke vergelijkingen. We moeten overstappen op computers die toeval genereren op basis van 'wie of wat er precies gebeurt', zodat we eerlijk kunnen zien wat het echte effect van een ingreep is, zonder dat de volgorde van gebeurtenissen de resultaten verpest."

De kernboodschap:
Gebruik Event-Keyed Hashing (naamplaatjes voor toeval) in plaats van Stateful PRNGs (een volgorde die verschuift). Dit zorgt ervoor dat je simulaties wetenschappelijk eerlijk zijn en dat je echt kunt zeggen: "Dit effect komt door het vaccin, niet omdat de computer een andere toevalsrolletjes-rij heeft gebruikt."

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het artikel "Realizing Common Random Numbers: Event-Keyed Hashing for Causally Valid Stochastic Models" in het Nederlands.

Titel: Realisatie van Gemeenschappelijke Random Numbers: Event-gebaseerde Hashing voor Causaal Geldige Stochastische Modellen

Auteurs: Vince Buffalo, Carl A. B. Pearson en Daniel Klein
Datum: 13 maart 2026

1. Het Probleem: Causale Incoherentie in Agent-gebaseerde Modellen (ABM's)

Agent-gebaseerde modellen (ABM's) worden veel gebruikt om causale behandelingseffecten te schatten via gepaarde contrafactuele simulaties (bijv. "wat zou er gebeuren als we een vaccin zouden toepassen?"). Een standaardtechniek om de variantie van deze schattingen te verkleinen, is het gebruik van Common Random Numbers (CRN's). Hierbij worden dezelfde willekeurige invoerwaarden gedeeld tussen een basisscenario en een interventiescenario om de covariantie tussen de uitkomsten te maximaliseren.

De Kernproblematiek:
In de praktijk worden CRN's geïmplementeerd door dezelfde basisseed te hergebruiken voor een stateful pseudorandom number generator (PRNG) (zoals Mersenne Twister). Dit systeem werkt echter op basis van een uitvoeringspad-afhankelijke (execution-path-dependent) volgorde van getallen.

Het mechanisme: Een stateful PRNG verplaatst zijn interne staat bij elke aanroep. Als een interventie de controlestroom van de simulatie verandert (bijv. door een voorwaarde die soms wordt uitgevoerd en soms niet), verandert het aantal getrokken willekeurige getallen vóór een bepaald toekomstig gebeurtenis.
Het gevolg: Zelfs met dezelfde seed, krijgt een identiek gemodelleerd gebeurtenis (bijv. "agent A infecteert agent B") in het interventiescenario een ander willekeurig getal dan in het basisscenario, omdat de index in de getallenreeks is verschoven.
Causale impact: Dit creëert een fundamentele mismatch tussen de wetenschappelijke causale structuur die het model moet coderen en de programmeertaal-structuur die door de PRNG wordt opgelegd. Volgens de theorie van Structural Causal Models (SCM) moeten exogene ruisvariabelen ( $U$ ) stabiel blijven over verschillende interventiescenario's; alleen de structurele vergelijkingen mogen veranderen. Stateful PRN's schenden dit principe, waardoor individuele contrafactuele vergelijkingen (bijv. het individuele behandelingseffect) ongedefinieerd en causaal incoherent worden.

2. Methodologie en Theoretisch Kader

De auteurs formaliseren het probleem en de oplossing binnen het kader van Structural Causal Models (SCM) van Judea Pearl.

Definitie van Execution Invariance: Een ABM-implementatie is "execution-invariant" als voor elke stochastische gebeurtenis $e$ die in twee scenario's voorkomt, dezelfde waarde voor exogene ruis ( $U_e$ ) wordt gebruikt, ongeacht de uitvoeringsgeschiedenis. Formeel: $U_e = g(s, \text{event\_ide})$ , waarbij $s$ de seed is en $\text{event\_ide}$ een stabiele identifier van de gebeurtenis.
Analyse van Stateful PRN's: De auteurs tonen aan dat stateful PRN's de ruisidentiteit laten afhangen van de draw index (het aantal eerdere calls) in plaats van de gebeurtenisidentiteit. Dit introduceert een spuriöze causale pad (bijv. de infectie van persoon 1 beïnvloedt de ruis voor persoon 2 via de verschuiving van de index), wat niet bestaat in het wetenschappelijke model.
De Oplossing: Event-Keyed Random Number Generation:
De voorgestelde remedie combineert counter-based PRN's (zoals Philox of Threefry) met event-identifiers.
- Counter-based PRN's: Dit zijn functionele algoritmen zonder interne staat. De output is puur een functie van de invoer: $R = \text{Hash}(\text{seed}, \text{counter})$ .
- Event-Keys: De "counter" wordt vervangen door een unieke identifier voor de specifieke gemodelleerde gebeurtenis (bijv. een hash van het tijdstip, de agent-ID en het type gebeurtenis).
- Mechanisme: Omdat de output alleen afhangt van de input-argumenten, zal dezelfde gebeurtenis (met dezelfde identifier) altijd hetzelfde willekeurige getal genereren, ongeacht of er voorafgaand aan andere gebeurtenissen zijn uitgevoerd of niet. Dit herstelt de execution invariance.

3. Belangrijkste Bijdragen

Formalisatie van een Fundamenteel Tekortkoming: De auteurs tonen aan dat het gebruik van stateful PRN's in ABM's niet slechts een technische nuance is, maar een fundamentele schending van de causale geldigheid van contrafactuele vergelijkingen. Ze bewijzen dat dit leidt tot "causally incoherent" resultaten, zelfs als de mechanische specificatie van het model correct is.
Definitie van Execution Invariance: Ze introduceren een strikte definitie voor wat nodig is om een ABM te laten fungeren als een geldig SCM onder interventies: de mapping van gebeurtenisidentiteit naar exogene ruis moet onafhankelijk zijn van de uitvoeringsgeschiedenis.
Ontwerprichtlijnen voor Event-Keys: Het artikel biedt praktische richtlijnen voor het definiëren van stabiele event-identifiers. Dit is een substantiële modeleringskeuze (niet geautomatiseerbaar) die bepaalt wat "dezelfde gebeurtenis" betekent in verschillende wereldjes.
- Voorbeeld: Bij het modelleren van infecties in een ziekenhuis kan een "slot-keyed" benadering de kans koppelen aan een tijdsblok (onafhankelijk van wie de arts is), terwijl een "dyad-keyed" benadering de kans koppelt aan de specifieke arts-patiënt combinatie. De keuze bepaalt de contrafactuele betekenis.
Technische Implementatie: Het presenteren van een concrete implementatie (Listing 2) die toont hoe event-keyed hashing de verschuiving van getallenreeksen elimineert, zelfs bij conditionele uitvoering (bijv. incubatietijden die alleen worden getrokken bij infectie).

4. Resultaten en Gevolgen

Wiskundige Validatie: De auteurs tonen aan dat stateful PRN's leiden tot een endogene draw-index ( $K_e$ ), waardoor de ruis voor een gebeurtenis afhankelijk wordt van eerdere uitkomsten. Dit schendt de onafhankelijkheid van exogene variabelen in SCM's.
Statistische Efficiëntie: Door execution invariance te herstellen, wordt de variantiereductie van CRN's voorspelbaar en optimaal. Bij stateful PRN's kan de covariantie zelfs negatief worden, wat de variantie verhoogt in plaats van verlaagt.
Causale Coherentie: Met event-keyed hashing worden individuele behandelingseffecten (ITE) weer goed gedefinieerd. Men vergelijkt nu echt "dezelfde agent onder verschillende behandelingen" in plaats van "dezelfde agent met verschillende onderliggende ruisrealisaties".
Bijkomende Analyses: De methode verbetert de betrouwbaarheid van gevoeligheidsanalyses, variantie-decompositie (Sobol-indexen) en mediatie-analyses, die allemaal afhankelijk zijn van stabiele toewijzing van ruisvariabelen.

5. Betekenis en Toekomstperspectief

Dit artikel vormt een paradigmaverschuiving voor de gemeenschap van agent-gebaseerde modellering:

Van Optimalisatie naar Fundamentele Vereiste: Execution invariance moet niet worden gezien als een prestatie-optimalisatie, maar als een kernvereiste voor causaal geldige simulatie-inferentie.
Parallellisatie en Reproduceerbaarheid: Counter-based PRN's zijn van nature paralleliseerbaar (geen gedeelde staat) en maken debugging en reproduceerbaarheid eenvoudiger, omdat elke getrokken waarde een zuivere functie is van zijn invoer.
Modeleringsverantwoordelijkheid: Het artikel benadrukt dat het definiëren van event-identifiers een bewuste wetenschappelijke keuze is die de onderzoekers moeten maken. Het maakt expliciet wat voorheen impliciet en vaak onbedoeld werd bepaald door de volgorde van de code.

Conclusie:
De auteurs concluderen dat de combinatie van counter-based PRN's en event-keyed hashing de enige manier is om de causale coherentie van ABM's te waarborgen. Dit stelt onderzoekers in staat om de volledige kracht van contrafactuele redenering te benutten, waarbij de "onzichtbare" ruis consistent blijft over verschillende interventiescenario's, precies zoals vereist door de theorie van causale inferentie.

Realizing Common Random Numbers: Event-Keyed Hashing for Causally Valid Stochastic Models

1. De Oude Manier: De "Koffieautomaat" (Stateful PRNG)

2. De Nieuwe Oplossing: De "Naamplaatjes" (Event-Keyed Hashing)

3. De Diepere Betekenis: Wat is "Hetzelfde Toeval"?

Samenvatting in één zin

Titel: Realisatie van Gemeenschappelijke Random Numbers: Event-gebaseerde Hashing voor Causaal Geldige Stochastische Modellen

1. Het Probleem: Causale Incoherentie in Agent-gebaseerde Modellen (ABM's)

2. Methodologie en Theoretisch Kader

3. Belangrijkste Bijdragen

4. Resultaten en Gevolgen

5. Betekenis en Toekomstperspectief

Meer zoals dit

Efficient semiparametric estimation of marginal treatment effects with genetic instrumental variables

Functional Bias and Tangent-Space Geometry in Variational Inference

Shape-constrained density estimation with Wasserstein projection

Estimation of heterogeneous principal effects under principal ignorability

Uncertainty quantification for critical energy systems during compound extremes via BMW-GAM