Sequentially-Rerandomized Switchback Experiments

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je de directeur bent van een groot online platform, zoals Airbnb of een taxi-app. Je wilt weten of een nieuwe functie (bijvoorbeeld een nieuwe manier om ritten te verdelen) echt werkt. Je kunt niet gewoon alles voor iedereen tegelijk veranderen, want als het mislukt, is dat een ramp. Dus je doet een experiment: je test de nieuwe functie bij de helft van de gebruikers en de oude functie bij de andere helft.

In de wereld van data-wetenschap noemen ze dit een A/B-test. Maar bij grote platforms is dit lastiger dan het klinkt. Hier is waarom, en wat dit nieuwe onderzoek voorstelt.

Het Probleem: De "Willekeurige" Valstrik

Stel je voor dat je twee groepen mensen hebt om te testen:

Groep A krijgt de nieuwe taxi-functie.
Groep B krijgt de oude functie.

In een ideale wereld zijn deze groepen exact hetzelfde. Maar in de echte wereld zijn ze dat niet.

Het "Parijs"-probleem: Stel, je test in Frankrijk. De regio Parijs (Île-de-France) is enorm druk en rijk. Als je per ongeluk Parijs in Groep A stopt en de rustige dorpen in Groep B, zie je een groot verschil. Maar dat komt niet door je nieuwe functie, maar omdat Parijs nu eenmaal anders is.
Het "Seizoenen"-probleem: De wereld verandert. In de zomer zijn er meer toeristen, in de winter minder. Als je test in de zomer bij Groep A en in de winter bij Groep B, meet je het weer, niet je functie.
Het "Nabije Effect": Soms heeft een actie vandaag gevolgen voor morgen. Als je een taxi-app vandaag anders instelt, kan dat invloed hebben op hoe mensen zich morgen voelen of hoe de verkeersdrukte morgen is.

De traditionele methode (gewoon willekeurig verdelen) faalt vaak hier omdat het te weinig rekening houdt met deze complexe factoren, vooral als je maar een beperkt aantal regio's hebt om mee te werken.

De Oplossing: SRSB (De "Slimme Matchmaker")

De auteurs van dit paper (van Stanford en Airbnb) hebben een nieuwe methode bedacht: Sequentially-Rerandomized Switchback Experiments (SRSB).

Laten we dit uitleggen met een analogie: Het Koken van de Perfecte Stoofpot.

Stel je wilt weten of kruiden A of kruiden B een stoofpot lekkerder maakt.

De oude manier (Willekeurig): Je neemt 10 potten, gooit een munt op voor elke pot (kop = kruid A, munt = kruid B). Het probleem? Misschien heb je per ongeluk 5 potten met al heel veel vlees (kruid A) en 5 met alleen groente (kruid B). Dan proef je het verschil in vlees, niet in kruiden.
De SRSB-methode (De Slimme Matchmaker):
1. Je kijkt eerst naar wat je al hebt. "Hoe zwaar was de pot gisteren? Hoeveel groente zat er?"
2. Je probeert een nieuwe verdeling te maken. "Oké, pot 1 krijgt kruid A. Maar wacht even, pot 1 had gisteren al veel vlees. Laten we pot 1 en pot 2 omwisselen zodat ze qua inhoud precies in balans zijn."
3. Je blijft dit doen (hervallen) tot je een verdeling hebt waarbij de twee groepen perfect op elkaar lijken op basis van wat je al weet (het verleden).
4. Pas dan voer je de test uit.

De kern van SRSB: In plaats van één keer willekeurig te verdelen en te hopen dat het goed komt, kijken ze bij elke nieuwe tijdsperiode (bijvoorbeeld elke dag of elke week) naar het verleden. Ze gebruiken die informatie om de groepen opnieuw te verdelen, zodat ze altijd eerlijk tegenover elkaar staan. Ze "herverdelingen" (rerandomize) continu tot het klopt.

Twee Scenario's: Met en Zonder "Nabije Effecten"

Het paper maakt een belangrijk onderscheid tussen twee situaties:

1. Zonder "Nabije Effecten" (Geen Carryover)

Stel, je nieuwe functie heeft alleen invloed op vandaag. Gisteren doet er niet toe.

Hoe het werkt: Je kijkt naar gisteren (bijv. hoeveel ritten er waren) en zorgt dat de groepen die vandaag de nieuwe functie krijgen, precies evenveel ritten hadden gisteren als de groep met de oude functie.
Het resultaat: Omdat de groepen zo op elkaar lijken, is het verschil dat je vandaag ziet puur door je nieuwe functie. Geen ruis, geen verwarring.

2. Met "Nabije Effecten" (Carryover)

Stel, je nieuwe functie heeft invloed op vandaag én morgen. Als je vandaag de nieuwe functie gebruikt, is de situatie morgen nog steeds beïnvloed door die keuze.

Het probleem: Als je simpelweg willekeurig wisselt, krijg je een chaos. Groep A heeft gisteren de nieuwe functie gehad, maar vandaag de oude. Groep B heeft het omgekeerde. Ze zijn niet meer vergelijkbaar.
De SRSB-oplossing (De "Blokkade"): Hier gebruiken ze een slimme truc. Ze maken twee vaste groepen:
- De "Blijvers": Mensen die gisteren de nieuwe functie hadden en die ook vandaag houden.
- De "Blijvers": Mensen die gisteren de oude functie hadden en die ook vandaag houden.
- Ze zorgen dat deze twee groepen van "Blijvers" precies op elkaar lijken. Ze wisselen niet constant heen en weer voor iedereen, maar houden groepen stabiel om de "nabije effecten" te meten.

Waarom is dit geweldig?

Stel je voor dat je een racewedstrijd organiseert.

Traditioneel: Je laat de renners starten op willekeurige posities. Soms start de beste renner in de modder, soms in de zon. De uitslag is onbetrouwbaar.
SRSB: Je kijkt naar de renners. Je zorgt dat de groep die links start precies even snel is, even fit en even goed in de modder loopt als de groep die rechts start. Je doet dit elke ronde opnieuw.

Het resultaat:

Minder ruis: Je ziet het echte effect van je nieuwe functie veel duidelijker.
Kleinere groepen nodig: Omdat je zo slim verdeelt, hoef je niet duizenden regio's te hebben om een betrouwbaar resultaat te krijgen. Zelfs met 100 regio's kun je goede resultaten halen.
Robuust: Het werkt zelfs als de wereld verandert (seizoenen, economie) of als er complexe effecten zijn.

Conclusie in één zin

Dit paper introduceert een slimme, adaptieve manier om experimenten te doen waarbij je niet blindelings willekeurig verdeelt, maar continu kijkt naar het verleden om de groepen perfect in balans te houden, waardoor je veel nauwkeuriger kunt meten of een nieuwe functie echt werkt, zelfs in een chaotische, veranderende wereld.

Each language version is independently generated for its own context, not a direct translation.

Titel: Sequentially-Rerandomized Switchback Experiments (SRSB)

Auteurs: Zhenghao Zeng, Christopher Adjaho, Alonso Bucarey, Chao Qin, Ruixuan Zhang, Paul Hoban, Ramesh Johari, en Stefan Wager.
Affiliaties: Stanford University en Airbnb.

1. Het Probleem

Grote online platformen en marktplaatsen evalueren nieuwe beleidsmaatregelen vaak via experimenten waarbij behandelingen (treatments) worden gerandomiseerd over operationele eenheden (bijv. geografische gebieden, regio's of clusters) gedurende vele tijdsperiodes. De standaard A/B-testen zijn in deze context vaak inefficiënt of onbetrouwbaar vanwege vier hoofduitdagingen:

Beperkt aantal eenheden: Het aantal operationele eenheden is vaak klein (bijv. tientallen tot honderden regio's), waardoor asymptotische inferentie die op veel eenheden leunt, niet haalbaar is.
Substantiële heterogeniteit: Eenheden verschillen sterk van elkaar (bijv. Parijs versus kleinere steden in Frankrijk). Onevenwichtigheid in deze kenmerken beïnvloedt de precisie en interpretatie.
Dynamische en niet-stationaire omgeving: Uitkomsten vertonen vaak sterke seizoensinvloeden, persistente trends of seriële correlatie.
Carryover-effecten: Behandelingen in de ene periode kunnen invloed hebben op uitkomsten in latere periodes (bijv. een advertentiecampagne die langdurige effecten heeft).

Standaard A/B-tests en zelfs simpele switchback-experimenten (waarbij eenheden periodiek wisselen tussen behandeling en controle) slagen er vaak niet in om deze factoren effectief te hanteren, wat leidt tot hoge variantie en onnauwkeurige schattingen.

2. Methodologie

De auteurs stellen Sequentially-Rerandomized Switchback Experiments (SRSB) voor. Dit is een adaptieve, design-gebaseerde aanpak die gebruikmaakt van informatie die tot op tijdstip $t$ is waargenomen om de toewijzing op tijdstip $t$ te construeren.

Kernprincipes:

Sequentiële Rerandomisatie: In plaats van eenmalige randomisatie, wordt bij elke tijdsperiode $t$ een kandidaat-toewijzing getrokken en geaccepteerd alleen als deze voldoet aan een vooraf bepaald evenwichts-criterium (balance criterion) voor prognostische variabelen.
Balancerende Variabelen ( $H_{i,t}$ ): De procedure balanceert variabelen die voorspellend zijn voor de toekomstige uitkomsten. Dit omvat vaak:
- Huidige covariaten ( $X_{i,t}$ ).
- Uitgestelde uitkomsten ( $Y_{i,t-1}$ ).
- Andere historische data.
Evenwichtsmaat: Er wordt gebruikgemaakt van de Mahalanobis-afstand tussen de gemiddelde waarden van de behandelde en controlegroep voor de balancerende variabelen. Als de afstand onder een drempelwaarde $c$ ligt, wordt de toewijzing geaccepteerd; anders wordt opnieuw gerandomiseerd.

Twee Scenario's:

Zonder Carryover-effecten:
- De uitkomst op tijdstip $t$ hangt alleen af van de behandeling op dat moment ( $W_{i,t}$ ).
- De SRSB-procedure balanceert direct tussen behandelde en controlegroepen op basis van $H_{i,t}$ .
- Inferentie: Twee methoden worden ontwikkeld:
  - Randomisatie-inferentie: Exacte p-waarden onder een scherpe nulhypothese (finite-sample validiteit).
  - Asymptotische inferentie: Gebruikmakend van een Martingale Central Limit Theorem (CLT) wanneer het aantal periodes $T$ groeit.
Met Eerste-orde Carryover-effecten:
- De uitkomst op tijdstip $t$ hangt af van de behandeling op $t$ én $t-1$ ( $W_{i,t-1}, W_{i,t}$ ).
- Standaard rerandomisatie is hier ontoereikend omdat het de "stay"-groepen (eenheden die van $t-1$ naar $t$ dezelfde behandeling behouden) niet direct balanceren.
- Oplossing: Geblokkeerde SRSB (Blocked SRSB):
  - De eenheden worden opgesplitst in blokken op basis van hun vorige behandeling ( $W_{i,t-1}$ ).
  - Binnen elk blok wordt gerandomiseerd om de "stay-treated" en "switch" groepen te balanceren.
  - Dit zorgt ervoor dat de twee "stay"-groepen (altijd behandeld vs. nooit behandeld) vergelijkbaar zijn en representatief voor de populatie.
- Inferentie: Omdat de schatter niet direct een martingaal-differentie is, wordt gebruikgemaakt van theorie voor "mixingales" en "Bernstein sums" om asymptotische normaliteit te bewijzen. Er wordt een conservatieve variantie-schatting voorgesteld op basis van voorspellingsfouten.

3. Belangrijkste Bijdragen

Nieuw Experimenteel Ontwerp: Introductie van SRSB, een adaptief ontwerp dat sequentiële rerandomisatie combineert met switchback-experimenten om variantie te reduceren in dynamische omgevingen.
Theoretische Fundamenten:
- Bewijs dat sequentiële balancering de variantie van schatters verlaagt door gebruik te maken van tijdsafhankelijkheid.
- Ontwikkeling van exacte randomisatie-inferentie voor eindige steekproeven.
- Afleiding van asymptotische normaliteit voor zowel het geval zonder carryover (via Martingale CLT) als met eerste-orde carryover (via mixingale-argumenten).
Geblokkeerde Variant voor Carryover: Een innovatieve "blocked" aanpak die specifiek is ontworpen om de stabiliteit en vergelijkbaarheid van "stay"-groepen te garanderen in aanwezigheid van carryover-effecten.
Uitgebreide Simulaties: Validatie van de methode via semi-synthetische experimenten (gebaseerd op macro-economische data van de Penn World Table) en modellen met Markov-achtige carryover-dynamiek.

4. Resultaten

De simulaties tonen aan dat SRSB aanzienlijke prestatiewinsten levert ten opzichte van standaard volledig gerandomiseerde experimenten (Complete Randomization) en niet-geblokkeerde varianten:

Vermindering van RMSE: SRSB leidt tot een substantiële vermindering van de Root Mean Squared Error (RMSE), vooral wanneer lagged outcomes en covariaten sterk voorspellend zijn.
Invloed van Correlatie: De winst neemt toe naarmate de autocorrelatie ( $\rho$ ) in de data toeneemt. Hoe voorspellender de geschiedenis is, hoe groter het voordeel van het balanceren.
Robuustheid bij Carryover: De "Blocked SRSB" variant presteert consistent beter dan niet-geblokkeerde designs in scenario's met carryover-effecten, omdat het de grootte van de "stay"-groepen stabiliseert en systematische onevenwichtigheden voorkomt.
Schaalbaarheid: De methode werkt effectief zelfs bij een klein aantal eenheden ( $N$ ) en een groot aantal periodes ( $T$ ), wat ideaal is voor platformen met beperkte geografische segmenten.

5. Betekenis en Conclusie

Dit artikel biedt een cruciale oplossing voor het evalueren van beleidsmaatregelen op grote online platformen waar traditionele A/B-tests falen door beperkte eenheden en complexe tijdsafhankelijkheid.

Praktische Impact: Bedrijven zoals Airbnb kunnen nu nauwkeurigere beslissingen nemen over productupdates en marketingcampagnes door experimenten te ontwerpen die rekening houden met historische trends en carryover-effecten.
Wetenschappelijke Bijdrage: Het werk vult een gat in de literatuur door sequentiële rerandomisatie (meestal toegepast op aankomende eenheden) te combineren met switchback-experimenten (waarbij eenheden over de tijd wisselen). Het biedt bovendien een rigoureuze theoretische onderbouwing voor inferentie in deze adaptieve, afhankelijke setting.

Samenvattend stelt SRSB onderzoekers en data scientists in staat om experimenten te ontwerpen die niet alleen randomisatie garanderen, maar ook evenwicht in cruciale prognostische variabelen, wat leidt tot betrouwbaardere en efficiëntere schattingen van treatment effects in complexe, dynamische systemen.