Sequentially-Rerandomized Switchback Experiments

Dit artikel introduceert Sequentially-Rerandomized Switchback Experiments (SRSB), een nieuwe experimentele opzet voor online platformen die door periodieke herrandomisatie op basis van prognostische variabelen de nauwkeurigheid en betrouwbaarheid van beleidstests verbetert, zelfs bij beperkte eenheden, heterogeniteit en draagover effecten.

Zhenghao Zeng, Christopher Adjaho, Alonso Bucarey, Chao Qin, Ruixuan Zhang, Paul Hoban, Ramesh Johari, Stefan Wager

Gepubliceerd 2026-04-06
📖 6 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je de directeur bent van een groot online platform, zoals Airbnb of een taxi-app. Je wilt weten of een nieuwe functie (bijvoorbeeld een nieuwe manier om ritten te verdelen) echt werkt. Je kunt niet gewoon alles voor iedereen tegelijk veranderen, want als het mislukt, is dat een ramp. Dus je doet een experiment: je test de nieuwe functie bij de helft van de gebruikers en de oude functie bij de andere helft.

In de wereld van data-wetenschap noemen ze dit een A/B-test. Maar bij grote platforms is dit lastiger dan het klinkt. Hier is waarom, en wat dit nieuwe onderzoek voorstelt.

Het Probleem: De "Willekeurige" Valstrik

Stel je voor dat je twee groepen mensen hebt om te testen:

  1. Groep A krijgt de nieuwe taxi-functie.
  2. Groep B krijgt de oude functie.

In een ideale wereld zijn deze groepen exact hetzelfde. Maar in de echte wereld zijn ze dat niet.

  • Het "Parijs"-probleem: Stel, je test in Frankrijk. De regio Parijs (Île-de-France) is enorm druk en rijk. Als je per ongeluk Parijs in Groep A stopt en de rustige dorpen in Groep B, zie je een groot verschil. Maar dat komt niet door je nieuwe functie, maar omdat Parijs nu eenmaal anders is.
  • Het "Seizoenen"-probleem: De wereld verandert. In de zomer zijn er meer toeristen, in de winter minder. Als je test in de zomer bij Groep A en in de winter bij Groep B, meet je het weer, niet je functie.
  • Het "Nabije Effect": Soms heeft een actie vandaag gevolgen voor morgen. Als je een taxi-app vandaag anders instelt, kan dat invloed hebben op hoe mensen zich morgen voelen of hoe de verkeersdrukte morgen is.

De traditionele methode (gewoon willekeurig verdelen) faalt vaak hier omdat het te weinig rekening houdt met deze complexe factoren, vooral als je maar een beperkt aantal regio's hebt om mee te werken.

De Oplossing: SRSB (De "Slimme Matchmaker")

De auteurs van dit paper (van Stanford en Airbnb) hebben een nieuwe methode bedacht: Sequentially-Rerandomized Switchback Experiments (SRSB).

Laten we dit uitleggen met een analogie: Het Koken van de Perfecte Stoofpot.

Stel je wilt weten of kruiden A of kruiden B een stoofpot lekkerder maakt.

  • De oude manier (Willekeurig): Je neemt 10 potten, gooit een munt op voor elke pot (kop = kruid A, munt = kruid B). Het probleem? Misschien heb je per ongeluk 5 potten met al heel veel vlees (kruid A) en 5 met alleen groente (kruid B). Dan proef je het verschil in vlees, niet in kruiden.
  • De SRSB-methode (De Slimme Matchmaker):
    1. Je kijkt eerst naar wat je al hebt. "Hoe zwaar was de pot gisteren? Hoeveel groente zat er?"
    2. Je probeert een nieuwe verdeling te maken. "Oké, pot 1 krijgt kruid A. Maar wacht even, pot 1 had gisteren al veel vlees. Laten we pot 1 en pot 2 omwisselen zodat ze qua inhoud precies in balans zijn."
    3. Je blijft dit doen (hervallen) tot je een verdeling hebt waarbij de twee groepen perfect op elkaar lijken op basis van wat je al weet (het verleden).
    4. Pas dan voer je de test uit.

De kern van SRSB: In plaats van één keer willekeurig te verdelen en te hopen dat het goed komt, kijken ze bij elke nieuwe tijdsperiode (bijvoorbeeld elke dag of elke week) naar het verleden. Ze gebruiken die informatie om de groepen opnieuw te verdelen, zodat ze altijd eerlijk tegenover elkaar staan. Ze "herverdelingen" (rerandomize) continu tot het klopt.

Twee Scenario's: Met en Zonder "Nabije Effecten"

Het paper maakt een belangrijk onderscheid tussen twee situaties:

1. Zonder "Nabije Effecten" (Geen Carryover)

Stel, je nieuwe functie heeft alleen invloed op vandaag. Gisteren doet er niet toe.

  • Hoe het werkt: Je kijkt naar gisteren (bijv. hoeveel ritten er waren) en zorgt dat de groepen die vandaag de nieuwe functie krijgen, precies evenveel ritten hadden gisteren als de groep met de oude functie.
  • Het resultaat: Omdat de groepen zo op elkaar lijken, is het verschil dat je vandaag ziet puur door je nieuwe functie. Geen ruis, geen verwarring.

2. Met "Nabije Effecten" (Carryover)

Stel, je nieuwe functie heeft invloed op vandaag én morgen. Als je vandaag de nieuwe functie gebruikt, is de situatie morgen nog steeds beïnvloed door die keuze.

  • Het probleem: Als je simpelweg willekeurig wisselt, krijg je een chaos. Groep A heeft gisteren de nieuwe functie gehad, maar vandaag de oude. Groep B heeft het omgekeerde. Ze zijn niet meer vergelijkbaar.
  • De SRSB-oplossing (De "Blokkade"): Hier gebruiken ze een slimme truc. Ze maken twee vaste groepen:
    • De "Blijvers": Mensen die gisteren de nieuwe functie hadden en die ook vandaag houden.
    • De "Blijvers": Mensen die gisteren de oude functie hadden en die ook vandaag houden.
    • Ze zorgen dat deze twee groepen van "Blijvers" precies op elkaar lijken. Ze wisselen niet constant heen en weer voor iedereen, maar houden groepen stabiel om de "nabije effecten" te meten.

Waarom is dit geweldig?

Stel je voor dat je een racewedstrijd organiseert.

  • Traditioneel: Je laat de renners starten op willekeurige posities. Soms start de beste renner in de modder, soms in de zon. De uitslag is onbetrouwbaar.
  • SRSB: Je kijkt naar de renners. Je zorgt dat de groep die links start precies even snel is, even fit en even goed in de modder loopt als de groep die rechts start. Je doet dit elke ronde opnieuw.

Het resultaat:

  1. Minder ruis: Je ziet het echte effect van je nieuwe functie veel duidelijker.
  2. Kleinere groepen nodig: Omdat je zo slim verdeelt, hoef je niet duizenden regio's te hebben om een betrouwbaar resultaat te krijgen. Zelfs met 100 regio's kun je goede resultaten halen.
  3. Robuust: Het werkt zelfs als de wereld verandert (seizoenen, economie) of als er complexe effecten zijn.

Conclusie in één zin

Dit paper introduceert een slimme, adaptieve manier om experimenten te doen waarbij je niet blindelings willekeurig verdeelt, maar continu kijkt naar het verleden om de groepen perfect in balans te houden, waardoor je veel nauwkeuriger kunt meten of een nieuwe functie echt werkt, zelfs in een chaotische, veranderende wereld.

Ontvang papers zoals deze in je inbox

Gepersonaliseerde dagelijkse of wekelijkse digests op basis van jouw interesses. Gists of technische samenvattingen, in jouw taal.

Probeer Digest →