Variance reduction combining pre-experiment and in-experiment data

Each language version is independently generated for its own context, not a direct translation.

De Kunst van het Slimmer Meten: Hoe je A/B-testen sneller en nauwkeuriger maakt

Stel je voor dat je een grote supermarkt runt en je wilt weten of een nieuwe, kleurrijke verpakking voor een product de verkoop stimuleert. Je deelt je klanten in twee groepen: de ene groep ziet de oude verpakking (de controlegroep) en de andere ziet de nieuwe (de behandelingsgroep). Dit noemen we een A/B-test.

Het probleem is dat klanten van nature verschillend zijn. Sommigen kopen veel, anderen weinig. Soms is een klant gewoon op een goede dag. Deze natuurlijke variatie maakt het lastig om te zien of de verkoopstijging echt door de verpakking komt, of gewoon door toeval. Om dit te doorgronden, moet je heel veel mensen testen, wat tijd en geld kost.

Deze paper, geschreven door onderzoekers van de Universiteit van Berkeley en Etsy, introduceert een slimme truc om deze tests sneller en nauwkeuriger te maken zonder dat je meer mensen nodig hebt. Ze noemen het "variatiereductie", maar laten we het "ruis verwijderen" noemen.

Het oude probleem: Alleen kijken naar het verleden

Tot nu toe gebruikten bedrijven een methode genaamd CUPED of CUPAC.

Hoe het werkt: Je kijkt naar het verleden van een klant. Als iemand in het verleden al een "koper" was, verwacht je dat hij of zij dit ook nu is. Je corrigeert de huidige resultaten op basis van dit verleden.
Het nadeel: Het verleden is niet altijd een perfecte voorspeller. Wat iemand gisteren deed, zegt niet alles over wat ze vandaag doen, vooral niet als er iets nieuws in de winkel is. Het is alsof je probeert het weer van morgen te voorspellen door alleen naar de temperatuur van gisteren te kijken. Het helpt, maar het is niet perfect.

De nieuwe oplossing: Kijk ook naar het nu

De auteurs zeggen: "Wacht even, we hebben ook data over wat de klant tijdens de test doet!"
Stel je voor dat je tijdens de test ziet hoeveel minuten een klant in de winkel loopt, hoeveel producten ze bekijken of hoe vaak ze hun winkelmandje vullen. Dit zijn in-experiment data.

Het gevaar: Als je dit zomaar gebruikt, kun je in de valkuil trappen. Stel, je nieuwe verpakking maakt mensen enthousiast, waardoor ze langer in de winkel lopen. Als je dan de "langer lopen" data gebruikt om je test te corrigeren, haal je het enthousiasme (het effect van je verpakking) eruit! Je meet dan niet meer het effect van de verpakking, maar corrigeert het weg. Dit is als een scheidsrechter die de doelpunten aftrekt omdat de speler te hard heeft gelopen.

De slimme truc: De "Veilige" Metingen

De kern van deze paper is een tweestaps-methode om veilig gebruik te maken van die "live" data:

Stap 1: De Basis (CUPAC)
Je gebruikt eerst de oude methode (kijken naar het verleden) om een voorspelling te maken. Dit is je basislijn.
Stap 2: De Slimme Filter (De "Veilige" Variabelen)
Nu kijken we naar de live data (zoals "aantal producten bekeken"). De onderzoekers zeggen: "Niet alles gebruiken! Alleen die dingen gebruiken die niet door de verpakking worden beïnvloed, maar wel sterk correleren met de verkoop."
- Voorbeeld: Als je een nieuwe knop op de website zet, verandert dat misschien niet hoe snel iemand typt of hoeveel tijd ze al in de winkel zijn voordat ze op de knop klikken. Maar als ze veel items bekijken, kopen ze waarschijnlijk meer.
- De onderzoekers gebruiken een statistische test om te kijken: "Wordt dit gedrag beïnvloed door onze test?" Als het antwoord "Nee" is (of als het verschil verwaarloosbaar klein is), dan is het een veilige variabele.
Stap 3: De Combinatie
Je trekt de voorspelling van het verleden en de voorspelling van deze veilige live-data af van het eindresultaat.
- Het resultaat: Je hebt nu een veel scherpere meting. De "ruis" (de natuurlijke verschillen tussen klanten) is grotendeels verwijderd, maar het echte effect van je verpakking blijft intact.

Een Analogie: De Weervoorspelling

Stel je voor dat je de temperatuur van morgen wilt voorspellen.

Oude methode: Je kijkt alleen naar de temperatuur van gisteren. (Niet perfect, want het kan veranderen).
Gevaarlijke nieuwe methode: Je kijkt naar de temperatuur van nu, maar vergeet niet dat als je een grote verwarming aanzet (de behandeling), de temperatuur nu al stijgt. Als je die stijging corrigeert, meet je de warmte van je verwarming niet meer.
De nieuwe methode van deze paper: Je kijkt naar de temperatuur van nu, maar alleen naar de delen die niet door je verwarming worden beïnvloed. Bijvoorbeeld: de luchtvochtigheid of de windrichting. Die veranderen niet door je verwarming, maar geven wel aan of het morgen warm of koud wordt. Door deze "veilige" factoren mee te nemen, krijg je een veel nauwkeurigere voorspelling dan alleen met gisteren.

Waarom is dit belangrijk?

Snellere beslissingen: Bedrijven hoeven niet wekenlang te wachten op resultaten. Ze zien het effect sneller.
Minder geld verspillen: Je hoeft niet duizenden extra klanten te betrekken om een klein effect te zien.
Nieuwe klanten: Soms heb je geen verleden van een klant (bijvoorbeeld een nieuwe bezoeker). De oude methode werkt dan niet. De nieuwe methode werkt wel, omdat je kijkt naar wat ze nu doen.

Kortom:
De onderzoekers hebben een manier gevonden om de "live" data van een experiment te gebruiken zonder de resultaten te vervalsen. Het is alsof je een extra paar brillenglazen opzet die de wazigheid van de wereld weghalen, zodat je de echte veranderingen veel duidelijker kunt zien. Dit maakt data-gedreven beslissingen in bedrijven zoals Etsy veel scherper en efficiënter.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Online gecontroleerde experimenten (A/B-testen) zijn essentieel voor datagedreven besluitvorming. De kernuitdaging ligt in het vergroten van de gevoeligheid (sensitivity) van deze experimenten binnen vaste steekproefomvang. Dit vereist het verminderen van de variantie van de schatter voor het gemiddelde behandelingseffect (ATE).

Bestaande methoden voor variantiereductie, zoals CUPED (Controlled-experiment Using Pre-Experiment Data) en CUPAC (Control Using Predictions as Covariates), maken gebruik van pre-experiment data (historische covariaten) om de variantie te verkleinen via regressie-aanpassing. De beperking van deze methoden is dat hun effectiviteit afhangt van hoe voorspellend historische data is voor de uitkomst tijdens het experiment.

In-experiment data (covariaten verzameld tijdens het experiment) zijn vaak sterker gecorreleerd met de uitkomst en zouden theoretisch een grotere variantiereductie kunnen bieden. Het gebruik ervan is echter riskant: het aanpassen voor post-treatment variabelen die op het causale pad liggen (mediatoren) introduceert bias en verwijdert een deel van het behandelingseffect. De methodologische vraag is dus niet of post-treatment data gebruikt mag worden, maar hoe men een veilige subset identificeert die gebruikt kan worden zonder bias te introduceren.

Methodologie

De auteurs stellen een nieuw, tweestapskader voor dat zowel pre-experiment als in-experiment data combineert om de variantie van de ATE-schatting te verminderen, terwijl de consistentie behouden blijft.

1. Tweestapsbenadering:

Eerste stap (Bestaande CUPAC): Een model $\hat{f}(X)$ wordt getraind om de uitkomst $Y$ te voorspellen op basis van pre-experiment covariaten $X$ . Dit model blijft ongewijzigd ten opzichte van de standaard CUPAC-methode. De residuen worden berekend als $\hat{R}_i = Y_i - \hat{f}(X_i)$ .
Tweede stap (Lineaire aanpassing): Op deze residuen wordt een lineaire regressie uitgevoerd met geselecteerde post-treatment covariaten $Z$ . Het eindmodel is:
$\hat{\tau} = \frac{1}{n_1}\sum_{W_i=1}(Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i) - \frac{1}{n_0}\sum_{W_i=0}(Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i)$
Waarbij $\hat{\gamma}$ de regressiecoëfficiënten zijn.

2. Selectie van Post-Treatment Covariaten:
Om bias te voorkomen, moeten de geselecteerde covariaten $Z$ geen indirect effect hebben op de uitkomst via de behandeling. De auteurs vereisen niet dat $Z$ volledig onafhankelijk is van de behandeling, maar slechts dat er gemiddelde equivalentie geldt:
$E[Z | W=1] = E[Z | W=0]$
Dit is een zwakkere en praktisch toetsbare voorwaarde dan volledige onafhankelijkheid of de strenge aannames van surrogate-variabelen.

Selectieprocedure: Voor elke kandidaat-covariaat wordt een tweestalen statistische test (bijv. Mann-Whitney U-test) uitgevoerd om de nulhypothese van gelijke gemiddelden te testen. Covariaten waarbij de nulhypothese niet wordt verworpen (geen significant verschil tussen behandel- en controlegroep), worden geselecteerd.
Meta-analyse: Bij grote datasets of meerdere experimenten worden p-waarden gecombineerd (bijv. via Fisher's methode) om een stabiele set van "behandelings-ongevoelige" covariaten te identificeren.

3. Theoretische Eigenschappen:

Consistentie: De schatter is consistent en asymptotisch normaal.
Bias: De bias is volledig bepaald door de mate van onbalans in de gemiddelden van de geselecteerde covariaten. Als de gemiddelde equivalentie geldt, is de schatter onbevooroordeeld.
Variantie: De asymptotische variantie wordt gereduceerd door de variatie in de residuen die verklaard kan worden door $Z$ , zelfs na correctie voor $X$ .

Belangrijkste Bijdragen

Nieuw Kader: Een robuust en schaalbaar framework dat in-experiment data veilig integreert in variantiereductie, zonder de complexiteit van niet-lineaire aanpassingen voor post-treatment data (die vaak sterkere, ontestbare aannames vereisen).
Theoretische Onderbouwing: Het bieden van een consistente variantieschatting en het bewijzen van asymptotische normaliteit zonder de noodzaak van steekproefverdeling (sample splitting) in de eerste stap, mits het voorspellingsmodel offline is getraind.
Praktische Implementatie: Een procedure voor het selecteren van covariaten die combineert domeinkennis met statistische toetsing, waardoor het risico op het introduceren van mediators wordt geminimaliseerd.
Overbrugging van Theorie en Praktijk: Het tonen aan dat de standaardindustrie-praktijk om post-treatment data volledig te negeren onnodig restrictief is, mits de juiste selectiecriteria worden toegepast.

Empirische Resultaten

De methode werd getest op 29 online experimenten uitgevoerd bij Etsy, met als primaire uitkomst de conversierate van klanten.

Setup: De baseline was CUPAC met 117 pre-experiment covariaten (getraind met LightGBM). De nieuwe methode voegde 23 geselecteerde post-treatment covariaten toe (voornamelijk tellende data zoals aantal productbezoeken, sessieduur, etc.).
Resultaten:
- De methode leverde een consistente verbetering in voorspellingsnauwkeurigheid op (gemeten via de toename in de wortel van $R^2$ ).
- Er werd een substantiële extra variantiereductie bereikt ten opzichte van CUPAC, zelfs met veel minder covariaten (23 post-treatment vs. 117 pre-treatment).
- De variantiereductie varieerde per experiment, maar was overal significant, wat aantoont dat in-experiment data vaak sterker correleert met de uitkomst dan historische data.

Significantie

Deze paper biedt een directe oplossing voor een veelvoorkomend probleem in de industrie: het benutten van rijke, real-time data uit A/B-testen zonder de causaliteit te schaden.

Efficiëntie: Het versnelt de cyclus van data-gedreven besluitvorming door experimenten sneller significant te maken (kleinere steekproef nodig voor hetzelfde power-niveau).
Toepasbaarheid: De methode is computatief efficiënt en past naadloos in bestaande productiepijplijnen, omdat het een lineaire correctie toevoegt op bestaande modellen.
Nieuwe Paradigma: Het verlegt de focus van "geen post-treatment data gebruiken" naar "slim selecteren van post-treatment data die behandelingenongevoelig zijn". Dit opent de deur voor het gebruik van covariaten zoals sessieduur of interactiefrequentie, die vaak zeer voorspellend zijn maar tot nu toe werden genegeerd uit angst voor bias.