Variance reduction combining pre-experiment and in-experiment data

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie sind ein Chef-Entscheider in einem riesigen Online-Shop (wie Etsy). Sie wollen herausfinden, ob eine neue Funktion – sagen wir, ein roter „Kaufen"-Button – mehr Menschen dazu bringt, etwas zu kaufen als der alte blaue Button.

Um das herauszufinden, machen Sie einen A/B-Test: Die Hälfte der Besucher sieht den roten Button (Behandlungsgruppe), die andere Hälfte den blauen (Kontrollgruppe). Am Ende vergleichen Sie die Verkaufszahlen.

Das Problem dabei ist wie bei einer Wettervorhersage: Manchmal ist das Wetter einfach unvorhersehbar. Vielleicht kaufen heute einfach mehr Leute, weil es regnet, und nicht wegen des Buttons. Diese „Wetter-Schwankungen" (statistisch: Varianz) machen es schwer, den wahren Effekt des Buttons zu erkennen. Um sicher zu sein, müssten Sie normalerweise Millionen von Besuchern beobachten, was Zeit und Geld kostet.

Die Forscher in diesem Papier haben einen cleveren Trick entwickelt, um diese „Wetter-Schwankungen" herauszurechnen, ohne dass Sie mehr Leute brauchen. Hier ist die Erklärung in einfachen Worten:

1. Der alte Trick: Die Vergangenheit nutzen (CUPED/CUPAC)

Bisher haben Unternehmen versucht, das Wetter vorherzusagen, indem sie auf die Vergangenheit schauten.

Die Idee: „Wenn ein Kunde letzte Woche schon viel gekauft hat, wird er heute wahrscheinlich auch kaufen."
Die Methode: Man nutzt Daten, die vor dem Test gesammelt wurden (z. B. vergangene Käufe), um die Ergebnisse zu bereinigen.
Das Problem: Die Vergangenheit ist nicht immer ein perfekter Spiegel der Zukunft. Manchmal ändern sich die Gewohnheiten der Kunden genau dann, wenn der Test startet. Die Vorhersage ist also oft nur mittelmäßig gut.

2. Das neue Problem: Die Gegenwart nutzen (aber nicht zu viel!)

Man könnte denken: „Warum schauen wir nicht auf das, was während des Tests passiert?"

Die Idee: Wenn ein Kunde während des Tests viele Produkte ansieht oder den Warenkorb füllt, ist das ein sehr starkes Zeichen dafür, dass er bald kauft. Diese Daten sind viel besser als alte Daten!
Die Gefahr: Hier lauert eine Falle. Wenn der rote Button den Kunden dazu bringt, mehr Produkte anzusehen, dann ist das „Ansehen" ein Teil des Effekts des Buttons. Wenn wir das herausrechnen, löschen wir den Erfolg des Buttons mit weg! Das wäre wie ein Lehrer, der die Note eines Schülers berechnet, aber die Punkte für die Hausaufgaben abzieht, weil der Lehrer die Hausaufgaben erst nach der Prüfung gegeben hat. Das wäre unfair und falsch.

3. Die Lösung: Der „Zwei-Stufen-Trick"

Die Autoren dieses Papiers haben eine Methode entwickelt, die das Beste aus beiden Welten kombiniert, ohne in die Falle zu tappen. Stellen Sie sich das wie einen Zwei-Team-Prozess vor:

Team 1: Der Historiker (Die Vorhersage)

Dieses Team nutzt die alten Daten (wie bisher), um eine erste Vorhersage zu treffen. Sie sagen: „Basierend auf der Vergangenheit erwarten wir, dass dieser Kunde 50€ ausgibt."
Das ist der bekannte Teil (CUPAC).

Team 2: Der Detektiv (Die Gegenwart)

Jetzt kommt der neue Trick. Das Team schaut sich an, was der Kunde während des Tests tut. Aber sie suchen nur nach Dingen, die unabhängig vom Button sind.
Die Analogie: Stellen Sie sich vor, Sie testen einen neuen Regenschirm.
- Mediator (Gefährlich): Der Kunde hält den Schirm auf und wird dadurch trockener. Wenn wir das „Trockenheit"-Messen herausrechnen, verlieren wir den Effekt des Schirms.
- Unabhängiger Faktor (Sicher): Der Kunde trägt eine rote Jacke. Ob der Schirm rot oder blau ist, ändert nichts daran, dass er eine rote Jacke trägt. Aber vielleicht kaufen Leute in roten Jacken einfach öfter.
Der neue Algorithmus prüft mit einem mathematischen „Schnüffeltest": „Hat der rote Button die Anzahl der roten Jacken verändert?"
- Ja? Dann ist es ein Mediator. Wir nutzen es nicht.
- Nein? (Die Jackenfarbe ist in beiden Gruppen gleich verteilt). Dann ist es ein sicherer Kandidat! Wir nutzen diese Information, um die Vorhersage zu verfeinern.

Warum ist das genial?

Es ist sicher: Es wird nur das genutzt, was statistisch nachgewiesen wurde, dass es vom Test nicht beeinflusst wurde.
Es ist stark: Da die Daten aus der gleichen Zeit wie der Test stammen, sind sie viel genauer als alte Daten.
Es ist schnell: Man muss keine riesigen neuen Modelle für jeden Test bauen. Man nutzt einfach die alten Modelle und fügt ein paar „Sicherheits-Checks" für die neuen Daten hinzu.

Das Ergebnis im echten Leben

Die Autoren haben das an 29 echten Tests bei Etsy ausprobiert.

Ergebnis: Sie konnten die Unsicherheit (Varianz) so stark reduzieren, als hätten sie die doppelte Anzahl an Kunden getestet.
Vorteil: Sie brauchen weniger Zeit, um zu wissen, ob eine Änderung gut ist. Das bedeutet schnellere Entscheidungen, mehr Innovation und glücklichere Kunden.

Zusammenfassend:
Statt blind auf die Vergangenheit zu vertrauen oder gefährlich in die Gegenwart zu graben, hat dieses Papier einen Weg gefunden, die Gegenwart zu nutzen – aber nur die Teile, die wirklich neutral sind. Es ist wie ein hochpräzises Filter-System, das den „Rauschen" der Daten entfernt, damit der wahre Effekt Ihrer neuen Ideen klar und deutlich zu sehen ist.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Online-gesteuerte Experimente (A/B-Tests) sind ein Grundpfeiler datengesteuerter Entscheidungen in Unternehmen. Das primäre Ziel ist die Schätzung des durchschnittlichen Behandlungseffekts (ATE, Average Treatment Effect). Eine zentrale Herausforderung besteht darin, die Sensitivität dieser Experimente unter festen Stichprobengrößen zu erhöhen. Dies erfordert die Reduzierung der Varianz des ATE-Schätzers.

Bisherige Methoden zur Varianzreduktion, wie CUPED (Controlled-experiment Using Pre-Experiment Data) und CUPAC (Control Using Predictions as Covariates), nutzen ausschließlich Pre-Experiment-Daten (Kovariaten vor der Behandlung).

Limitierung: Die Wirksamkeit dieser Methoden hängt von der Vorhersagekraft der historischen Daten für das Ergebnis während des Experiments ab. Oft ist diese Korrelation begrenzt.
Das Dilemma: Daten, die während des Experiments gesammelt werden (In-Experiment-Daten oder post-treatment Kovariaten), sind oft stark mit dem Ergebnis korreliert und könnten die Varianzreduktion erheblich verbessern. Allerdings führt die Anpassung an beliebige post-treatment Variablen typischerweise zu Bias, da diese Variablen oft Mediatoren sind (d.h., sie liegen auf dem kausalen Pfad von Behandlung zu Ergebnis). Die Anpassung an Mediatoren würde einen Teil des Behandlungseffekts „herausrechnen" und den Schätzer verzerren.

Die zentrale Fragestellung des Papers ist daher: Wie kann man In-Experiment-Daten sicher nutzen, um die Varianz zu reduzieren, ohne den ATE-Schätzer zu verzerren?

2. Methodik

Die Autoren schlagen ein zweistufiges Framework vor, das Pre-Experiment- und In-Experiment-Daten kombiniert, wobei es auf spezifischen Annahmen zur Auswahl der Kovariaten basiert.

A. Theoretische Grundlage und Auswahlkriterium

Im Gegensatz zu klassischen Mediatoren, bei denen $Z(1) \neq Z(0)$ gilt, identifiziert das Framework Kovariaten $Z$ , die behandlungsunempfindlich sind.

Annahme: Für die ausgewählten Kovariaten gilt die Mittelwertäquivalenz (Mean Equivalence): $E[Z | W=1] = E[Z | W=0]$ .
Dies ist eine schwächere Bedingung als die vollständige Unabhängigkeit der Verteilung. Es reicht aus, dass sich die Mittelwerte der Behandlung und der Kontrollgruppe nicht signifikant unterscheiden.
Solche Variablen sind oft durch UI-Änderungen unbeeinflusst (z.B. Anzahl der Produktansichten vor dem Kauf, Sitzungsdauer), korrelieren aber stark mit dem Endergebnis.

B. Der Schätzer (Two-Stage Adjustment)

Der vorgeschlagene Schätzer $\hat{\tau}$ kombiniert einen nichtlinearen ersten Schritt mit einem linearen zweiten Schritt:

Schritt 1 (Pre-Experiment Adjustment):
Ein Modell $\hat{f}(\cdot)$ (z.B. mittels Machine Learning wie in CUPAC) wird trainiert, um das Ergebnis $Y$ basierend auf Pre-Experiment-Kovariaten $X$ vorherzusagen.
Residuen werden berechnet: $\hat{R}_i = Y_i - \hat{f}(X_i)$ .
Schritt 2 (In-Experiment Adjustment):
Die Residuen $\hat{R}_i$ werden linear auf die ausgewählten post-treatment Kovariaten $Z_i$ regressiert, um den Koeffizientenvektor $\hat{\gamma}$ zu schätzen.
Der finale Schätzer lautet:
$\hat{\tau} = \bar{Y}_1 - \bar{f}(X)_1 - \hat{\gamma}^\top \bar{Z}_1 - (\bar{Y}_0 - \bar{f}(X)_0 - \hat{\gamma}^\top \bar{Z}_0)$
wobei $\bar{Y}_w, \bar{f}(X)_w, \bar{Z}_w$ die Mittelwerte in der Behandlungsgruppe ( $w=1$ ) bzw. Kontrollgruppe ( $w=0$ ) sind.

C. Auswahl der Kovariaten (Screening)

Da nicht alle post-treatment Variablen die Mittelwertäquivalenz erfüllen, wird ein Screening-Prozess vorgeschlagen:

Für jeden Kandidaten $Z^{(j)}$ wird ein Zwei-Stichproben-Test (z.B. Mann-Whitney-U-Test) durchgeführt, um die Nullhypothese $H_0: E[Z^{(j)}|W=1] = E[Z^{(j)}|W=0]$ zu testen.
Nur Variablen, bei denen die Nullhypothese nicht verworfen wird (hoher p-Wert), werden für die zweite Stufe ausgewählt.
Um die Fehlerquote bei multiplen Tests zu kontrollieren, können Korrekturen (z.B. Bonferroni) oder Äquivalenztests verwendet werden.
Theoretische Garantie: Unter asymptotischen Bedingungen (große Stichproben) werden nur Kovariaten ausgewählt, die die Mittelwertäquivalenz erfüllen, was die Konsistenz und asymptotische Normalität des Schätzers sicherstellt.

3. Wichtige Beiträge

Neues Framework zur Varianzreduktion: Die Autoren führen eine Methode ein, die erstmals systematisch und robust In-Experiment-Daten in die ATE-Schätzung integriert, ohne die Konsistenz zu gefährden.
Theoretische Fundierung: Es werden Konsistenzbeweise und asymptotische Normalität für den Schätzer geliefert. Zudem wird gezeigt, dass der Schätzer unter bestimmten Bedingungen die semiparametrische Effizienzgrenze erreicht.
Praktische Umsetzbarkeit:
- Das Verfahren ist rechnerisch effizient (lineare Regression im zweiten Schritt).
- Es erfordert keine aufwendige Kreuzvalidierung (Cross-fitting) für den ersten Schritt, wenn das Vorhersagemodell offline auf historischen Daten trainiert wurde (was in der Industrie üblich ist).
- Es ist skalierbar und in bestehende A/B-Test-Pipelines integrierbar.
Klarstellung der Annahmen: Das Paper unterscheidet präzise zwischen Mediatoren (die nicht angepasst werden dürfen) und „behandlungsunempfindlichen" post-treatment Kovariaten (die angepasst werden dürfen), und bietet einen testbaren Weg zur Identifikation letzterer.

4. Empirische Ergebnisse

Die Methode wurde an 29 Online-Experimenten von Etsy evaluiert:

Setup: Primäres Ergebnis war die Konversionsrate. Als Baseline diente CUPAC mit 117 Pre-Experiment-Kovariaten (trainiert mit LightGBM).
In-Experiment-Daten: Es wurden 23 post-treatment Kovariaten (z.B. Zählvariablen wie Views, Add-to-Carts) nach dem Screening-Verfahren ausgewählt.
Ergebnisse:
- Die Methode erzielte eine substantielle zusätzliche Varianzreduktion im Vergleich zur reinen CUPAC-Pipeline.
- Die Verbesserung der Vorhersagegenauigkeit (gemessen an $\sqrt{R^2}$ ) lag zwischen 0,02 und über 0,14.
- Die zusätzliche Varianzreduktion durch die In-Experiment-Daten war oft größer als die durch die Pre-Experiment-Daten allein, obwohl nur 23 Kovariaten gegen 117 verwendet wurden.
- Dies zeigt, dass In-Experiment-Daten oft stärker mit dem Ergebnis korrelieren als historische Daten.

5. Bedeutung und Fazit

Das Paper adressiert ein weit verbreitetes Problem in der industriellen Praxis: Die unnötige Zurückhaltung bei der Nutzung von In-Experiment-Daten aus Angst vor Bias.

Paradigmenwechsel: Statt In-Experiment-Daten pauschal zu ignorieren, bietet das Paper einen wissenschaftlich fundierten Weg, sie sicher zu nutzen.
Effizienzsteigerung: Durch die Reduzierung der Varianz können Unternehmen Behandlungseffekte schneller erkennen, was die Iterationsgeschwindigkeit von Produktentwicklungen erhöht und Kosten senkt.
Robustheit: Die Methode ist besonders wertvoll für neue Nutzer (für die keine Pre-Experiment-Daten existieren) und in Umgebungen mit großen Stichprobengrößen, wo selbst kleine Varianzreduktionen große Auswirkungen haben.

Zusammenfassend stellt dieses Framework einen wichtigen Schritt dar, um die Grenzen der Varianzreduktion in Online-Experimenten zu erweitern, indem es die Lücke zwischen theoretischer Kausalität und praktischer Datenverfügbarkeit schließt.