Variance reduction combining pre-experiment and in-experiment data

Each language version is independently generated for its own context, not a direct translation.

🧪 Le Problème : Essayer de voir un grain de sable dans une tempête

Imaginez que vous êtes un chef cuisinier (une entreprise comme Etsy) qui veut savoir si une nouvelle recette de gâteau (une nouvelle fonctionnalité sur un site web) est meilleure que l'ancienne. Pour le savoir, vous faites un test : vous donnez la nouvelle recette à la moitié de vos clients et l'ancienne à l'autre moitié. C'est ce qu'on appelle un test A/B.

Le problème, c'est que les clients sont tous différents. Certains mangent beaucoup, d'autres peu. Certains sont pressés, d'autres non. Cette "bruit" naturel rend difficile la détection de la vraie différence causée par la recette. C'est comme essayer d'entendre un chuchotement (l'effet de la recette) au milieu d'une tempête de vent (la variation naturelle des clients).

Pour entendre le chuchotement, vous avez deux options :

Augmenter le nombre de clients (faire le test pendant des mois). C'est cher et lent.
Réduire le bruit (rendre le test plus sensible). C'est là que la science intervient.

🛠️ Les Anciennes Outils : La Météo d'hier

Jusqu'à présent, les statisticiens utilisaient des outils comme CUPED ou CUPAC. Imaginez que pour prédire combien de gâteau un client va manger, vous regardez ce qu'il a mangé hier (données pré-expérimentales).

Si un client a mangé beaucoup hier, il mangera probablement beaucoup aujourd'hui.
En tenant compte de son historique, on peut "nettoyer" les données et entendre le chuchotement plus clairement.

Le souci ? L'historique d'hier n'est pas toujours un bon prédicteur de ce qui va se passer maintenant. Parfois, un client a mangé peu hier mais a une faim de loup aujourd'hui. L'outil est utile, mais il a ses limites.

💡 La Nouvelle Idée : Regarder ce qui se passe pendant le repas

L'article propose une idée brillante : utilisons aussi les données collectées pendant l'expérience, mais avec une grande prudence.

Prenons l'analogie du restaurant :

Données pré-expérimentales (Hier) : Ce que le client a mangé la semaine dernière.
Données in-experiment (Maintenant) : Combien de fois le client a regardé le menu, combien de temps il a passé à choisir, ou s'il a ajouté un dessert au panier avant de payer.

Ces actions en temps réel sont souvent beaucoup plus liées au résultat final (la commande) que l'historique. C'est comme si le client regardait le menu avec avidité : c'est un signe très fort qu'il va commander.

⚠️ Le Piège Mortel (Le Biais)
Il y a un danger énorme ici. Si vous ajustez vos calculs en fonction d'une action que la nouvelle recette a elle-même provoquée, vous faussez tout.

Exemple : Si la nouvelle recette rend le menu plus joli, et que les clients regardent le menu plus longtemps à cause de ça, alors "le temps passé à regarder le menu" est une conséquence de la recette. Si vous l'utilisez pour corriger les résultats, vous effacez l'effet de la recette ! C'est comme si vous disiez : "Le gâteau est bon, mais attendez, il a rendu les gens plus gourmands, donc je retire cet effet." C'est une erreur.

🎯 La Solution : Le Filtre de Sécurité (Le "Gardien")

L'auteur propose une méthode en deux étapes pour utiliser ces données en temps réel sans se tromper :

Étape 1 : La Prédiction Classique. On utilise d'abord l'historique (comme avant) pour faire une première estimation.
Étape 2 : Le Filtre de Sécurité. On regarde les actions en temps réel (les covariables post-traitement). Mais on ne les utilise pas toutes !
- On fait un test statistique pour chaque action : "Est-ce que cette action est la même, en moyenne, pour les clients qui ont eu la vieille recette et ceux qui ont eu la nouvelle ?"
- Si OUI (L'action est équilibrée) : C'est bon ! Cela signifie que la nouvelle recette n'a pas changé cette action. On peut l'utiliser pour affiner notre prédiction et réduire le bruit.
- Si NON (L'action est différente) : C'est un piège ! La recette a changé cette action. On l'ignore complètement pour ne pas fausser le résultat.

C'est comme un gardien de but qui vérifie chaque joueur avant de le laisser entrer sur le terrain. Seuls les joueurs qui ne changent pas le jeu sont autorisés à aider l'équipe.

🚀 Les Résultats : Plus de précision, moins de temps

En appliquant cette méthode à 29 tests réels chez Etsy (le site de vente en ligne) :

Ils ont réussi à réduire le "bruit" bien plus que les anciennes méthodes.
Ils ont utilisé très peu de données en temps réel (seulement 23 indicateurs) par rapport aux centaines de données historiques.
Le résultat : Les entreprises peuvent détecter les effets positifs ou négatifs de leurs changements beaucoup plus vite, sans avoir à attendre des mois pour avoir assez de clients.

🌟 En Résumé

Imaginez que vous essayez d'écouter une conversation dans une pièce bruyante.

L'ancienne méthode vous disait : "Écoute ce qu'ils ont dit la semaine dernière pour deviner ce qu'ils vont dire."
La nouvelle méthode dit : "Écoute aussi ce qu'ils disent maintenant, mais seulement s'ils disent la même chose que la semaine dernière. Si quelqu'un change de sujet à cause du bruit, ignore-le. Si quelqu'un continue son histoire, utilise ce qu'il dit pour mieux comprendre le message."

C'est une méthode simple, rapide et sûre qui permet aux entreprises de prendre de meilleures décisions en moins de temps, en évitant les pièges classiques de la statistique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les expériences contrôlées en ligne (tests A/B) sont fondamentales pour la prise de décision fondée sur les données. L'objectif principal est d'estimer avec précision l'effet moyen du traitement (ATE - Average Treatment Effect). Une contrainte majeure dans ce domaine est la sensibilité de l'expérience : sous des tailles d'échantillon fixes, la capacité à détecter des effets faibles dépend de la variance de l'estimateur de l'ATE.

Les techniques existantes de réduction de variance, telles que CUPED (Controlled-experiment Using Pre-Experiment Data) et CUPAC (Control Using Predictions as Covariates), utilisent des données pré-expérimentales (avant l'attribution du traitement) pour ajuster les résultats par régression. Cependant, ces méthodes ont une limite intrinsèque : leur efficacité dépend de la capacité des données pré-expérimentales à prédire les résultats mesurés pendant l'expérience. Souvent, ces données historiques ont une corrélation limitée avec les résultats immédiats.

À l'inverse, les données collectées pendant l'expérience (données in-experiment ou post-traitement) sont souvent beaucoup plus fortement corrélées avec les résultats finaux (par exemple, le nombre de vues de produits ou la durée de session avant un achat). Le défi méthodologique réside dans le fait que l'utilisation de variables post-traitement arbitraires peut introduire un biais si ces variables sont des médiateurs (c'est-à-dire si le traitement les influence, qui à son tour influence le résultat). La question centrale est donc : comment exploiter la puissance prédictive supérieure des données in-experiment sans introduire de biais causal ?

2. Méthodologie

Les auteurs proposent un cadre général, robuste et évolutif combinant des données pré-expérimentales et in-experiment via une approche en deux étapes :

A. Cadre Théorique et Hypothèses

Le cadre repose sur le modèle des résultats potentiels. L'idée clé est d'identifier un sous-ensemble de covariables post-traitement ( $Z$ ) qui sont insensibles au traitement (ou du moins, dont les moyennes sont équilibrées entre les groupes de traitement et de contrôle).

Contrairement aux méthodes de substitution (surrogates) ou de stratification principale qui nécessitent des hypothèses fortes et non testables, cette méthode repose sur l'hypothèse plus faible et testable d'équivalence des moyennes : $E[Z | W=1] = E[Z | W=0]$ .
Si cette condition est remplie, l'ajustement linéaire sur $Z$ ne supprime pas l'effet du traitement, mais réduit la variance résiduelle.

B. L'Estimateur Proposé (Deux Étapes)

L'estimateur proposé est une extension de CUPAC :

Première étape (Pré-expérimentale) : On utilise un modèle de prédiction (linéaire ou machine learning complexe, comme dans CUPAC) $f(X)$ basé sur les covariables pré-expérimentales $X$ pour prédire le résultat $Y$ . On obtient les résidus $\hat{R}_i = Y_i - \hat{f}(X_i)$ .
Deuxième étape (In-experiment) : On sélectionne un sous-ensemble de covariables post-traitement $Z$ qui ne sont pas affectées par le traitement. On effectue un ajustement linéaire supplémentaire sur les résidus de la première étape : $\hat{R}_i \approx \gamma^\top Z_i$ .
Estimateur final : L'ATE est estimé en ajustant les résultats observés par la prédiction combinée $f(X) + \gamma^\top Z$ .

C. Sélection des Covariables Post-Traitement

Pour identifier les variables $Z$ sûres à utiliser, les auteurs proposent un protocole de sélection rigoureux :

Tests statistiques : Pour chaque candidat $Z$ , on teste l'hypothèse nulle d'égalité des moyennes entre les groupes de traitement et de contrôle ( $H_0: E[Z|W=1] = E[Z|W=0]$ ).
Sélection : Seules les variables pour lesquelles l'hypothèse nulle n'est pas rejetée (p-value > $\alpha$ ) sont conservées.
Correction : Des méthodes de correction pour tests multiples (comme Bonferroni ou Holm) ou des tests d'équivalence peuvent être utilisés pour contrôler le taux d'erreur familiale et éviter l'inclusion de médiateurs.
Validation : Cette sélection est validée par des connaissances du domaine (ex: une modification d'interface UI ne devrait pas changer la durée de session si l'algorithme de recommandation n'est pas touché).

D. Propriétés Théoriques

Consistance : L'estimateur est consistant et asymptotiquement normal.
Variance : L'auteur fournit des estimateurs de variance consistants.
Efficacité : Si le modèle combiné correspond à la vraie moyenne conditionnelle, l'estimateur atteint la borne d'efficacité semi-paramétrique.

3. Résultats Empiriques

Les auteurs ont évalué leur méthode sur 29 expériences en ligne menées chez Etsy, avec comme métrique principale le taux de conversion client.

Configuration : Comparaison entre le pipeline standard CUPAC (utilisant 117 covariables pré-expérimentales via LightGBM) et la méthode proposée (CUPAC + 23 covariables post-traitement sélectionnées).
Sélection : Les 23 covariables post-traitement (principalement des compteurs avec beaucoup de zéros) ont été sélectionnées via des tests de Mann-Whitney combinés par la méthode de Fisher sur les 29 expériences.
Performance :
- La méthode proposée a démontré une réduction de variance supplémentaire significative par rapport à CUPAC seul.
- L'amélioration de la précision prédictive (mesurée par la racine carrée de $R^2$ ) varie de 0,02 à plus de 0,14 selon les expériences.
- Le rapport de variance montre que l'ajout de ces quelques covariables post-traitement (23 contre 117 pré-traitement) permet de réduire davantage la variance que l'ajout de nombreuses variables historiques.

4. Contributions Clés

Cadre Hybride : Introduction d'une méthode unifiée exploitant à la fois les données pré-expérimentales (pour la robustesse) et les données in-experiment (pour la puissance prédictive).
Sécurité Causale : Démonstration que l'utilisation de variables post-traitement est possible sans biais, à condition de vérifier l'équilibre des moyennes (équivalence des moyennes) et d'éviter les médiateurs.
Simplicité et Scalabilité : La méthode utilise un ajustement linéaire en deuxième étape, ce qui la rend interprétable, efficace en calcul et compatible avec les pipelines industriels existants (pas besoin de réentraîner des modèles complexes pour chaque expérience).
Preuve Théorique et Pratique : Fourniture de la théorie asymptotique, d'estimateurs de variance consistants et de résultats empiriques convaincants sur des données réelles à grande échelle.

5. Signification et Impact

Ce travail remet en question la pratique industrielle courante qui exclut systématiquement les données post-traitement des ajustements de régression par crainte de biais. Il démontre que cette exclusion est souvent trop restrictive.

Accélération de la prise de décision : En réduisant la variance de l'estimateur ATE, les entreprises peuvent détecter des effets de traitement plus faibles avec la même taille d'échantillon, ou atteindre la même puissance statistique avec des échantillons plus petits (réduisant le temps et le coût des expériences).
Applicabilité Universelle : Contrairement aux données pré-expérimentales qui peuvent manquer pour les nouveaux utilisateurs, les données in-experiment sont disponibles pour tous les participants, rendant la méthode applicable même dans des scénarios de "cold start".
Guide Pratique : L'article offre une feuille de route concrète pour les praticiens : ne pas utiliser toutes les données post-traitement, mais sélectionner rigoureusement celles qui sont équilibrées, permettant ainsi de gagner en efficacité sans compromettre la validité causale.

En résumé, cette méthode offre une voie pragmatique et théoriquement fondée pour améliorer la sensibilité des tests A/B en tirant parti de l'information riche générée en temps réel pendant l'expérience.