Sequentially-Rerandomized Switchback Experiments

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes le directeur d'une chaîne de restaurants (ou d'une application comme Airbnb ou Uber) et que vous voulez tester une nouvelle recette de burger ou un nouveau système de livraison pour voir si cela augmente les ventes.

Le Problème : Le "Test A/B" classique est parfois trop brouillon

Habituellement, pour tester une idée, on fait un Test A/B : on donne la nouvelle recette à la moitié des restaurants (Groupe A) et on garde l'ancienne à l'autre moitié (Groupe B), puis on compare les résultats.

Mais dans le monde réel, c'est compliqué pour trois raisons :

Peu de restaurants : Vous n'avez peut-être que 50 restaurants, pas des millions. C'est trop peu pour que les statistiques classiques fonctionnent bien.
Des différences énormes : Un restaurant à Paris (très fréquenté) n'est pas comparable à un petit village en Bretagne. Si par malchance, vous mettez tous les restaurants de Paris dans le groupe "Nouvelle Recette", vous aurez l'impression que ça marche super bien, alors que c'est juste parce qu'ils sont déjà populaires.
Le temps joue des tours : Les choses changent. Il y a des tendances saisonnières (plus de ventes en été) et des effets de "retard" (si vous changez la recette aujourd'hui, les clients peuvent mettre une semaine à s'habituer ou à détester le nouveau goût).

Si vous faites un test classique, vous risquez de conclure que votre nouvelle recette est géniale alors qu'elle est nulle, simplement parce que vous avez eu de la "malchance" dans la répartition des restaurants.

La Solution : Le "SRSB" (La méthode du Chef Intuitif)

Les auteurs proposent une nouvelle méthode appelée SRSB. Imaginez que vous ne faites pas un seul grand test, mais que vous ajustez votre stratégie chaque semaine.

Voici comment ça marche, avec une analogie de course de relais :

1. La Commutation (Switchback)

Au lieu de donner la nouvelle recette à un restaurant pour toujours, vous faites alterner les restaurants chaque semaine.

Semaine 1 : Restaurant A essaie la nouvelle recette, Restaurant B garde l'ancienne.
Semaine 2 : On inverse ! Restaurant A reprend l'ancienne, Restaurant B essaie la nouvelle.
Cela permet de comparer les deux versions dans le même contexte temporel.

2. La Ré-randomisation Séquentielle (Le cœur de la méthode)

C'est ici que la magie opère. Dans un test classique, on lance une pièce pour décider qui fait quoi chaque semaine. C'est du hasard pur.

Dans la méthode SRSB, on ne se fie pas au hasard aveugle. À chaque semaine, avant de décider qui fait quoi, on regarde ce qui s'est passé la semaine dernière.

L'analogie : Imaginez que vous êtes un entraîneur de course. Vous avez deux coureurs, Pierre et Paul. La semaine dernière, Pierre a couru très vite (peut-être qu'il avait juste eu une bonne journée). Cette semaine, si vous voulez tester un nouveau type de chaussures, vous ne voulez pas que Pierre ait les nouvelles chaussures et qu'il soit déjà en forme.
La méthode SRSB dit : "Attends, regardons les performances de la semaine dernière. Si Pierre a déjà eu une très bonne semaine, on va lui donner l'ancienne chaussure cette semaine pour équilibrer. On va faire plusieurs tirages au sort (ré-randomisation) jusqu'à ce que l'équipe A et l'équipe B soient parfaitement équilibrées par rapport à leur historique."

On utilise des variables "prédictives" (comme les ventes de la semaine dernière ou la météo) pour s'assurer que les deux groupes sont justes l'un par rapport à l'autre avant même de commencer le test.

Pourquoi c'est génial ?

Moins de bruit, plus de signal : En forçant l'équilibre, on élimine le "bruit" (les différences dues au hasard ou à l'historique). On voit beaucoup plus clairement si la nouvelle recette fonctionne vraiment.
Adaptabilité : La méthode s'adapte à la réalité. Si les ventes montent en flèche à cause d'un événement imprévu, la méthode le détecte et rééquilibre les groupes pour ne pas fausser le résultat.

Le Cas Spécial : L'Effet de "Rétention" (Carryover)

Parfois, un changement a un effet qui dure plus d'une semaine.

Analogie : Si vous changez la musique dans un restaurant, les clients peuvent mettre 2 jours à s'habituer. Si vous changez la musique chaque jour, ils ne savent jamais à quoi s'attendre.

Pour gérer cela, les auteurs proposent une version "Bloquée" du SRSB.

Au lieu de mélanger tout le monde, on regarde qui a eu la nouvelle recette la semaine dernière.
On crée deux groupes : ceux qui ont eu la nouvelle recette la semaine dernière et ceux qui ont eu l'ancienne.
À l'intérieur de chaque groupe, on rééquilibre soigneusement qui garde la même chose ("Stay") et qui change.
Cela permet de comparer des situations stables : "Ceux qui ont eu la nouvelle recette deux semaines de suite" vs "Ceux qui ont eu l'ancienne deux semaines de suite". Cela permet de mesurer l'effet réel sans être perturbé par le changement constant.

En Résumé

Imaginez que vous essayez de deviner si un nouveau filtre à café améliore le goût.

Méthode classique : Vous essayez le filtre sur 50 cafés au hasard. Si les 50 meilleurs cafés tombent dans le groupe "Nouveau Filtre", vous pensez que le filtre est magique, alors que c'est juste la qualité des grains.
Méthode SRSB : Chaque semaine, vous regardez la qualité des grains de la semaine dernière. Vous réorganisez les cafés (en faisant plusieurs tirages au sort) pour vous assurer que le groupe "Nouveau Filtre" et le groupe "Vieux Filtre" ont exactement la même qualité de grains moyenne. Ainsi, si vous voyez une différence de goût, vous êtes sûr à 100% que c'est grâce au filtre, pas à cause des grains.

Le résultat ? Cette méthode permet aux grandes entreprises (comme Airbnb, Uber, etc.) de prendre de meilleures décisions, plus vite et avec moins de risques d'erreur, même quand elles ont peu de données ou un environnement très changeant.

Each language version is independently generated for its own context, not a direct translation.

Titre : Sequentially-Rerandomized Switchback Experiments (SRSB)

Auteurs : Zhenghao Zeng, Christopher Adjaho, Alonso Bucarey, Chao Qin, Ruixuan Zhang, Paul Hoban, Ramesh Johari, Stefan Wager.
Affiliations : Stanford University, Airbnb.

1. Problématique et Contexte

Les grandes plateformes en ligne et les systèmes de marché (ex. : Airbnb, Uber, publicité ciblée) évaluent fréquemment de nouvelles politiques via des expériences A/B à grande échelle. Cependant, dans ces environnements dynamiques, les tests A/B standards présentent plusieurs limites majeures :

Petit nombre d'unités : Le nombre d'unités expérimentales (géographies, régions) est souvent limité (de quelques dizaines à quelques centaines), rendant l'inférence asymptotique classique peu fiable.
Hétérogénéité importante : Les unités présentent des caractéristiques très variables (ex. : Paris vs zones rurales), ce qui peut créer des déséquilibres nuisant à la précision.
Non-stationnarité et dépendance temporelle : Les résultats évoluent dans le temps (saisonnalité, tendances persistantes, corrélation sérielle).
Effets de report (Carryover) : Un traitement appliqué à une période $t$ peut influencer les résultats à la période $t+1$ ou au-delà.

Les designs de basculement (Switchback Experiments), où les unités alternent entre traitement et contrôle au fil du temps, sont une alternative courante. Cependant, les designs existants reposent souvent sur une randomisation simple (Bernoulli par blocs ou complète), qui ne tire pas parti des informations passées pour améliorer la précision.

Objectif de l'article : Proposer une nouvelle conception expérimentale, SRSB (Sequentially-Rerandomized Switchback Experiments), qui adapte l'assignation du traitement à chaque période en réassignant séquentiellement les unités jusqu'à ce qu'un critère d'équilibre soit satisfait sur des variables pronostiques (résultats passés et covariables).

2. Méthodologie

L'approche repose sur un cadre d'inférence basée sur la conception (design-based) dans une population finie, où les résultats potentiels et les covariables sont fixes, et seule l'assignation du traitement est aléatoire.

A. Le Design SRSB (Sans effets de report)

Dans le cas où les effets de report sont absents (Assomption 3a) :

Variables d'équilibre ( $H_{i,t}$ ) : À chaque période $t$ , le concepteur définit des variables pronostiques basées sur l'information disponible jusqu'à $t$ (ex. : résultats passés $Y_{i,t-1}$ et covariables contemporaines $X_{i,t}$ ).
Réassignation séquentielle : Pour chaque période, l'algorithme génère des vecteurs d'assignation candidats. Un candidat est accepté uniquement si la distance de Mahalanobis entre les moyennes des variables d'équilibre du groupe traité et du groupe témoin est inférieure à un seuil préétabli $c$ .
Avantage : En forçant l'équilibre sur les résultats passés (qui sont fortement prédictifs des résultats futurs dans les séries temporelles), la variance de l'estimateur est réduite.

B. Extension aux effets de report du premier ordre

Lorsque les résultats dépendent du traitement à $t$ et $t-1$ (Assomption 3b), l'approche standard échoue car les groupes "restants" (Stay groups : $W_{t-1}=W_t=1$ et $W_{t-1}=W_t=0$ ) ne sont pas nécessairement comparables.

Design SRSB Bloqué (Blocked SRSB) :
- À chaque période $t$ , les unités sont divisées en deux blocs basés sur le traitement précédent : $G^{(1)}_t = \{i : W_{i,t-1}=1\}$ et $G^{(0)}_t = \{i : W_{i,t-1}=0\}$ .
- La réassignation (rerandomization) est effectuée indépendamment à l'intérieur de chaque bloc.
- Cela garantit que les groupes "Stay" (traité-traité et contrôle-contrôle) sont comparables et représentatifs, stabilisant la taille de ces groupes à $N/4$ (sous hypothèse d'équilibre initial).

C. Inférence Statistique

L'article développe deux approches d'inférence :

Inférence par randomisation (Exacte) : Valide pour tout $(N, T)$ fini sous une hypothèse nulle stricte (effet additif constant). Elle utilise des simulations de Monte Carlo pour reconstruire la distribution de randomisation sous l'hypothèse nulle.
Inférence Asymptotique :
- Sans report : Utilisation d'un Théorème Central Limite (CLT) pour les martingales. La séquence des erreurs d'estimation forme une martingale différence, permettant une normalité asymptotique lorsque $T \to \infty$ .
- Avec report : La structure de martingale est "retardée" de deux pas ( $E[\hat{\tau}_t | \mathcal{F}_{t-2}] = \tau_t$ ). L'article utilise des arguments de mixingales et une partition en blocs (Bernstein sums) pour établir la normalité asymptotique de l'estimateur agrégé.
- Estimation de la variance : Propose un estimateur conservateur basé sur les résidus de prédiction pour les intervalles de confiance de type Wald.

3. Contributions Clés

Nouveau Design Expérimental (SRSB) : Introduction d'un mécanisme d'assignation adaptatif qui réassigne séquentiellement les traitements pour équilibrer les résultats passés et les covariables, exploitant la dépendance temporelle pour réduire la variance.
Gestion des Effets de Report : Développement d'une variante "bloquée" (Blocked SRSB) spécifiquement conçue pour les effets de report du premier ordre, assurant la comparabilité des groupes "Stay" critiques pour l'estimation.
Théorie d'Inférence Rigoureuse :
- Preuve de la validité de l'inférence par randomisation en échantillon fini.
- Démonstration de la normalité asymptotique via des CLT pour martingales (cas sans report) et mixingales (cas avec report).
Validation Empirique : Des simulations extensives, incluant des données semi-synthétiques basées sur le Penn World Table (PIB mondial) et des modèles de type MDP (Processus de Décision Markovien), démontrent la supériorité du SRSB.

4. Résultats Principaux

Les simulations montrent que le SRSB surpasse systématiquement les designs de randomisation complète (SB - Switchback Baseline) :

Réduction de la Variance et du RMSE :
- Dans les scénarios sans effets de report, le SRSB réduit significativement l'erreur quadratique moyenne (RMSE) par rapport à la randomisation complète, surtout lorsque les résultats passés sont fortement prédictifs (corrélation temporelle élevée).
- La réduction de variance est proportionnelle à la force prédictive des variables d'équilibre ( $R^2$ ).
Robustesse aux Effets de Report :
- Le Blocked SRSB offre une précision supérieure aux designs non bloqués et à la randomisation complète en présence d'effets de report. Il stabilise la taille des groupes d'estimation, évitant les fluctuations aléatoires qui dégradent la précision.
Impact de la Force du Traitement :
- L'avantage du SRSB diminue légèrement lorsque l'effet du traitement est très fort (car les résultats observés deviennent un mélange de potentiels traités/non-traités, réduisant leur pouvoir prédictif pur), mais il reste supérieur à la randomisation simple.
Cas des Effets de Report d'Ordre Supérieur :
- Dans un modèle avec états latents et effets de report infinis (non modélisés par l'approximation du premier ordre), le SRSB réduit toujours la variance, bien que le biais dû à l'approximation du premier ordre puisse dominer l'erreur totale si la persistance ( $\rho$ ) est très forte.

5. Signification et Implications

Pour les Praticiens (Plateformes) : Le SRSB offre une méthode robuste pour évaluer des politiques dans des environnements à faible nombre d'unités et à forte dynamique temporelle. Il permet d'obtenir des estimations plus précises sans augmenter le coût de l'expérience (nombre d'unités ou durée).
Pour la Recherche :
- L'article comble un vide théorique en combinant la réassignation (rerandomization) avec les expériences de basculement (switchback), deux domaines qui étaient jusqu'alors traités séparément.
- Il fournit des outils d'inférence valides (exacte et asymptotique) pour des designs adaptatifs complexes où la randomisation dépend de l'historique des résultats, un défi majeur souvent ignoré dans la littérature standard.
- L'approche "bloquée" pour les effets de report propose une solution élégante au problème de comparabilité des groupes dans les designs séquentiels.

En conclusion, le SRSB représente une avancée significative dans la conception d'expériences pour les plateformes numériques, transformant la dépendance temporelle d'un défi en un levier pour améliorer la précision statistique.