Estimating Treatment Effects under Algorithmic Interference: A Structured Neural Networks Approach

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes le directeur d'une immense foire aux talents, comme TikTok ou YouTube, où des millions de créateurs de vidéos se battent pour l'attention des spectateurs. Votre plateforme utilise un algorithme (un "chef d'orchestre" invisible) pour décider quelle vidéo apparaît devant quel spectateur.

Parfois, vous voulez tester une nouvelle version de ce chef d'orchestre pour voir si elle est meilleure. Mais comment le savoir sans tout casser ?

Voici le problème que résout cette recherche, expliqué simplement :

1. Le Piège de l'Expérience Habituelle (Le "Test A/B" qui trompe)

Normalement, pour tester une nouvelle recette de cuisine, vous donnez la recette A à la moitié de vos chefs et la recette B à l'autre moitié, puis vous comparez les résultats. C'est ce qu'on appelle un "test A/B".

Sur les réseaux sociaux, on fait pareil : on donne la nouvelle règle à la moitié des créateurs (le groupe "traité") et on garde l'ancienne règle pour l'autre moitié (le groupe "témoin").

Le problème ? Contrairement à une cuisine où les chefs cuisinent dans des cuisines séparées, ici, tous les créateurs sont dans la même cuisine et se battent pour les mêmes assiettes (les écrans des spectateurs).

L'analogie du couloir de supermarché : Imaginez que vous mettez une étiquette "Promo" sur des produits de la marque A. Si ces produits deviennent plus attractifs, ils vont "écraser" les produits de la marque B sur les étagères. Les produits B ne sont pas moins bons, ils sont juste moins visibles parce que les produits A ont pris leur place.
La conséquence : Si vous regardez simplement les ventes, vous penserez que la marque A est géniale et la marque B nulle. Mais en réalité, vous avez juste changé la façon dont les produits sont rangés, pas leur qualité intrinsèque. C'est ce que les auteurs appellent "l'interférence algorithmique".

2. Les Deux Fausses Pistes

L'article explique que cette méthode classique crée deux types de mensonges :

Le mensonge de l'exposition : La nouvelle règle fait que les vidéos "traitées" apparaissent plus souvent, non pas parce qu'elles sont meilleures, mais parce que le système les pousse plus fort, en "éclipsant" les vidéos de contrôle.
Le mensonge du public : La nouvelle règle peut montrer les vidéos "traitées" à des gens très enthousiastes et les vidéos "contrôle" à des gens blasés. Vous allez penser que la nouvelle règle fonctionne mieux, alors que c'est juste que vous avez montré les vidéos à un public plus facile à impressionner.

Si vous vous fiez à ces tests classiques, vous risquez de déployer un algorithme qui, en réalité, réduit les revenus de la plateforme, car vous avez pris une mauvaise décision basée sur des données faussées.

3. La Solution : Le "Détective à Double Vision"

Pour résoudre ce casse-tête, les auteurs (Zhan, Han, Hu et Jiang) ont créé une nouvelle méthode qui ressemble à un détective très intelligent utilisant deux outils :

Outil 1 : Le Modèle de Choix (Le "Simulateur de Course")
Au lieu de juste regarder qui gagne, ils construisent un modèle mathématique qui comprend comment la course se déroule. Ils disent : "Si on change les règles pour tout le monde, comment la course changerait-elle ?" Ils utilisent des réseaux de neurones (une forme d'intelligence artificielle) pour prédire qui gagnerait la course dans un monde où tout le monde utilise la nouvelle règle, et un monde où tout le monde utilise l'ancienne.
Outil 2 : Le Modèle de Réponse (Le "Juge de Spectateur")
Ils modélisent aussi comment les spectateurs réagissent une fois qu'ils voient la vidéo.

La Magie (L'Estimateur Débiaisé) :
Leur méthode combine ces deux modèles avec une astuce mathématique appelée "Double Machine Learning". C'est comme si le détective utilisait un miroir pour annuler les erreurs de son propre cerveau. Même si leurs prédictions ne sont pas parfaites, cette astuce mathématique corrige les erreurs automatiquement pour donner un résultat juste.

4. La Preuve par l'Expérience

Pour prouver que leur méthode fonctionne, ils ont fait une expérience géante sur Weixin Channels (la plateforme vidéo de WeChat en Chine).

Le test ultime : Ils ont créé un "monde parallèle" coûteux et complexe (appelé design double-face) où les créateurs et les spectateurs étaient séparés en trois groupes isolés. Cela a permis de mesurer la "vérité absolue" sans aucune interférence.
Le résultat :
- La méthode classique (le test A/B habituel) a dit : "La nouvelle règle est excellente !" (alors qu'elle était mauvaise).
- La méthode classique a même inversé le signe de l'effet dans certains cas (elle a dit "positif" alors que c'était "négatif").
- La nouvelle méthode des auteurs a donné le bon résultat, correspondant presque parfaitement à la "vérité absolue" du monde parallèle.

En Résumé

Cette recherche nous apprend que dans un monde où tout le monde est connecté et en compétition (comme les réseaux sociaux), on ne peut pas simplement comparer deux groupes séparés pour voir si une nouvelle règle fonctionne. C'est comme essayer de juger la vitesse d'un coureur en le faisant courir sur une piste où les autres coureurs bougent selon vos règles.

Les auteurs nous donnent une nouvelle boussole (un algorithme mathématique sophistiqué) qui permet aux plateformes de tester leurs innovations en toute sécurité, sans risquer de détruire leur écosystème en déployant de mauvaises idées basées sur des statistiques trompeuses. C'est un outil essentiel pour éviter de prendre de mauvaises décisions business coûteuses.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les plateformes de contenu généré par les utilisateurs (UGC) opèrent des marchés bilatéraux où elles allouent du trafic promotionnel via des algorithmes complexes. Pour évaluer les mises à jour de ces algorithmes, les plateformes utilisent couramment des expériences randomisées côté créateurs (creator-side randomized experiments). Dans ce schéma, les créateurs (et leur contenu) sont assignés aléatoirement à un groupe de traitement (nouvel algorithme) ou de contrôle (algorithme actuel).

Le problème central : Ces expériences souffrent d'une interférence algorithmique. Contrairement aux hypothèses standards d'essais A/B, les items traités et contrôlés ne sont pas indépendants ; ils rivalisent pour la même exposition au sein d'un même ensemble de candidats (consideration set).

Violation de SUTVA : L'hypothèse de stabilité de la valeur de traitement (SUTVA) est violée car le résultat d'un créateur dépend non seulement de son propre statut de traitement, mais aussi de celui des autres créateurs dans son ensemble de compétition.
Biais des estimateurs standards : L'estimateur standard de la différence de moyennes (Difference-in-Means ou DIM) devient sévèrement biaisé. Il peut conduire à des décisions managériales erronées, comme le déploiement d'un algorithme inférieur, car il ne capture pas l'effet global (Global Treatment Effect - GTE) d'un déploiement mondial.

Le papier identifie deux sources principales de biais :

Biais d'exposition du contenu (Content Exposure Bias) : Les items traités, ayant des scores plus élevés, "éliminent" (crowd out) les items de contrôle, faussant la proportion réelle d'exposition par rapport à la probabilité d'assignation.
Biais de sélection des viewers (Viewer Selection Bias) : Les changements de scoring modifient la composition des audiences exposées aux items traités vs contrôlés, créant des différences systématiques dans les populations observées.

2. Méthodologie

Les auteurs proposent un cadre semi-paramétrique structuré combinant des modèles économétriques et des réseaux de neurones, intégré dans le cadre de l'apprentissage machine double/débiaisé (Double Machine Learning - DML).

A. Modélisation de l'Interférence

Le modèle décompose le processus en deux composantes :

Modèle de choix algorithmique (Algorithm Choice Model) :
- Il modélise comment l'algorithme alloue l'exposition entre les items concurrents.
- Il utilise une structure de logit multinomial où la probabilité d'exposition dépend d'un score latent.
- Le score est décomposé en une partie structurelle (paramétrique) et une partie flexible (non-paramétrique) :
  $S_{i,k} = s_0(V_i, C_{i,k}) + W_{i,k} \cdot s_1(V_i, C_{i,k}) + \epsilon_{i,k}$
  Où $s_0$ est le score de base (contrôle), $s_1$ est l'effet du traitement (uplift), et $W$ est le statut de traitement.
- Les fonctions $s_0$ et $s_1$ sont estimées par des réseaux de neurones pour capturer l'hétérogénéité complexe entre les viewers et le contenu.
Modèle de réponse des viewers (Viewer Response Model) :
- Il prédit l'engagement (ex: like, temps de visionnage) une fois l'exposition acquise.
- Il est également modélisé par un réseau de neurones flexible : $Y_i = z(V_i, C_{i,k}) + \zeta_i$ .

B. Estimateur Débiaisé (Debiased Estimator)

Pour estimer l'effet de traitement global (GTE), les auteurs construisent un estimateur débiaisé basé sur le cadre DML (Chernozhukov et al., 2018) :

Approche Plug-in naïve : Utiliser directement les prédictions des modèles entraînés conduit à un biais car les réseaux de neurones convergent à des taux plus lents que $\sqrt{n}$ .
Correction de biais : L'estimateur proposé ajoute un terme de correction (orthogonalité de Neyman) qui annule le biais du premier ordre induit par l'estimation imparfaite des fonctions de nuisance ( $s_0, s_1, z$ ).
$\hat{\tau}^{DB} = \frac{1}{n} \sum \left[ \mu(\cdot) - \nabla\mu(\cdot)^T H^{-1} \nabla\ell(\cdot) \right]$
Splitting et Cross-fitting : Pour éviter le surajustement (overfitting), les données sont divisées en plis (folds) pour estimer les nuisances et l'effet de traitement séparément.

C. Contribution Théorique : Données Corrélées

Une avancée méthodologique majeure est l'extension de la théorie asymptotique du DML au cas de données corrélées.

Dans les expériences côté créateurs, les items apparaissent dans plusieurs ensembles de candidats (consideration sets) qui se chevauchent, créant une dépendance entre les observations.
Les auteurs établissent la consistance $\sqrt{n}$ et la normalité asymptotique de leur estimateur débiaisé même en présence de cette corrélation, en utilisant des théorèmes limites de martingales et en imposant une condition d'exposition limitée (un item ne domine pas trop d'ensembles).

3. Résultats

A. Simulations de Monte Carlo

Les auteurs comparent leur estimateur débiaisé (DB) à plusieurs benchmarks :

DIM (Horvitz-Thompson et Hájek) : Présentent un biais important et sous-estiment la variance.
Apprentissage profond pur (Pure Deep Learning) : Biaisé car il ne généralise pas correctement aux scénarios contrefactuels globaux.
Méthodes basées sur la propension (IPW/AIPW) : Théoriquement non biaisées mais souffrent d'une variance exponentielle qui croît avec la taille de l'ensemble de candidats, rendant les estimateurs instables.
Résultat : L'estimateur DB proposé récupère l'effet de traitement vrai avec un biais négligeable et une quantification de l'incertitude valide.

B. Application Empirique (Plateforme Weixin Channels)

Une expérience de terrain à grande échelle a été menée sur une plateforme vidéo chinoise majeure.

Design de validation : Une expérience "double côté" (double-sided) coûteuse a été utilisée comme vérité terrain (ground truth) en isolant les viewers et créateurs en sous-univers distincts pour éliminer l'interférence.
Preuve d'interférence : Les données montrent que 56% des expositions réelles vont aux items traités (contre 50% d'assignation), confirmant le biais d'exposition. De plus, les viewers exposés aux items traités diffèrent systématiquement de ceux exposés aux items contrôlés.
Comparaison des estimateurs :
- Pour une métrique clé, la vérité terrain révèle un effet négatif significatif (le nouvel algorithme est pire).
- L'estimateur DB proposé retrouve correctement ce signe négatif et la magnitude.
- Les estimateurs standards (DIM) et le Deep Learning pur prédisent un effet positif significatif, conduisant à une décision managériale catastrophique (déploiement d'un algorithme inférieur).

4. Contributions Clés

Pratique : Fournit une méthode fiable pour évaluer les algorithmes promotionnels en utilisant des expériences côté créateurs standard, évitant ainsi le coût prohibitif des expériences double côté tout en évitant les erreurs de déploiement dues aux biais d'interférence.
Méthodologique :
- Introduction d'un cadre semi-paramétrique structuré (modèle de choix + réponse) couplé à des réseaux de neurones pour modéliser l'interférence.
- Extension de la théorie Double Machine Learning (DML) aux données corrélées (non-i.i.d.), élargissant l'applicabilité des estimateurs débiaisés aux environnements de marché et aux données de panel.
- Démonstration que l'orthogonalité de Neyman permet de corriger les biais même avec des estimateurs de nuisance complexes et à convergence lente.

5. Signification

Ce papier démontre que dans les marchés numériques modernes où les algorithmes de recommandation créent une compétition directe entre les unités expérimentales, les méthodes d'évaluation causale traditionnelles sont non seulement inefficaces, mais potentiellement dangereuses. En combinant la rigueur structurelle des modèles de choix avec la flexibilité de l'apprentissage profond et la robustesse statistique du DML, les auteurs offrent une solution viable pour la prise de décision algorithmique à grande échelle. Cela permet aux plateformes d'optimiser leurs revenus et l'expérience utilisateur sans recourir à des designs expérimentaux trop coûteux ou irréalistes.