Surrogate-Assisted Targeted Learning for Delayed Outcomes under Administrative Censoring

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous êtes le directeur d'une grande entreprise et que vous voulez savoir si une nouvelle méthode de travail (le traitement) améliore réellement la productivité de vos équipes.

Le problème ? Vous ne pouvez pas attendre que les résultats définitifs soient prêts pour tout le monde.

Le résultat final (l'Outcome) : C'est le chiffre d'affaires de l'année. Il faut attendre 12 mois pour le connaître.
Le résultat intermédiaire (le Surrogate) : C'est le nombre de réunions tenues ou de projets lancés. On le sait dès le premier mois.
Le problème du temps (Censoring) : Votre entreprise va fermer ses portes dans 6 mois pour une rénovation. Les équipes qui ont commencé tardivement (les "clusters" tardifs) n'auront jamais le temps d'attendre les 12 mois pour voir leur chiffre d'affaires final. Ces données sont "censurées administrativement".

Voici comment les auteurs de cet article, Lin Li et ses collègues, résolvent ce casse-tête avec une méthode intelligente appelée SA-TMLE.

1. Le Dilemme : Pourquoi les anciennes méthodes échouent

Avant cette nouvelle méthode, les statisticiens utilisaient deux approches principales, qui posaient problème dans votre scénario :

La méthode "Complète" (GLMM) : Elle dit : "On ne regarde que les équipes qui ont eu le temps d'attendre les 12 mois."
- Le problème : Vous ignorez complètement les équipes qui ont commencé tard. C'est comme juger la performance de l'entreprise en ne regardant que les départements les plus anciens. C'est biaisé.
La méthode "Pondérée" (IPCW) : Elle dit : "On va donner un super-pouvoir (un poids énorme) aux quelques équipes tardives qui ont réussi à avoir leur résultat, pour compenser les autres."
- Le problème : Si très peu d'équipes tardives ont réussi (ce qui est le cas quand le délai est long), le "poids" devient astronomique. C'est comme essayer de soulever un éléphant avec un fil de pêche : le résultat devient instable, tremblant et peu fiable.

2. La Solution Magique : Le "Pont" (Surrogate Bridge)

L'idée brillante de cet article est de construire un pont entre le résultat intermédiaire (connu pour tout le monde) et le résultat final (manquant pour certains).

Imaginez que vous voulez prédire le chiffre d'affaires final (Y) de l'équipe tardive.

Vous regardez les équipes qui ont fini à temps. Vous voyez une relation claire : "Quand une équipe a beaucoup de réunions (S), elle a tendance à avoir un bon chiffre d'affaires (Y)."
Au lieu de dire "On ne sait pas le chiffre d'affaires de l'équipe tardive", vous dites : "On connaît le nombre de réunions de l'équipe tardive (S). On applique la relation découverte plus haut pour estimer son chiffre d'affaires probable."

C'est ce qu'ils appellent un "pont de substitut". Au lieu de forcer les données manquantes à parler (ce qui crée du bruit), on utilise les données intermédiaires, qui sont disponibles pour tout le monde, pour combler les trous.

3. La Mécanique : Comment ça marche en pratique ?

Les auteurs ont créé un algorithme en deux étapes, un peu comme un chef cuisinier qui ajuste sa recette :

Étape 1 : La prédiction de base. Ils utilisent une intelligence artificielle (appelée "Super Learner") pour apprendre la relation entre les réunions (S) et le chiffre d'affaires (Y) sur les données complètes.
Étape 2 : L'ajustement fin (Targeting). C'est ici que la magie opère. Souvent, les prédictions de base ne sont pas parfaites. L'algorithme fait un petit ajustement mathématique pour s'assurer que ses prédictions correspondent exactement à la réalité observée, tout en éliminant les erreurs de calcul qui pourraient fausser le résultat final.

Pourquoi est-ce mieux ?
Cette méthode ne dépend pas de "poids" énormes qui font trembler les résultats. Elle est robuste : même si votre modèle de prédiction n'est pas parfait, ou si votre estimation des probabilités de fin de contrat est imparfaite, le résultat final reste fiable (c'est ce qu'on appelle la "double robustesse").

4. Le Contexte Réel : L'expérience du Washington State

Pour prouver que ça marche, ils ont appliqué cette méthode à une vraie étude de santé publique (le trial EPT) sur la transmission du chlamydia.

Le problème : Certaines zones géographiques ont commencé le programme trop tard pour avoir les résultats à 12 mois.
Le résultat : La nouvelle méthode a donné une estimation très précise et stable, avec une marge d'erreur beaucoup plus faible que les anciennes méthodes. Elle a réussi à "sauver" les données des zones tardives en utilisant les indicateurs précoces.

En résumé

Imaginez que vous essayez de prédire la note finale d'un élève (Y) avant la fin de l'année, mais que certains élèves partent en vacances avant les examens finaux.

Les anciennes méthodes ignoraient les partants ou leur donnaient une importance démesurée.
La méthode de Lin Li dit : "Regardons leurs notes de mi-trimestre (S). On sait que les notes de mi-trimestre prédisent bien la note finale. On utilise cette relation pour estimer la note finale des partants, sans avoir besoin de les attendre ni de leur donner un poids magique."

C'est une méthode plus stable, plus juste et plus intelligente pour tirer des conclusions scientifiques même quand les données sont incomplètes à cause du temps.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'article aborde un problème d'estimation semi-paramétrique généralisé rencontré dans les études modernes, en particulier les essais en échelle (stepped-wedge cluster randomized trials - SW-CRT).

Le Défi : Les résultats primaires (ex. : suppression virale à 12 mois) sont souvent observés avec un délai important. Lorsqu'une analyse est effectuée avant que tous les résultats primaires ne soient matures, une censure administrative se produit : seuls un sous-ensemble d'unités (souvent celles ayant basculé tôt dans le traitement) ont des résultats observés.
La Structure des Données : Des mesures de substituts (surrogates) à court terme sont disponibles pour la quasi-totalité des unités, bien avant la maturité du résultat principal.
Limites des Approches Standard :
- Les modèles mixtes paramétriques (GLMM) reposent sur des hypothèses de spécification correcte du modèle de résultat et de la tendance temporelle, ce qui est fragile.
- Les estimateurs pondérés par l'inverse de la probabilité (IPCW) deviennent instables lorsque les probabilités d'observation ( $g_\Delta$ ) s'approchent de zéro (régime de frontière), ce qui est fréquent pour les clusters qui basculent tardivement dans un essai en échelle. Cela entraîne une inflation massive de la variance.

2. Méthodologie Proposée : SA-TMLE

Les auteurs proposent un Estimateur Ciblé Minimum de Perte Assisté par Substitut (SA-TMLE). Cette méthode combine la théorie de l'apprentissage ciblé (Targeted Learning) avec une représentation par "pont" (bridge) utilisant les substituts.

A. Identification par Pont de Substitut (Surrogate-Bridge)

Au lieu d'utiliser directement l'inverse de la probabilité d'observation dans le paramètre cible, l'article identifie l'effet moyen du traitement (ATE) $\Psi(P_0)$ via une formule de G-computation longitudinale :
$\Psi(P_0) = E_{W,t} \left[ E_{S|A=1,W,t} [E[Y | S, A=1, W, t, \Delta=1]] - E_{S|A=0,W,t} [E[Y | S, A=0, W, t, \Delta=1]] \right]$

Hypothèse Clé (MAR médiatisée par le substitut) : Conditionnellement au substitut $S$ , l'indicateur de censure $\Delta$ est indépendant du résultat $Y$ . Cela permet d'intégrer la régression du résultat observé sur la distribution du substitut, évitant ainsi les poids inverses instables dans le paramètre cible lui-même.

B. Construction de l'Estimateur en Deux Étapes

L'article identifie une obstruction théorique majeure : une construction standard "one-step" de l'apprentissage machine débiaisé (DML) laisse un terme résiduel d'ordre deux ( $R_{SY}$ ) impliquant le produit croisé des erreurs d'estimation du modèle de résultat et de la loi conditionnelle du substitut $f_S$ . Ce terme n'est pas éliminé par le simple cross-fitting.

Pour résoudre cela, le SA-TMLE utilise une procédure en deux étapes :

Étape 1 (Estimation Initiale) : Utilisation du Super Learner pour estimer les fonctions de nuisance (régression du résultat, probabilité de censure, etc.).
Étape 2 (Fluctuation Emboîtée / Nested Fluctuation) : Une étape de ciblage supplémentaire est appliquée spécifiquement pour annuler le terme résiduel $R_{SY}$ . Cela se fait en imposant que la moyenne empirique du score efficace soit nulle, ce qui contraint l'estimateur sans nécessiter l'estimation directe de la densité du substitut $f_S$ .

C. Théorie Semi-Paramétrique et Inférence

Absence de Composante de Censure : Sous l'hypothèse de MAR médiatisée par le substitut, le mécanisme de censure ne contribue pas à la composante du score efficace (influence function), simplifiant la structure de l'estimation.
Agrégation au Niveau du Cluster : Pour les essais en échelle, l'unité d'indépendance est le cluster. L'article démontre que l'estimation de la variance doit se faire par somme des contributions individuelles au sein d'un cluster (et non par moyenne), afin de capturer correctement la corrélation intra-cluster (ICC) et la corrélation temporelle.
Robustesse Double : L'estimateur est asymptotiquement linéaire et doublement robuste : la consistance est assurée si soit les modèles de résultat sont bien spécifiés, soit les mécanismes de propension (censure et traitement) le sont.

3. Contributions Clés

Identification Nouvelle : Introduction d'une représentation par "pont de substitut" qui évite l'instabilité des poids inverses dans les régimes de censure administrative sévère.
Résolution de l'Obstruction Semi-Paramétrique : Démonstration qu'une approche DML standard échoue pour les fonctionnels emboîtés à cause d'un terme résiduel $R_{SY}$ , et proposition d'une étape de ciblage en deux temps pour éliminer ce terme sans estimer la densité du substitut.
Inférence Valide pour les Clusters : Établissement d'une règle de sommation (au lieu de la moyenne) pour les scores efficaces au niveau des clusters, essentielle pour une estimation de variance correcte dans les essais groupés.

4. Résultats des Simulations et Études de Cas

Les auteurs valident la méthode via des études de Monte Carlo et une illustration sur l'essai EPT de l'État de Washington.

Performance en Échantillon Fini (Simulations) :
- Stabilité : Le SA-TMLE maintient un biais proche de zéro et une variance stable même lorsque le taux de censure atteint 43% et que les probabilités d'observation deviennent très faibles.
- Comparaison :
  - Les estimateurs IPCW souffrent d'une inflation de variance extrême et d'un biais important.
  - Les modèles GLMM (paramétriques) présentent un biais persistant dû à une mauvaise spécification de la tendance temporelle.
- Robustesse Double : Les simulations montrent que lorsque le modèle de résultat est bien spécifié, le SA-TMLE reste robuste même si le modèle de censure est mal spécifié. Cependant, en cas de double mauvaise spécification, un biais subsiste (comportement attendu).
- Couverture : La couverture des intervalles de confiance est légèrement inférieure à 95% (autour de 87-91%) dans les petits échantillons de clusters, principalement due à la variance non capturée du terme résiduel d'ordre deux, mais reste bien supérieure à celle des méthodes concurrentes.
Étude de Cas (Washington State EPT) :
- Application à un essai en échelle réel avec 23 clusters et un taux de censure de 33,7% (86% pour les derniers vagues).
- Le SA-TMLE produit un intervalle de confiance deux fois plus étroit que l'IPCW (0,034 vs 0,068) tout en couvrant la vérité connue (ATE oracle), démontrant son efficacité pratique.

5. Signification et Implications

Cet article offre une solution théorique et pratique robuste pour l'analyse des essais cliniques où les résultats sont retardés et censurés administrativement.

Au-delà des Essais en Échelle : Bien que motivé par les SW-CRT, le cadre s'applique à toute situation où un résultat primaire est rarement observé à l'analyse mais où un substitut précoce est largement disponible.
Avance Méthodologique : L'article démontre que pour les fonctionnels semi-paramétriques emboîtés complexes, les méthodes de débiaisage standard (DML one-step) peuvent être insuffisantes, nécessitant des étapes de ciblage spécifiques pour gérer les termes d'ordre deux.
Praticabilité : La méthode est implémentée dans un package R (swcrtSurrTMLE) et ne nécessite pas d'estimation directe de la densité du substitut, ce qui la rend applicable dans des contextes réalistes avec des données complexes.

En résumé, le SA-TMLE permet d'exploiter efficacement les données de substituts pour stabiliser l'inférence causale dans des conditions de censure sévère, là où les méthodes traditionnelles échouent ou deviennent instables.