Variance reduction combining pre-experiment and in-experiment data

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres el jefe de una gran tienda online (como Etsy) y quieres probar si un nuevo botón de "Comprar" en rojo funciona mejor que el antiguo en azul. Para saberlo, divides a tus clientes en dos grupos: uno ve el botón rojo y el otro el azul. A esto se le llama experimento A/B.

El problema es que, a veces, el resultado es tan "ruidoso" (como una fiesta con mucha música de fondo) que es difícil escuchar si el botón rojo realmente hizo la diferencia. Necesitas mucha gente participando para estar seguro, lo cual cuesta mucho tiempo y dinero.

Los científicos de datos ya tenían una herramienta para reducir ese "ruido": CUPED/CUPAC. Imagina que esta herramienta es como un filtro de ruido que usa la historia del cliente (lo que compró ayer, cuánto tiempo navegó la semana pasada) para predecir qué debería haber pasado. Al restar esa predicción del resultado real, el "ruido" disminuye y la señal se hace más clara.

Pero, ¿y si el filtro de ruido es incompleto?

Aquí es donde entra este nuevo artículo. Los autores dicen: "Esperen, estamos ignorando una fuente de información increíblemente valiosa: lo que los clientes hacen mientras están viendo el botón nuevo".

La Analogía del "Cocinero y el Plato"

Imagina que quieres probar si una nueva receta de salsa (el tratamiento) hace que el plato sea más delicioso (el resultado).

El método antiguo (CUPED): Mira los ingredientes que tenías en la despensa antes de empezar a cocinar (datos previos). Si tenías tomates viejos, sabías que el plato podría salir malo. Ajustas tu predicción basándote en eso.
El problema: A veces, lo que pasa durante la cocción es más importante. Por ejemplo, si el chef (el usuario) empieza a bailar mientras cocina, o si el fuego se pone muy fuerte. Estos son los datos "en el experimento".
El riesgo: Si usas el dato "bailar" para ajustar tu predicción, podrías estar cometiendo un error. ¿Por qué? Porque quizás la nueva salsa hace que la gente baile. Si ajustas por el baile, estarías "borrando" parte del efecto de tu nueva salsa. ¡Eso sería un desastre!

La Solución Propuesta: El "Filtro Inteligente de Dos Etapas"

Los autores proponen una forma segura de usar esos datos en tiempo real sin cometer errores. Su método es como un filtro de dos capas:

Capa 1 (La Historia): Usan el método antiguo (CUPAC) con los datos de la despensa (historia del usuario) para hacer una buena predicción inicial.
Capa 2 (El Escrutinio): Aquí viene la magia. Toman los datos que ocurren durante la prueba (ej. cuántas veces el usuario hizo clic en un producto, cuánto tiempo se quedó en la página) y les hacen una prueba de verdad.

La pregunta clave es: ¿La nueva salsa (el tratamiento) cambió la forma en que la gente baila o mira el fuego?

Si la respuesta es SÍ (el tratamiento afecta la variable), NO la usamos. Es un "mediador" y nos quitaría el efecto que queremos medir.
Si la respuesta es NO (la gente baila igual de mucho con la salsa roja que con la azul), SÍ la usamos.

¿Por qué funciona?

Imagina que tienes un grupo de 100 personas.

Con el método viejo, usas sus datos de ayer para predecir su estado de ánimo hoy.
Con el método nuevo, miras también lo que hicieron hoy (pero solo si su comportamiento de hoy no fue causado por el botón rojo).

Si ves que, independientemente del botón, todos miraron el reloj 5 veces, ese dato es muy útil para predecir si comprarán o no, porque está muy relacionado con la decisión. Al incluirlo (solo si es seguro), el "ruido" desaparece casi por completo.

El Resultado en la Vida Real

Los autores probaron esto en Etsy con 29 experimentos reales.

Antes: Usaban 117 datos históricos para limpiar el ruido.
Ahora: Usan esos 117 datos históricos más solo 23 datos en tiempo real (que pasaron la prueba de seguridad).

El resultado: ¡El ruido se redujo mucho más! Esto significa que pueden detectar si un cambio funciona con menos clientes y menos tiempo. Es como tener un telescopio más potente sin tener que construir una torre más alta.

En Resumen

Este paper nos enseña que no tenemos que tener miedo de usar los datos que ocurren durante el experimento. Solo necesitamos ser inteligentes:

Usar la historia para una buena base.
Filtrar los datos en tiempo real para asegurarnos de que no son causados por el experimento.
Si son seguros, ¡usarlos! Porque son mucho más fuertes y predictivos que la historia antigua.

Es una forma de hacer que las decisiones de negocios sean más rápidas, baratas y precisas, simplemente escuchando mejor lo que dicen los datos en el momento presente.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo en español, estructurado según los puntos solicitados:

Título: Reducción de varianza combinando datos pre-experimento y datos intra-experimento

Autores: Zhexiao Lin (UC Berkeley) y Pablo Crespo (Etsy)
Fuente: Proceedings of Machine Learning Research, 5ª Conferencia sobre Aprendizaje Causal y Razonamiento (2026).

1. El Problema

En la toma de decisiones basada en datos, los experimentos controlados en línea (pruebas A/B) son fundamentales. El objetivo principal es estimar con precisión el Efecto Promedio del Tratamiento (ATE). Sin embargo, bajo restricciones de tamaño de muestra fijo, mejorar la sensibilidad de estos experimentos requiere reducir la varianza del estimador del ATE.

Limitaciones de los métodos actuales: Técnicas existentes como CUPED (Controlled-experiment Using Pre-Experiment Data) y CUPAC (Control Using Predictions as Covariates) utilizan datos pre-experimento (covariables anteriores al tratamiento) para ajustar la regresión y reducir la varianza. Su efectividad depende de la capacidad predictiva de estos datos históricos sobre los resultados.
El desafío de los datos intra-experimento: Los datos recopilados durante el experimento (post-tratamiento) suelen estar más fuertemente correlacionados con el resultado final que los datos históricos. No obstante, su uso es riesgoso: si una covariable post-tratamiento es un mediador (es decir, el tratamiento la afecta y ella afecta al resultado), ajustarla eliminaría parte del efecto causal, introduciendo un sesgo.
La brecha: La industria evita usar datos intra-experimento por miedo al sesgo, perdiendo así una fuente potencialmente rica de reducción de varianza. La pregunta clave no es si usarlos, sino cómo identificar un subconjunto seguro que no introduzca sesgo.

2. Metodología Propuesta

Los autores proponen un marco general, robusto y escalable que combina datos pre-experimento e intra-experimento mediante un enfoque de dos etapas:

A. Selección de Covariables Post-Tratamiento (Filtro de Seguridad)

El núcleo de la propuesta es identificar covariables post-tratamiento ( $Z$ ) que sean insensibles al tratamiento en términos de su media.

Condición de Equivalencia de Medias: En lugar de asumir independencia total o condiciones de sustitución fuertes (como en métodos de mediación), el método requiere solo que $E[Z | W=1] = E[Z | W=0]$ . Esto significa que, aunque el tratamiento pueda afectar la distribución de $Z$ , no debe alterar su media.
Procedimiento de Selección: Se realizan pruebas estadísticas de dos muestras (ej. prueba U de Mann-Whitney) para cada candidato $Z$ en cada experimento. Se seleccionan aquellas donde no se rechaza la hipótesis nula de igualdad de medias. Se pueden usar correcciones para pruebas múltiples (Bonferroni) o pruebas de equivalencia para ser conservadores.

B. Estimador de Dos Etapas

Una vez seleccionadas las covariables seguras $Z$ , se aplica un ajuste lineal en una segunda etapa:

Etapa 1 (CUPAC): Se entrena un modelo de aprendizaje automático (o lineal) $\hat{f}(X)$ utilizando solo las covariables pre-tratamiento $X$ para predecir el resultado $Y$ . Se obtienen los residuos $\hat{R}_i = Y_i - \hat{f}(X_i)$ .
Etapa 2 (Ajuste Lineal): Se realiza una regresión lineal de los residuos $\hat{R}_i$ sobre las covariables post-tratamiento seleccionadas $Z_i$ para obtener coeficientes $\hat{\gamma}$ .
Estimador Final:
$\hat{\tau} = \frac{1}{n_1}\sum_{W_i=1} (Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i) - \frac{1}{n_0}\sum_{W_i=0} (Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i)$

C. Fundamentos Teóricos

Consistencia y Normalidad Asintótica: El estimador es consistente y asintóticamente normal.
Robustez: No requiere suposiciones restrictivas como "ignorabilidad principal" o "sustitutos perfectos". Solo requiere que el modelo de predicción de la primera etapa sea consistente en $L_2$ y que las covariables seleccionadas cumplan la condición de equivalencia de medias.
Eficiencia: Si el ajuste combinado coincide con la media condicional verdadera, el estimador alcanza el límite de eficiencia semiparamétrica.

3. Contribuciones Clave

Marco Híbrido: Es la primera propuesta que integra sistemáticamente datos pre-experimento (para modelado no lineal complejo) y datos intra-experimento (para ajuste lineal de residuos) en un solo estimador de ATE.
Suposiciones Débiles y Prácticas: Cambia el paradigma de evitar cualquier variable post-tratamiento a un enfoque de "selección segura" basado en la equivalencia de medias, una condición más débil y verificable empíricamente que la independencia total.
Escalabilidad y Eficiencia Computacional:
- Mantiene el modelo de primera etapa (CUPAC) fijo (entrenado offline), evitando reentrenar modelos complejos para cada experimento.
- La segunda etapa es una regresión lineal simple, computacionalmente barata.
- Utiliza un pequeño subconjunto de covariables seleccionadas, evitando la maldición de la dimensionalidad.
Teoría de Selección: Proporciona garantías asintóticas (Proposiciones 2 y 3) sobre la consistencia del procedimiento de selección de covariables, asegurando que las variables sesgadas no se incluyan en grandes muestras.

4. Resultados Empíricos

Los autores validaron el método en 29 experimentos en línea reales realizados en Etsy:

Configuración:
- Línea base (CUPAC): Utilizó 117 covariables pre-tratamiento y un modelo LightGBM.
- Método Propuesto: Añadió solo 23 covariables post-tratamiento seleccionadas mediante pruebas de equilibrio.
Hallazgos:
- Reducción de Varianza Adicional: El método propuesto logró una reducción de varianza adicional significativa sobre CUPAC en todos los experimentos.
- Mejora en Precisión: La mejora en la precisión predictiva (medida por la raíz cuadrada de la diferencia de $R^2$ ) osciló entre 0.02 y más de 0.14.
- Eficiencia de Datos: Logró estas ganancias utilizando un número mucho menor de covariables (23 post-tratamiento) en comparación con las 117 pre-tratamiento, demostrando que los datos intra-experimento son más informativos por unidad de covariable.
- Robustez: Los resultados fueron consistentes incluso con una selección conservadora de covariables.

5. Significado e Impacto

Para la Industria: El trabajo ofrece una solución práctica para plataformas de experimentación a gran escala (como Etsy, Amazon, Google) que buscan acelerar los ciclos de iteración de productos sin aumentar los costos de recolección de datos. Permite detectar efectos más pequeños más rápido.
Cambio de Paradigma: Desmitifica el uso de datos post-tratamiento. Demuestra que no es necesario descartar variables valiosas por miedo al sesgo, siempre que se aplique un protocolo de selección riguroso basado en la equivalencia de medias.
Viabilidad Operativa: Al no requerir el reentrenamiento de modelos complejos para cada experimento y funcionar con datos disponibles universalmente (incluso para usuarios nuevos sin historial), el método es ideal para entornos de producción donde la latencia y los recursos son críticos.

En resumen, este artículo presenta un avance metodológico que maximiza la sensibilidad de las pruebas A/B al explotar inteligentemente la información temporalmente cercana al resultado, manteniendo la validez causal mediante un diseño de dos etapas y una selección rigurosa de covariables.