Variance reduction combining pre-experiment and in-experiment data

Este artículo propone un marco general y escalable que combina datos pre-experimentales e intra-experimentales para reducir la varianza en pruebas A/B, mejorando significativamente la sensibilidad de los experimentos sin introducir sesgos, tal como se demuestra en estudios de caso de Etsy.

Zhexiao Lin, Pablo Crespo

Publicado 2026-03-24
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

Imagina que eres el jefe de una gran tienda online (como Etsy) y quieres probar si un nuevo botón de "Comprar" en rojo funciona mejor que el antiguo en azul. Para saberlo, divides a tus clientes en dos grupos: uno ve el botón rojo y el otro el azul. A esto se le llama experimento A/B.

El problema es que, a veces, el resultado es tan "ruidoso" (como una fiesta con mucha música de fondo) que es difícil escuchar si el botón rojo realmente hizo la diferencia. Necesitas mucha gente participando para estar seguro, lo cual cuesta mucho tiempo y dinero.

Los científicos de datos ya tenían una herramienta para reducir ese "ruido": CUPED/CUPAC. Imagina que esta herramienta es como un filtro de ruido que usa la historia del cliente (lo que compró ayer, cuánto tiempo navegó la semana pasada) para predecir qué debería haber pasado. Al restar esa predicción del resultado real, el "ruido" disminuye y la señal se hace más clara.

Pero, ¿y si el filtro de ruido es incompleto?

Aquí es donde entra este nuevo artículo. Los autores dicen: "Esperen, estamos ignorando una fuente de información increíblemente valiosa: lo que los clientes hacen mientras están viendo el botón nuevo".

La Analogía del "Cocinero y el Plato"

Imagina que quieres probar si una nueva receta de salsa (el tratamiento) hace que el plato sea más delicioso (el resultado).

  1. El método antiguo (CUPED): Mira los ingredientes que tenías en la despensa antes de empezar a cocinar (datos previos). Si tenías tomates viejos, sabías que el plato podría salir malo. Ajustas tu predicción basándote en eso.
  2. El problema: A veces, lo que pasa durante la cocción es más importante. Por ejemplo, si el chef (el usuario) empieza a bailar mientras cocina, o si el fuego se pone muy fuerte. Estos son los datos "en el experimento".
  3. El riesgo: Si usas el dato "bailar" para ajustar tu predicción, podrías estar cometiendo un error. ¿Por qué? Porque quizás la nueva salsa hace que la gente baile. Si ajustas por el baile, estarías "borrando" parte del efecto de tu nueva salsa. ¡Eso sería un desastre!

La Solución Propuesta: El "Filtro Inteligente de Dos Etapas"

Los autores proponen una forma segura de usar esos datos en tiempo real sin cometer errores. Su método es como un filtro de dos capas:

  1. Capa 1 (La Historia): Usan el método antiguo (CUPAC) con los datos de la despensa (historia del usuario) para hacer una buena predicción inicial.
  2. Capa 2 (El Escrutinio): Aquí viene la magia. Toman los datos que ocurren durante la prueba (ej. cuántas veces el usuario hizo clic en un producto, cuánto tiempo se quedó en la página) y les hacen una prueba de verdad.

La pregunta clave es: ¿La nueva salsa (el tratamiento) cambió la forma en que la gente baila o mira el fuego?

  • Si la respuesta es (el tratamiento afecta la variable), NO la usamos. Es un "mediador" y nos quitaría el efecto que queremos medir.
  • Si la respuesta es NO (la gente baila igual de mucho con la salsa roja que con la azul), la usamos.

¿Por qué funciona?

Imagina que tienes un grupo de 100 personas.

  • Con el método viejo, usas sus datos de ayer para predecir su estado de ánimo hoy.
  • Con el método nuevo, miras también lo que hicieron hoy (pero solo si su comportamiento de hoy no fue causado por el botón rojo).

Si ves que, independientemente del botón, todos miraron el reloj 5 veces, ese dato es muy útil para predecir si comprarán o no, porque está muy relacionado con la decisión. Al incluirlo (solo si es seguro), el "ruido" desaparece casi por completo.

El Resultado en la Vida Real

Los autores probaron esto en Etsy con 29 experimentos reales.

  • Antes: Usaban 117 datos históricos para limpiar el ruido.
  • Ahora: Usan esos 117 datos históricos más solo 23 datos en tiempo real (que pasaron la prueba de seguridad).

El resultado: ¡El ruido se redujo mucho más! Esto significa que pueden detectar si un cambio funciona con menos clientes y menos tiempo. Es como tener un telescopio más potente sin tener que construir una torre más alta.

En Resumen

Este paper nos enseña que no tenemos que tener miedo de usar los datos que ocurren durante el experimento. Solo necesitamos ser inteligentes:

  1. Usar la historia para una buena base.
  2. Filtrar los datos en tiempo real para asegurarnos de que no son causados por el experimento.
  3. Si son seguros, ¡usarlos! Porque son mucho más fuertes y predictivos que la historia antigua.

Es una forma de hacer que las decisiones de negocios sean más rápidas, baratas y precisas, simplemente escuchando mejor lo que dicen los datos en el momento presente.

¿Ahogado en artículos de tu campo?

Recibe resúmenes diarios de los artículos más novedosos que coincidan con tus palabras clave de investigación — con resúmenes técnicos, en tu idioma.

Probar Digest →