Variance reduction combining pre-experiment and in-experiment data

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma grande loja online, como a Etsy. Toda semana, você testa novas ideias: talvez mudar a cor de um botão, rearranjar a ordem dos produtos ou alterar o algoritmo de recomendação. Para saber se uma mudança é boa, você faz um teste A/B: mostra a versão nova para metade dos clientes (o "tratamento") e a versão antiga para a outra metade (o "controle").

O objetivo é medir a diferença média no comportamento (como vendas ou cliques) entre os dois grupos. Mas há um problema: os clientes são imprevisíveis. Alguns compram muito, outros nada. Isso cria "ruído" nos dados, tornando difícil saber se a mudança que você fez foi realmente eficaz ou se foi apenas sorte.

Para resolver isso, os cientistas de dados usam uma técnica chamada redução de variância. É como tentar ouvir uma conversa em uma festa barulhenta: se você conseguir filtrar o ruído de fundo, a voz fica mais clara.

O Problema: O que os métodos antigos faziam?

Até agora, as empresas usavam dados anteriores ao teste (como o histórico de compras do cliente na semana passada) para tentar prever o comportamento e "filtrar" o ruído.

A analogia: Imagine tentar prever se um jogador vai marcar um gol no futebol de hoje olhando apenas para o quanto ele treinou na semana passada. É útil, mas não é perfeito. O treinamento passado não explica tudo o que acontece no campo hoje.

O problema é que dados antigos às vezes não têm muita relação com o que está acontecendo agora. E, muitas vezes, os dados mais importantes (como quantas vezes o cliente clicou em um produto durante o teste) são ignorados porque os cientistas têm medo de usar informações que podem ser influenciadas pela própria mudança que estão testando (o que poderia distorcer o resultado).

A Solução: O Novo Método (O "Duplo Filtro")

Os autores deste artigo propuseram uma maneira inteligente de usar dados que acontecem durante o teste (dados "in-experiment") sem estragar a medição.

Eles criaram um processo de duas etapas:

Etapa 1 (O Filtro Inteligente): Primeiro, eles usam o modelo antigo (baseado em dados históricos) para fazer uma previsão inicial. É como ter um "olho experiente" que já sabe o perfil do cliente.
Etapa 2 (O Filtro de Segurança): Aqui está a mágica. Eles olham para o que aconteceu durante o teste (ex: quantas páginas o cliente viu, quanto tempo ficou na loja). Mas eles não usam tudo! Eles fazem um teste de segurança rigoroso.

A analogia do "Espelho":
Pense nos dados do teste como um espelho. Se você mudar a iluminação (o tratamento), o reflexo muda. Mas, se você olhar para o chão da loja (dados que não mudam com a iluminação), o reflexo permanece o mesmo.
O método deles pergunta: "Esse dado específico (ex: tempo de sessão) mudou porque mudamos o botão, ou ele mudou apenas porque o cliente é assim?"

Se o dado mudou por causa do botão, não usamos (para não esconder o efeito do botão).
Se o dado é estável e apenas ajuda a prever o comportamento (como o tempo que o cliente passa na loja, que é alto tanto para quem vê o botão novo quanto para quem vê o velho), usamos para limpar o ruído.

Por que isso é genial?

Segurança: Eles não usam dados aleatórios. Eles selecionam apenas os dados que provaram ser "inocentes" (não influenciados pelo teste) através de testes estatísticos. É como ter um guarda-costas que verifica a identidade de cada pessoa antes de deixá-la entrar na sala de controle.
Precisão: Como os dados do momento (durante o teste) são muito mais relacionados ao resultado final do que os dados antigos, o "ruído" é removido com muito mais eficiência.
Simplicidade: O método é rápido e não precisa de supercomputadores. Ele se encaixa perfeitamente nos sistemas que as empresas já usam.

O Resultado na Vida Real

Os autores testaram isso na Etsy, analisando 29 experimentos diferentes.

O que aconteceu: Ao adicionar apenas 23 variáveis do momento do teste (além das 117 variáveis antigas), eles conseguiram reduzir o "ruído" significativamente mais do que os métodos atuais.
A metáfora final: Imagine que você está tentando adivinhar o peso de uma caixa de presentes balançando-a.
- O método antigo olha para o tamanho da caixa (dados antigos).
- O novo método olha para o tamanho da caixa E escuta o som que ela faz quando você a balança (dados do momento), mas só escuta se o som não for causado pelo fato de você ter mudado a caixa (o tratamento).
- Resultado: Você descobre o peso (o efeito real da mudança) com muito mais certeza e rapidez.

Resumo para Levar para Casa

Este artigo ensina que não precisamos ter medo de usar dados que acontecem durante um teste, desde que sejamos inteligentes na escolha. Ao combinar o conhecimento do passado com uma verificação de segurança do presente, podemos tomar decisões de negócios mais rápidas, precisas e confiáveis, sem gastar mais dinheiro coletando dados. É como ter óculos de visão noturna para enxergar o sinal real em meio ao caos do dia a dia.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

Contexto:
Experimentos controlados online (testes A/B) são fundamentais para a tomada de decisões baseadas em dados em grandes empresas. O objetivo principal é estimar o Efeito Médio do Tratamento (ATE) com precisão. Sob restrições de tamanho de amostra fixo, a sensibilidade do experimento depende diretamente da variância do estimador do ATE.

Limitações das Técnicas Atuais:
Métodos existentes de redução de variância, como CUPED (Controlled-experiment Using Pre-Experiment Data) e CUPAC (Control Using Predictions as Covariates), utilizam apenas dados pré-experimento (covariáveis observadas antes da atribuição do tratamento) para ajuste de regressão.

Desafio: A eficácia desses métodos é limitada pela capacidade preditiva dos dados históricos sobre os resultados do experimento. Em muitos casos, a correlação entre dados históricos e resultados atuais é fraca.
Oportunidade Ignorada: Dados coletados durante o experimento (in-experiment data) geralmente possuem uma correlação muito mais forte com o resultado final.
Obstáculo Causal: O uso indiscriminado de variáveis pós-tratamento pode introduzir viés, pois muitas delas atuam como mediadores (o tratamento afeta a variável, que por sua vez afeta o resultado). Ajustar para mediadores remove parte do efeito causal que se deseja medir.

Questão Central: Como aproveitar a alta correlação dos dados in-experimento para reduzir a variância sem introduzir viés de pós-tratamento?

2. Metodologia Proposta

Os autores propõem um framework geral, robusto e escalável que combina dados pré-experimento e in-experimento em um procedimento de dois estágios.

2.1. Premissa Fundamental

Nem todas as variáveis pós-tratamento são mediadoras. Existem covariáveis pós-tratamento que, embora observadas após a atribuição do tratamento, são insensíveis ao tratamento (ou seja, o tratamento não as afeta) ou são equilibradas entre os grupos.

Condição de Equivalência de Médias: Para que o ajuste linear seja não enviesado, é suficiente que a média da covariável pós-tratamento $Z$ seja a mesma em ambos os braços (tratamento e controle): $E[Z | W=1] = E[Z | W=0]$ . Isso é uma condição mais fraca do que a independência total da distribuição.

2.2. O Algoritmo de Dois Estágios

O método proposto mantém o modelo de primeira etapa do CUPAC e adiciona um ajuste linear de segunda etapa:

Primeiro Estágio (Pré-experimento):
- Utiliza-se um modelo de aprendizado de máquina (ex: LightGBM, redes neurais) treinado em dados históricos para prever o resultado $Y$ usando apenas covariáveis pré-tratamento $X$ .
- Obtém-se o modelo ajustado $\hat{f}(X)$ e os resíduos $\hat{R}_i = Y_i - \hat{f}(X_i)$ .
- Isso captura a variância explicada por dados históricos, similar ao CUPAC.
Seleção de Covariáveis Pós-Tratamento ( $Z$ ):
- Um conjunto de candidatos de covariáveis pós-tratamento é submetido a testes estatísticos de duas amostras (ex: teste U de Mann-Whitney) para verificar a hipótese nula de equilíbrio de médias entre tratamento e controle.
- Apenas as covariáveis que não rejeitam a hipótese de equilíbrio (são plausivelmente insensíveis ao tratamento) são selecionadas para o ajuste.
Segundo Estágio (Ajuste Linear):
- Realiza-se uma regressão linear dos resíduos do primeiro estágio ( $\hat{R}_i$ ) sobre as covariáveis selecionadas $Z_i$ .
- Obtém-se o vetor de coeficientes $\hat{\gamma}$ .
- O estimador final do ATE é calculado como a diferença de médias dos valores ajustados:
  $\hat{\tau} = \frac{1}{n_1}\sum_{W_i=1} (Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i) - \frac{1}{n_0}\sum_{W_i=0} (Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i)$

2.3. Propriedades Teóricas

Consistência: O estimador é consistente e assintoticamente normal.
Viés: O viés é determinado apenas pelo desequilíbrio de médias das covariáveis selecionadas. Se a condição de equilíbrio de médias for satisfeita, o estimador é não enviesado.
Eficiência: O método não requer suposições restritivas como "surrogacy" (substituição) ou "principal ignorability", comuns em trabalhos anteriores sobre variáveis pós-tratamento.
Vantagem Computacional: Ao usar um ajuste linear na segunda etapa, evita-se a necessidade de treinar modelos complexos não-lineares para cada experimento, mantendo a compatibilidade com pipelines industriais existentes.

3. Contribuições Principais

Novo Framework de Redução de Variância: Introdução de uma metodologia que integra dados in-experimento ao pipeline padrão de CUPAC/CUPED, superando a limitação de dependência exclusiva de dados históricos.
Procedimento de Seleção Segura: Desenvolvimento de um protocolo prático baseado em testes de equilíbrio de médias e conhecimento de domínio para identificar quais variáveis pós-tratamento podem ser usadas com segurança, evitando mediadores.
Fundamentação Teórica: Prova de consistência e normalidade assintótica do estimador, juntamente com estimadores de variância consistentes, sem a necessidade de sample splitting (separação de amostras) em cenários onde o modelo de primeira etapa é pré-treinado offline.
Validação Empírica em Escala: Aplicação e validação em 29 experimentos reais da Etsy, demonstrando ganhos práticos significativos.

4. Resultados Empíricos

Os autores aplicaram o método em 29 experimentos online da Etsy, com foco na taxa de conversão de clientes.

Configuração:
- CUPAC (Baseline): Utilizou 117 covariáveis pré-tratamento e um modelo LightGBM.
- Método Proposto: Adicionou 23 covariáveis pós-tratamento selecionadas (contagens de eventos como visualizações de detalhes, duração da sessão, etc.) ao modelo CUPAC.
Desempenho:
- Melhoria na Precisão Preditiva: Houve uma melhoria consistente no $R^2$ (medida pela raiz quadrada da diferença entre o $R^2$ do modelo combinado e o do CUPAC), variando de 0,02 a mais de 0,14.
- Redução de Variância: O método proposto alcançou uma redução de variância adicional substancial sobre o CUPAC, mesmo utilizando muito menos covariáveis (23 pós-tratamento vs. 117 pré-tratamento).
- Gráficos: As figuras do artigo mostram que a redução de variância adicional (barras laranjas) foi frequentemente comparável ou superior à redução obtida pelo CUPAC sobre o estimador de diferença de médias (barras azuis).

5. Significado e Impacto

Quebra de Paradigma na Indústria: O trabalho desafia a prática comum de excluir totalmente dados pós-tratamento de ajustes de regressão devido ao medo de viés. Ele demonstra que, com a seleção correta, esses dados são uma fonte valiosa de informação.
Eficiência Operacional: Permite detectar efeitos de tratamento mais rapidamente (reduzindo o tempo de execução dos testes A/B) sem aumentar o custo de tráfego ou o tamanho da amostra.
Aplicabilidade Prática: O método é computacionalmente eficiente, escalável e compatível com pipelines de dados existentes em grandes plataformas de e-commerce e streaming.
Generalização: A abordagem é aplicável a diversos setores onde testes A/B são comuns, oferecendo uma solução prática para o dilema entre viés e variância no uso de dados temporais.

Em resumo, o artigo fornece uma ponte teórica e prática para utilizar dados gerados durante o experimento, transformando variáveis que antes eram consideradas "perigosas" (pós-tratamento) em ativos poderosos para a precisão estatística.