Variance reduction combining pre-experiment and in-experiment data

Este artigo propõe um framework geral e escalável que combina dados pré-experimentais e intra-experimentais para reduzir a variância na estimação do efeito médio do tratamento em testes A/B, demonstrando ganhos significativos de sensibilidade em experimentos reais da Etsy.

Zhexiao Lin, Pablo Crespo

Publicado 2026-03-24
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é o gerente de uma grande loja online, como a Etsy. Toda semana, você testa novas ideias: talvez mudar a cor de um botão, rearranjar a ordem dos produtos ou alterar o algoritmo de recomendação. Para saber se uma mudança é boa, você faz um teste A/B: mostra a versão nova para metade dos clientes (o "tratamento") e a versão antiga para a outra metade (o "controle").

O objetivo é medir a diferença média no comportamento (como vendas ou cliques) entre os dois grupos. Mas há um problema: os clientes são imprevisíveis. Alguns compram muito, outros nada. Isso cria "ruído" nos dados, tornando difícil saber se a mudança que você fez foi realmente eficaz ou se foi apenas sorte.

Para resolver isso, os cientistas de dados usam uma técnica chamada redução de variância. É como tentar ouvir uma conversa em uma festa barulhenta: se você conseguir filtrar o ruído de fundo, a voz fica mais clara.

O Problema: O que os métodos antigos faziam?

Até agora, as empresas usavam dados anteriores ao teste (como o histórico de compras do cliente na semana passada) para tentar prever o comportamento e "filtrar" o ruído.

  • A analogia: Imagine tentar prever se um jogador vai marcar um gol no futebol de hoje olhando apenas para o quanto ele treinou na semana passada. É útil, mas não é perfeito. O treinamento passado não explica tudo o que acontece no campo hoje.

O problema é que dados antigos às vezes não têm muita relação com o que está acontecendo agora. E, muitas vezes, os dados mais importantes (como quantas vezes o cliente clicou em um produto durante o teste) são ignorados porque os cientistas têm medo de usar informações que podem ser influenciadas pela própria mudança que estão testando (o que poderia distorcer o resultado).

A Solução: O Novo Método (O "Duplo Filtro")

Os autores deste artigo propuseram uma maneira inteligente de usar dados que acontecem durante o teste (dados "in-experiment") sem estragar a medição.

Eles criaram um processo de duas etapas:

  1. Etapa 1 (O Filtro Inteligente): Primeiro, eles usam o modelo antigo (baseado em dados históricos) para fazer uma previsão inicial. É como ter um "olho experiente" que já sabe o perfil do cliente.
  2. Etapa 2 (O Filtro de Segurança): Aqui está a mágica. Eles olham para o que aconteceu durante o teste (ex: quantas páginas o cliente viu, quanto tempo ficou na loja). Mas eles não usam tudo! Eles fazem um teste de segurança rigoroso.

A analogia do "Espelho":
Pense nos dados do teste como um espelho. Se você mudar a iluminação (o tratamento), o reflexo muda. Mas, se você olhar para o chão da loja (dados que não mudam com a iluminação), o reflexo permanece o mesmo.
O método deles pergunta: "Esse dado específico (ex: tempo de sessão) mudou porque mudamos o botão, ou ele mudou apenas porque o cliente é assim?"

  • Se o dado mudou por causa do botão, não usamos (para não esconder o efeito do botão).
  • Se o dado é estável e apenas ajuda a prever o comportamento (como o tempo que o cliente passa na loja, que é alto tanto para quem vê o botão novo quanto para quem vê o velho), usamos para limpar o ruído.

Por que isso é genial?

  1. Segurança: Eles não usam dados aleatórios. Eles selecionam apenas os dados que provaram ser "inocentes" (não influenciados pelo teste) através de testes estatísticos. É como ter um guarda-costas que verifica a identidade de cada pessoa antes de deixá-la entrar na sala de controle.
  2. Precisão: Como os dados do momento (durante o teste) são muito mais relacionados ao resultado final do que os dados antigos, o "ruído" é removido com muito mais eficiência.
  3. Simplicidade: O método é rápido e não precisa de supercomputadores. Ele se encaixa perfeitamente nos sistemas que as empresas já usam.

O Resultado na Vida Real

Os autores testaram isso na Etsy, analisando 29 experimentos diferentes.

  • O que aconteceu: Ao adicionar apenas 23 variáveis do momento do teste (além das 117 variáveis antigas), eles conseguiram reduzir o "ruído" significativamente mais do que os métodos atuais.
  • A metáfora final: Imagine que você está tentando adivinhar o peso de uma caixa de presentes balançando-a.
    • O método antigo olha para o tamanho da caixa (dados antigos).
    • O novo método olha para o tamanho da caixa E escuta o som que ela faz quando você a balança (dados do momento), mas só escuta se o som não for causado pelo fato de você ter mudado a caixa (o tratamento).
    • Resultado: Você descobre o peso (o efeito real da mudança) com muito mais certeza e rapidez.

Resumo para Levar para Casa

Este artigo ensina que não precisamos ter medo de usar dados que acontecem durante um teste, desde que sejamos inteligentes na escolha. Ao combinar o conhecimento do passado com uma verificação de segurança do presente, podemos tomar decisões de negócios mais rápidas, precisas e confiáveis, sem gastar mais dinheiro coletando dados. É como ter óculos de visão noturna para enxergar o sinal real em meio ao caos do dia a dia.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →