Causal Matrix Completion under Multiple Treatments via Mixed Synthetic Nearest Neighbors

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando reconstruir o que aconteceu em um grande crime, mas a maioria das testemunhas desapareceu ou se recusou a falar. Você sabe que existem diferentes tipos de "interrogatórios" (tratamentos) que poderiam ter sido feitos, mas para a maioria deles, você tem muito pouca informação.

Este artigo apresenta uma nova ferramenta chamada MSNN (Vizinhos Sintéticos Mistos) que ajuda a preencher essas lacunas de informação de uma forma inteligente. Vamos usar uma analogia simples para entender como funciona:

O Problema: O Quebra-Cabeça Incompleto

Imagine que você tem um quebra-cabeça gigante representando os resultados de um experimento (como o efeito de diferentes níveis de um medicamento ou de uma campanha publicitária).

O Cenário: Você tem várias "caixas" de peças, cada uma correspondendo a um tipo diferente de tratamento (ex: Tratamento A, Tratamento B, Tratamento C).
O Dilema: Para o Tratamento A, você tem muitas peças. Para o Tratamento C, você tem apenas 3 peças.
A Tentativa Antiga (SNN): O método antigo dizia: "Para reconstruir a imagem do Tratamento C, você só pode usar as peças que já estão na caixa do Tratamento C". Como há poucas peças, você nunca consegue montar o quebra-cabeça. O método falha.

A Solução: O Detetive Inteligente (MSNN)

Os autores propõem uma nova abordagem: Por que não usar as peças das outras caixas?

A ideia central é que, embora os tratamentos sejam diferentes, as "pessoas" (ou itens) por trás deles compartilham características ocultas e profundas.

A Analogia do Sabor: Imagine que você quer saber como um cliente reagiria a um sabor de sorvete muito raro (Tratamento C), mas você só tem dados de quem provou o sabor comum (Tratamento A).
O Pulo do Gato: Se você sabe que o cliente adora frutas (uma característica oculta), e você tem muitos dados de como ele reage a frutas no sorvete comum, você pode usar essa lógica para prever como ele reagiria ao sorvete raro, mesmo sem ter provado o raro antes.

O MSNN faz exatamente isso: ele mistura as informações. Ele pega os dados abundantes do Tratamento A e os dados escassos do Tratamento C, e os usa juntos para aprender o padrão oculto que conecta tudo.

Como Funciona na Prática?

Anchors (Âncoras) Misturadas: O método cria grupos de "vizinhos" que não precisam ser todos do mesmo tratamento. Ele pega uma linha de dados do Tratamento C (o que queremos prever) e combina com colunas de dados vindas de vários tratamentos diferentes (A, B, C, etc.).
Equilíbrio: Como os dados de tratamentos diferentes podem ter escalas diferentes (um pode ter valores de 1 a 10, outro de 100 a 1000), o método usa "pesos" (como uma balança) para equalizar tudo antes de misturar. É como converter dólares e euros para uma moeda comum antes de somar.
O Resultado: Onde o método antigo falhava porque não tinha dados suficientes, o novo método consegue montar o quebra-cabeça porque "emprestou" peças das caixas cheias para ajudar a montar a caixa vazia.

Por que isso é um Grande Avanço?

Eficiência Explosiva: O artigo mostra matematicamente que, para tratamentos com poucos dados, a chance de conseguir uma resposta útil aumenta de forma exponencial. É como se, em vez de precisar de 100 peças da mesma cor, você pudesse usar 10 peças de cores diferentes para chegar ao mesmo resultado.
Segurança: O método não é apenas "chute". Ele mantém as garantias matemáticas de precisão dos métodos antigos. É como ter um mapa novo que é mais completo, mas que ainda segue as mesmas regras de navegação confiáveis.
Mundo Real: Eles testaram isso com dados reais sobre o controle do tabaco na Califórnia. O método conseguiu prever o que aconteceria em anos e estados onde não havia dados suficientes para os métodos antigos, mostrando que funciona na vida real.

Resumo em uma Frase

O MSNN é como um tradutor universal que permite que você use o conhecimento abundante de um grupo para entender e prever o comportamento de um grupo pequeno e esquecido, quebrando a barreira da escassez de dados.

Em vez de dizer "não tenho dados suficientes para responder", o novo método diz: "vamos olhar para o que sabemos sobre os outros para descobrir a resposta para este caso difícil".

Each language version is independently generated for its own context, not a direct translation.

1. Problema Investigado

O artigo aborda o desafio de realizar inferência causal a partir de dados observacionais incompletos, especificamente no contexto de Completamento de Matriz Causal sob o regime de Não-Ausência-Aleatória (MNAR - Missing Not At Random).

Contexto: Em muitos cenários do mundo real (como publicidade online ou políticas públicas), existem múltiplos níveis de tratamento discretos (ex: diferentes intensidades de exposição), e não apenas um tratamento binário (sim/não).
Desafio Principal: A tarefa é estimar os resultados contrafactuais (o que teria acontecido se uma unidade tivesse recebido um tratamento diferente) para cada entrada de uma matriz de resultados potenciais. O problema é agravado quando a atribuição do tratamento é MNAR (depende de fatores latentes não observados) e, crucialmente, quando há escassez de dados para certos níveis de tratamento (tratamentos raros).
Limitação dos Métodos Atuais: O método existente, Synthetic Nearest Neighbors (SNN), funciona bem para tratamentos binários ou com dados abundantes. No entanto, em cenários com múltiplos tratamentos, o SNN exige que as "linhas e colunas âncora" (dados usados para construir o estimador) sejam exclusivamente do mesmo nível de tratamento do alvo. Quando um nível de tratamento é escasso, é impossível construir âncoras válidas, levando à falha da estimação.

2. Metodologia Proposta: MSNN

Os autores propõem o algoritmo Mixed Synthetic Nearest Neighbors (MSNN), que supera as limitações do SNN ao integrar informações através de diferentes níveis de tratamento.

Premissas Fundamentais

Fatores Latentes Compartilhados: O método assume que, embora os resultados observados variem conforme o tratamento, os fatores latentes das linhas (ex: preferências intrínsecas dos usuários) são compartilhados e invariantes entre todos os níveis de tratamento.
Identificabilidade: Sob essa premissa, os coeficientes de imputação ( $\beta$ ) necessários para estimar um resultado contrafactual podem ser identificados utilizando dados de outros níveis de tratamento, desde que a estrutura latente seja a mesma.

Mecanismo do Algoritmo

O MSNN relaxa a restrição estrita do SNN de usar apenas dados do mesmo tratamento para construir as âncoras:

Linhas e Colunas Âncora Mistas (MAR e MAC):
- Linhas Âncora Mistas (MAR): Devem pertencer ao mesmo nível de tratamento do alvo (para garantir que a linha de destino $x^{(d)}$ seja comparável).
- Colunas Âncora Mistas (MAC): Podem conter dados de diferentes níveis de tratamento. A chave é que, para cada coluna na matriz de âncora mista, o tratamento atribuído deve ser consistente com a linha correspondente na coluna de saída ( $q$ ).
Funções de Peso: Para lidar com a heterogeneidade de escala e variância introduzida pela mistura de diferentes tratamentos, o algoritmo introduz funções de peso positivas $w(b, d(b))$ . Isso normaliza os dados, evitando que a decomposição em valores singulares (SVD) se torne numericamente instável.
Estimação: O algoritmo utiliza a decomposição SVD da matriz mista de âncoras para estimar os coeficientes $\beta$ , que são então aplicados às linhas do tratamento de interesse para prever os resultados contrafactuais.

3. Contribuições Principais

Formulação Teórica e Identificação: Formalizam o problema de completamento de matriz causal entrada-a-entrada sob múltiplos níveis de tratamento MNAR. Demonstram um novo resultado de identificação: sob a suposição de fatores latentes de linha compartilhados, os coeficientes de imputação são invariantes ao tratamento, permitindo o compartilhamento de dados entre níveis.
Algoritmo MSNN: Propõem o MSNN, que utiliza conjuntos de âncora mistos. Eles provam que o MSNN mantém as propriedades estatísticas desejáveis do SNN original (limites de erro em amostras finitas e normalidade assintótica).
Eficiência de Amostra Exponencial: Demonstram teoricamente que, sob atribuição de tratamento Missing Completely At Random (MCAR), o número esperado de subgrupos de dados utilizáveis para o MSNN ( $E[K_{MSNN}]$ ) supera o do SNN ( $E[K_{SNN}}$ ) por um fator exponencial. Especificamente, para tratamentos esparsos, a eficiência aumenta drasticamente, permitindo a estimação onde o SNN falha completamente.
Validação Empírica: Apresentam resultados em dados sintéticos e um estudo de caso real (Política de Controle do Tabaco na Califórnia), mostrando que o MSNN consegue estimar efeitos para tratamentos com poucos dados, enquanto o SNN falha.

4. Resultados

Resultados Teóricos

Limites de Erro e Normalidade: O MSNN herda os limites de erro de amostra finita e a normalidade assintótica do SNN. Isso garante que o ganho de eficiência não compromete a rigorosidade estatística.
Ganho de Eficiência: Sob MCAR, a razão entre o número esperado de amostras viáveis do MSNN e do SNN é proporcional a $\left(\sum_{d'} (p_{d'}/p_d)^{r+1}\right)^c$ , onde $p_d$ é a probabilidade de observação do tratamento $d$ . Para tratamentos raros ( $p_d$ pequeno), esse fator é exponencialmente grande, tornando a estimação viável.

Resultados Empíricos

Dados Sintéticos (MCAR e MNAR):
- Em cenários de dados escassos (ex: probabilidade de observação de 1% a 2,5%), o SNN teve taxas de viabilidade próximas de zero (falha em encontrar âncoras).
- O MSNN, por outro lado, alcançou taxas de viabilidade significativamente maiores (ex: de 0,03% para 4,69% no caso MCAR com baixa densidade) e reduziu o erro relativo médio (MRE) em um fator de 2 a 3.
- O MSNN conseguiu operar com eficiência em níveis de esparsidade onde o SNN era inoperante.
Estudo de Caso Real (Proposição 99 da Califórnia):
- Aplicado ao estudo clássico de controle do tabaco, o MSNN estimou resultados contrafactuais anuais para estados com diferentes regimes de tratamento (controle, programa, impostos).
- As estimativas validaram-se bem contra os dados observados em períodos de controle e forneceram previsões plausíveis para períodos de tratamento, demonstrando aplicabilidade prática.

5. Significado e Impacto

O trabalho é significativo porque resolve um gargalo fundamental na inferência causal com dados observacionais complexos: a escassez de dados para tratamentos específicos.

Quebra de Paradigma: Desafia a sabedoria convencional de que estimar efeitos de tratamentos raros exige necessariamente mais dados daquele tratamento específico. O MSNN demonstra que a estrutura latente compartilhada permite "emprestar" força estatística de tratamentos mais comuns.
Aplicabilidade Prática: Oferece uma ferramenta robusta para áreas como economia, políticas públicas e plataformas digitais, onde intervenções são multifacetadas e os dados são frequentemente incompletos e enviesados.
Avanço Metodológico: Estende a teoria de completamento de matriz causal de cenários binários para cenários multivariados complexos, mantendo garantias teóricas rigorosas.

Em resumo, o MSNN representa um avanço crucial ao permitir a estimativa precisa de efeitos causais em cenários de dados esparsos e complexos, superando as limitações de métodos anteriores que não conseguiam aproveitar a informação cruzada entre diferentes níveis de tratamento.