Causal Identification from Counterfactual Data: Completeness and Bounding Results

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando resolver um crime. Até hoje, a ciência tinha apenas duas ferramentas para investigar:

Observar (O que aconteceu): Você vê as fotos da cena do crime. "O carro vermelho foi multado."
Intervir (O que aconteceria se...): Você cria um experimento. "Vamos pegar 100 carros vermelhos e 100 carros azuis e ver quem recebe multa."

Mas faltava a terceira e mais poderosa ferramenta: O "E se?" (O contrafactual).

"E se o carro vermelho tivesse sido azul, ele ainda teria sido multado?"

Aqui está o problema: na vida real, você não pode voltar no tempo e mudar a cor do carro de um motorista específico para ver o que aconteceria. Por isso, os cientistas achavam que essa "terceira camada" de dados era impossível de obter. Eles achavam que só podiam deduzir a resposta usando lógica, mas nunca medir diretamente.

A Grande Descoberta: O "Botão de Realidade Alternativa"

Este artigo traz uma revolução. Os autores (Arvind Raghavan e Elias Bareinboim) mostram que, em certas situações, é possível coletar dados dessa "terceira camada" na vida real.

Eles chamam isso de "Randomização Contrafactual".

A Analogia do Filtro de Instagram:
Imagine que você está analisando um vídeo de trânsito para ver se a IA do sistema de multas é preconceituosa com carros vermelhos.

Método Antigo (Intervenção): Você troca a cor real do carro no vídeo. Se você mudar um carro vermelho para azul, o motorista realmente vê um carro azul. Isso muda o comportamento dele (ele pode acelerar mais ou menos). Isso estraga o experimento.
Novo Método (Randomização Contrafactual): Você usa um filtro de IA que muda a cor do carro apenas para a câmera que dá a multa, mas o motorista continua vendo o carro vermelho e agindo normalmente.

Isso permite que você colete dados de um mundo paralelo: "O que a IA faria se visse um carro azul, mesmo que o motorista estivesse dirigindo um vermelho?"

O Que o Artigo Faz? (Os Três Pilares)

O artigo apresenta três grandes avanços, que podemos comparar a um kit de ferramentas para detetives:

1. O Novo Mapa (O Algoritmo CTFIDU+)

Antes, os detetives tinham um mapa (algoritmos) que só funcionava com dados de "O que aconteceu" e "O que fizemos". Agora, eles criaram um novo mapa, o CTFIDU+.

O que ele faz: Ele pega qualquer pergunta do tipo "E se..." e tenta responder usando os dados que você tem (seja observação, experimento ou esses novos dados de "realidade alternativa").
A promessa: Eles provaram matematicamente que este mapa é completo. Se a resposta existir e puder ser encontrada com os dados que você tem, o algoritmo vai achá-la. Se ele disser "não dá", é porque a resposta é realmente impossível de descobrir, não porque o algoritmo é ruim.

2. O Limite do Possível (A Fronteira da Realidade)

Os autores descobriram uma fronteira interessante. Existe um limite para o que podemos saber, mesmo com essa nova tecnologia.

A Regra de Ouro: Se você não consegue "fotografar" a realidade alternativa diretamente (coletar o dado), você também não consegue deduzi-la matematicamente, não importa o quanto tente.
A Analogia: É como tentar adivinhar o gosto de um bolo que você nunca provou e para o qual não tem receita. Se você não pode pegar uma fatia (coletar o dado) e não tem a receita (dados suficientes), você nunca saberá o gosto exato. O artigo define exatamente onde está essa linha divisória.

3. Ajustando a Mira (Mesmo sem a resposta exata)

E se a resposta exata for impossível? Não é o fim do mundo.

A Analogia do Alvo: Imagine que você quer saber a velocidade exata de um carro, mas o radar está quebrado. Com dados antigos, você diria: "A velocidade está entre 0 e 100 km/h" (uma resposta inútil).
A Solução: Com os novos dados de "realidade alternativa", você consegue dizer: "A velocidade está entre 80 e 90 km/h".
Mesmo que não saibamos o número exato, esses novos dados estreitam o intervalo de possibilidades. Isso é crucial para decisões importantes, como justiça algorítmica ou medicina personalizada.

Por Que Isso Importa para Você?

Pense em situações do dia a dia:

Justiça: Um juiz quer saber: "Se este réu fosse de outra raça, ele ainda seria condenado?" Com essa nova técnica, podemos medir isso com mais precisão, em vez de apenas especular.
Medicina: "Se este paciente tivesse tomado o remédio ontem, ele estaria curado hoje?"
IA Explicável: Entender por que uma Inteligência Artificial tomou uma decisão específica, testando "e se" ela tivesse recebido informações diferentes.

Resumo em Uma Frase

Este artigo nos ensina que, embora não possamos viajar no tempo, podemos criar "simulações controladas" na vida real para coletar dados de mundos paralelos, permitindo que respondamos perguntas do tipo "E se?" com muito mais precisão do que nunca antes, e definindo exatamente quais perguntas ainda permanecem impossíveis de responder.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O trabalho aborda as limitações da inferência causal na Hierarquia Causal de Pearl (PCH). Tradicionalmente, a identificação de quantidades contrafactuais (Camada 3, L3) baseava-se na premissa de que dados contrafactuais não poderiam ser coletados diretamente, sendo acessíveis apenas indiretamente através de dados observacionais (Camada 1, L1) ou intervencionais (Camada 2, L2).

No entanto, trabalhos recentes (Raghavan & Bareinboim, 2025) introduziram o conceito de realizabilidade contrafactual, demonstrando que certas distribuições L3 podem ser estimadas diretamente através de métodos experimentais específicos, como a randomização contrafactual (counterfactual randomization ou ctf-rand).

O problema central deste artigo é:

Dado o novo acesso a dados de Camada 3 (L3) realizáveis, quais outras quantidades contrafactuais se tornam identificáveis?
Quais são os limites teóricos da identificação causal exata quando se possui dados experimentais L3?
Como utilizar dados contrafactuais para estreitar os limites (bounds) de quantidades que permanecem não identificáveis?

2. Metodologia

Os autores desenvolveram uma nova estrutura algorítmica e teórica baseada em Modelos Causais Estruturais (SCMs) e diagramas causais.

A. Algoritmo CTFIDU+

O núcleo da contribuição metodológica é o algoritmo CTFIDU+ (Counterfactual Identification from Un-nested Data Plus).

Entrada: Um diagrama causal $G$ , uma consulta contrafactual (possivelmente aninhada) e um conjunto arbitrário de distribuições de entrada, que podem incluir dados observacionais, intervencionais e dados contrafactuais realizáveis (L3).
Processo:
1. Desaninhamento: Converte consultas aninhadas em termos não aninhados usando o Teorema de Desaninhamento Contrafactual (CUT).
2. Transformação de Conjunto Ancestral: Expande a consulta para seu conjunto de ancestrais contrafactuais e a reescreve em formato de "fator contrafactual" (ctf-factor).
3. Fatorização: Decompõe o fator contrafactual em componentes menores baseados na estrutura de confusão (c-components) do grafo.
4. Sub-rotina IDENTIFY+: Utiliza uma nova sub-rotina, IDENTIFY+, para tentar identificar cada fator contrafactual alvo a partir dos fatores contrafactuais disponíveis nos dados de entrada.
Estrutura de Dados de Falha: Introduz o conceito de cerca contrafactual (counterfactual hedge), uma estrutura de dados que serve como certificado de não identificabilidade. Se o algoritmo detecta uma "cerca", ele retorna FAIL, provando que a consulta não é identificável com os dados fornecidos.

B. Hierarquia de Realizabilidade (L2.25 e L2.5)

O artigo refina a PCH definindo camadas intermediárias baseadas na capacidade de coleta de dados:

L2: Distribuições intervencionais padrão ($do(x)$).
L2.25: Distribuições contrafactuais realizáveis com no máximo uma randomização por variável.
L2.5: Distribuições contrafactuais realizáveis com múltiplas randomizações contrafactuais (ctf-rand) por variável, permitindo amostragem direta de distribuições complexas (ex: $P(y_x, z_{x'})$ ).
L3 \ L2.5: Distribuições puramente contrafactuais que não podem ser realizadas fisicamente, mesmo com ações ideais de ctf-rand.

C. Limites Parciais (Partial Identification)

Para quantidades não identificáveis, o método propõe o uso de dados contrafactuais para derivar limites analíticos mais estreitos. O raciocínio é que um conjunto de restrições maior (dados L1 + L2 + L3) reduz o espaço de SCMs compatíveis, diminuindo a amplitude da incerteza.

3. Principais Contribuições

Completude do CTFIDU+:
- O algoritmo é provado como completo para a identificação de consultas L3 a partir de qualquer conjunto de dados de entrada realizáveis (L1, L2 e L3).
- Ele generaliza algoritmos anteriores (como IDC*, PSIDC e CTFID), que assumiam acesso apenas a dados L1 e L2.
Dualidade Identificabilidade-Realizabilidade:
- O artigo estabelece um teorema fundamental: Uma quantidade contrafactual é identificável se e somente se sua distribuição for realizável (em princípio) através de ações de randomização contrafactual.
- Isso implica que existem limites fundamentais para a inferência causal exata no cenário não paramétrico: quantidades pertencentes a $L3 \setminus L2.5$ são intrinsecamente não identificáveis, mesmo com dados experimentais perfeitos.
Novos Limites Analíticos (Bounds):
- Deriva limites analíticos novos e mais apertados para quantidades críticas (como o Efeito Total Natural - NTE) utilizando dados contrafactuais.
- Demonstra que, mesmo quando a identificação pontual é impossível, os dados contrafactuais reduzem significativamente a incerteza (intervalos de credibilidade).

4. Resultados e Evidências

Teorema 3.5 (Completude): O CTFIDU+ retorna uma expressão válida se a consulta for identificável e retorna FAIL apenas se houver uma "cerca contrafactual", provando a não identificabilidade.
Teorema 4.1 (Limite de Identificação): Mostra que, embora camadas inferiores (L1, L2, L2.25) possam identificar consultas de camadas superiores, nenhuma consulta puramente L3 (fora de L2.5) pode ser identificada a partir de dados de camadas inferiores, mesmo com dados L2.5 disponíveis.
Exemplos Práticos:
- Câmera de Trânsito: O algoritmo consegue identificar o Efeito Direto Natural (NDE) usando dados de randomização contrafactual, algo impossível com dados L2.
- Seleção de Unidades (Drug De-addiction): Simulações mostram que o uso de dados L2.5 (contrafactuais) permite tomar decisões de tratamento ótimas para subpopulações específicas, enquanto métodos baseados apenas em L2 falham ou são subótimos.
- Limites Empíricos: Em simulações de Monte Carlo, o uso de dados contrafactuais (L2.5) estreitou os intervalos de credibilidade para quantidades não identificáveis (como NTE) em comparação com o uso apenas de dados observacionais e intervencionais.

5. Significado e Impacto

Avanço Teórico: O trabalho redefine os limites do que é possível inferir causalmente. Ele estabelece que a "realizabilidade física" é o limite absoluto para a "identificabilidade exata" em cenários não paramétricos.
Implicações para IA Explicável (XAI) e Justiça: Muitas métricas de justiça e explicabilidade (como NTE e NDE) eram consideradas não identificáveis ou apenas parcialmente identificáveis. Este trabalho mostra que, com o design experimental correto (ctf-rand), é possível obter identificação exata ou limites muito mais precisos.
Design Experimental: O artigo fornece um guia para cientistas de dados sobre quais experimentos (quais variáveis randomizar e como) são necessários para identificar consultas específicas, promovendo uma abordagem mais ativa na coleta de dados causais.
Unificação: O CTFIDU+ unifica a teoria de identificação causal, tratando dados observacionais, intervencionais e contrafactuais em um único framework coerente e completo.

Em resumo, o artigo demonstra que, embora existam limites fundamentais intransponíveis para a identificação causal sem suposições adicionais, a capacidade de coletar dados contrafactuais realizáveis expande drasticamente o horizonte do que pode ser identificado e quantificado com precisão, oferecendo ferramentas práticas para melhorar a inferência causal em cenários complexos.