Partial Causal Structure Learning for Valid Selective Conformal Inference under Interventions

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive de previsões. O seu trabalho é adivinhar o futuro (por exemplo, qual será a temperatura amanhã ou como um gene reagirá a um medicamento) e, o mais importante, dizer o quão confiante você está nessa previsão.

Normalmente, para fazer essa previsão, você olha para um grande livro de registros do passado (os dados de calibração). Se todos os registros forem parecidos entre si, é fácil fazer uma previsão segura. Mas e se o livro estiver bagunçado? E se alguns registros forem de dias de chuva e outros de sol, e você misturar tudo? Sua previsão pode ficar errada ou muito vaga.

Este artigo é sobre como organizar esse livro de registros quando estamos lidando com experimentos científicos (como alterar genes em laboratório) e como garantir que nossas previsões continuem seguras, mesmo quando não temos certeza de quais registros são realmente parecidos.

Aqui está a explicação passo a passo, usando analogias do dia a dia:

1. O Problema: A Mistura Perigosa

Imagine que você está tentando prever o preço de uma maçã.

O Cenário Ideal: Você olha apenas para o preço de maçãs em dias de mercado local.
O Problema: De repente, alguém coloca no seu livro de registros preços de maçãs compradas em um navio no meio do oceano (onde o preço é diferente) ou de laranjas (que são frutas diferentes, mas parecidas).

Se você misturar esses dados "estranhos" (contaminados) com os dados "normais", sua previsão de preço ficará errada. Na ciência, isso acontece quando tentamos prever o efeito de uma intervenção (como desligar um gene) e usamos dados de outros genes que não foram afetados da mesma forma.

2. A Solução Inteligente: "Apenas os Parecidos"

O método tradicional olha para todos os dados. Mas os autores propõem algo mais esperto: Selecionar apenas os dados que são "irmãos gêmeos" da situação atual.

Se você quer prever o efeito de desligar o Gene A, você só deve usar dados de outros experimentos onde o Gene A não foi afetado. Se o Gene B foi desligado e isso mudou o Gene A, você não pode usar o Gene B para calibrar sua previsão.

Isso é chamado de Inferência Conformal Seletiva. É como dizer: "Não vou olhar para o preço de laranjas para prever maçãs; vou olhar apenas para maçãs". Isso torna a previsão muito mais precisa e a "faixa de segurança" (intervalo de confiança) muito mais estreita.

3. O Grande Desafio: "Quem é o irmão?"

Aqui está a parte difícil: Nem sempre sabemos quem é o irmão e quem é o estranho.
Em genética, não temos um mapa perfeito de quem afeta quem. Tentar desenhar o mapa completo de todas as conexões entre milhares de genes é como tentar desenhar o mapa de todo o trânsito do mundo de uma só vez: é impossível e cheio de erros.

Se você errar e incluir um "irmão falso" (um gene que na verdade afeta o alvo) no seu grupo de calibração, sua previsão fica contaminada e perde a segurança.

4. A Contribuição do Artigo: O "Detector de Mentiras" e o "Cinto de Segurança"

Os autores criaram três ferramentas principais para resolver isso:

A. O Teorema do "Cinto de Segurança" (Teorema 1)

Eles provaram matematicamente uma regra simples: "Se você errar um pouco na seleção, quanto sua previsão vai piorar?"
Eles criaram uma fórmula que diz: "Se você tiver 10% de dados errados (contaminação), sua segurança cai X%".

A Analogia: É como um cinto de segurança em um carro. Se o cinto estiver um pouco frouxo (dados errados), ele ainda segura, mas você sabe exatamente o quanto ele enfraqueceu. O mais importante: eles mostram como ajustar o cinto (corrigir a previsão) para garantir que você continue seguro, mesmo com dados imperfeitos.

B. O "Mapa Parcial" (Aprendizado de Causa Parcial)

Em vez de tentar desenhar o mapa completo de todas as conexões (o que é difícil), eles propõem aprender apenas uma coisa: "O Gene X afeta o Gene Y?" (Sim ou Não).

A Analogia: Em vez de tentar saber todos os segredos da família, você só quer saber: "O tio João é pai do sobrinho?". Se a resposta for "Não", você pode usá-lo para calibrar sua previsão. Isso é muito mais fácil e rápido do que mapear a árvore genealógica inteira.

C. O "Detetive de Interseções" (Algoritmo)

Como descobrir quem afeta quem sem o mapa? Eles usam um truque de lógica:

Se o Gene A afeta o Gene C, e o Gene B afeta o Gene A, então o Gene B também afeta o Gene C.
O algoritmo olha para os padrões: "Quais genes mudaram juntos em vários experimentos?". Se um gene aparece em todos os grupos de mudança de vários outros genes, ele provavelmente é um "descendente" (alvo). É como deduzir que duas pessoas são amigas porque elas sempre aparecem nos mesmos grupos de amigos.

5. O Resultado na Vida Real

Eles testaram isso em computadores (simulações) e em dados reais de laboratório (CRISPR, que é uma tesoura molecular que corta genes).

Sem correção: Quando misturaram dados errados, a previsão ficou insegura (cobertura caiu de 95% para 86%).
Com a correção deles: Mesmo com dados errados, eles ajustaram a fórmula e a previsão voltou a ser segura (mais de 95% de certeza), embora a "faixa de segurança" tenha ficado um pouco mais larga (o preço é um pouco mais conservador).

Resumo Final

Imagine que você está tentando prever o tempo.

O problema: Você misturou dados de um dia de sol com dados de um furacão. Sua previsão falhou.
A ideia: Use apenas dados de dias de sol.
O medo: E se eu escolher um dia de sol errado?
A solução deste artigo:
- Criamos uma fórmula que diz exatamente o quanto você pode errar antes de ficar inseguro.
- Criamos um método para encontrar os "dias de sol" certos sem precisar conhecer o clima de todo o planeta.
- Se errarmos um pouco, aplicamos um "ajuste de segurança" para garantir que a previsão continue válida.

É uma maneira inteligente de fazer previsões científicas mais precisas e confiáveis, mesmo quando não temos todas as informações perfeitas sobre como o mundo funciona.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Aprendizado de Estrutura Causal Parcial para Inferência Conformal Seletiva Válida sob Intervenções

1. Problema e Motivação

A Predição Conformal (CP) oferece garantias de cobertura de incerteza livres de distribuição para qualquer modelo de previsão "caixa-preta". No entanto, a garantia padrão de cobertura marginal pode ser frouxa quando os dados apresentam heterogeneidade, como em cenários de múltiplas intervenções ou ambientes.

Em aplicações científicas, como experimentos de perturbação gênica (ex: Perturb-seq, CRISPRi), a trocaabilidade (exchangeability) — pré-requisito para a CP válida — frequentemente só se mantém dentro de subconjuntos específicos de intervenções. Especificamente, para um gene alvo $i$ , a distribuição residual sob uma intervenção $a$ é a mesma do controle se, e somente se, $i$ não for um descendente causal de $a$ na rede regulatória gênica.

O desafio central é que a estrutura causal (quem afeta quem) raramente é conhecida. Aprender o grafo causal completo em alta dimensão é computacionalmente caro e propenso a erros. Se a seleção de exemplos de calibração for baseada em uma estrutura causal incorreta, a cobertura da inferência seletiva pode degradar-se significativamente. O artigo aborda como:

Quantificar o custo estatístico de erros na estrutura causal para a inferência conformal.
Desenvolver algoritmos que aprendem apenas a estrutura parcial necessária para uma calibração seletiva válida, sem reconstruir o grafo completo.

2. Metodologia

O trabalho propõe um framework que combina Inferência Conformal Seletiva com Aprendizado de Estrutura Causal Parcial.

A. Cobertura Robusta a $\delta$ (Teorema 1)
Os autores derivam um limite inferior de cobertura para amostras finitas quando o conjunto de calibração é "contaminado".

Definição de Contaminação ( $\delta$ ): A fração de intervenções no conjunto de calibração selecionado que foram erroneamente classificadas como "não afetantes" (trocaáveis), mas que na verdade afetam o alvo (descendentes).
O Teorema: Estabelece que a cobertura real $P(Y \in C)$ é limitada inferiormente por:
$1 - \alpha - g(\delta, n)$
Onde $g(\delta, n) = \frac{\delta n}{(1-\delta)n + 1}$ .
Implicação: Isso permite corrigir o nível de confiança nominal ( $\alpha$ ) para um $\alpha' = \alpha - g(\hat{\delta}, n)$ , garantindo que a cobertura nominal seja mantida mesmo na presença de erros de classificação, desde que $\delta$ seja controlado.

B. Formulação de Aprendizado Orientado a Tarefa
Em vez de aprender o grafo causal completo $G$ , o objetivo é estimar apenas indicadores binários $Z_{a,i} = \mathbb{1}\{i \in \text{desc}(a)\}$ (se o alvo $i$ é descendente da intervenção $a$ ).

O foco é minimizar a Taxa de Falsos Positivos (FPR) na classificação de "não afetantes". Um classificador conservador (que rotula casos duvidosos como "afetantes") é preferível, pois reduz a contaminação $\delta$ , mesmo que reduza o tamanho do conjunto de calibração.

C. Algoritmos Propostos
Dois algoritmos são apresentados para estimar a estrutura parcial:

Descoberta de Descendentes via Padrões de Interseção de Perturbação:
- Utiliza conjuntos de variáveis diferencialmente afetadas ( $S_a$ ) para cada intervenção.
- Aplica interseções de conjuntos: Se $b$ é uma intervenção a montante de $a$ , então os descendentes de $a$ devem estar contidos nos descendentes de $b$ . A interseção dos conjuntos afetados de $a$ e de suas intervenções a montante ( $S_a \cap \bigcap_{b \in U(a)} S_b$ ) reduz falsos positivos.
ICP Local para Estimativa de Distância:
- Adapta a Invariant Causal Prediction (ICP) para estimar uma distância aproximada até a intervenção sem aprender o grafo completo, permitindo calibração ponderada.

3. Contribuições Principais

Teorema de Cobertura Robusta a $\delta$ : Um limite finito e explícito que quantifica como a contaminação do conjunto de calibração degrada a cobertura, fornecendo uma correção conservadora para manter a validade.
Formulação de Aprendizado Parcial: Reduz o problema de aprendizado causal complexo para uma tarefa de classificação binária estruturada, focando exclusivamente na precisão necessária para a calibração seletiva.
Algoritmos Escaláveis: Métodos práticos para descobrir descendentes baseados em interseção de conjuntos e estimativa de distância local, com condições de recuperação teóricas (Proposições 1 e 2) que garantem o controle da contaminação em redes esparsas.
Validação Empírica: Demonstração de que a cobertura decai monotonicamente com a contaminação (conforme previsto) e que o método corrigido restaura a cobertura nominal em dados sintéticos e reais.

4. Resultados Experimentais

Os experimentos foram realizados em modelos de equações estruturais lineares (SEMs) sintéticos e em dados reais de perturbação CRISPRi (Replogle K562).

Dados Sintéticos ( $p=200$ ):
- Sob contaminação controlada ( $\delta$ variando de 0 a 0.30), a cobertura do método seletivo não corrigido degradou-se de 0.905 para 0.867.
- O método corrigido (usando o ajuste de $\alpha$ ) manteve uma cobertura $\ge 0.95$ em todos os níveis de contaminação, embora com intervalos de previsão ligeiramente mais largos (1.2x a 1.8x).
- O limite teórico foi validado empiricamente.
Dados Reais (Replogle K562 CRISPRi):
- Em um screen de perturbação genômica real, o método corrigido foi o único a exceder a cobertura nominal de 0.90 (0.906).
- Métodos não corrigidos e o "oráculo" (baseado em proxies de expressão diferencial) falharam em atingir a cobertura nominal (0.864), devido a violações de trocaabilidade causadas por efeitos indiretos e ruído técnico.
- Uma limitação observada foi que o método corrigido só foi viável (intervalos finitos) em ~60% das avaliações devido à rigidez da correção com conjuntos de calibração pequenos, destacando a necessidade de mais dados de calibração em cenários reais.

5. Significado e Conclusão

Este trabalho fornece uma ponte teórica e prática entre a descoberta causal e a inferência de incerteza.

Viabilidade Prática: Demonstra que não é necessário um grafo causal perfeito para obter inferências conformais válidas; basta controlar a taxa de falsos positivos na identificação de variáveis "não afetantes".
Robustez: Oferece um mecanismo para quantificar e corrigir a perda de cobertura decorrente de erros de aprendizado de estrutura, tornando a inferência conformal aplicável em cenários de intervenção complexos (como genômica) onde a causalidade é desconhecida.
Impacto: Permite intervalos de previsão mais estreitos e informativos para efeitos de intervenções não vistas, facilitando o desenho experimental e a priorização de alvos terapêuticos com maior confiança estatística.

O artigo conclui que, embora a correção de contaminação possa levar a intervalos mais conservadores (mais largos), ela é essencial para garantir a validade estatística em cenários do mundo real onde a estrutura causal é apenas parcialmente conhecida.