Robust Counterfactual Inference in Markov Decision Processes

Each language version is independently generated for its own context, not a direct translation.

O "E Se...?" Robusto: Como Tomar Decisões Seguras sem Adivinhar o Futuro

Imagine que você é um médico tentando decidir o melhor tratamento para um paciente. Você tem os dados do paciente: ele tomou o remédio A e ficou melhor. Mas você se pergunta: "E se eu tivesse dado o remédio B? Ele teria ficado ainda melhor?"

Essa é a essência da Inferência Contrafactual: pensar no "e se" baseado no que já aconteceu. O problema é que, em sistemas complexos (como o corpo humano ou um carro autônomo), não sabemos exatamente como as coisas funcionam por dentro. Existem muitas "teorias" (modelos causais) que explicam os dados que temos, e cada teoria pode contar uma história diferente sobre o que teria acontecido se você tivesse agido de outra forma.

Se você escolher apenas uma teoria aleatória para responder ao "e se?", sua resposta pode estar errada e, em áreas críticas como saúde ou aviação, isso pode ser perigoso.

Este artigo, escrito por Jessica Lally e colegas, propõe uma solução inteligente para esse problema. Vamos entender como eles fizeram isso usando algumas analogias:

1. O Problema: A "Bússola Quebrada"

Imagine que você está dirigindo em uma neblina densa (a incerteza do mundo real). Você vê uma árvore caída na estrada (o evento observado). Você quer saber: "Se eu tivesse virado à esquerda em vez de ir reto, teria batido na árvore?"

Os métodos antigos tentavam adivinhar a resposta assumindo que a neblina era de um tipo específico (um modelo causal fixo, como o chamado Gumbel-max). O problema é que a neblina pode ser de vários tipos. Se você assumir o tipo errado, sua resposta sobre o desvio pode ser totalmente equivocada.

2. A Solução: O "Círculo de Segurança" (Limites Apertados)

Em vez de tentar adivinhar a resposta exata (o que é impossível sem saber a verdade absoluta), os autores decidiram calcular limites.

Pense nisso como desenhar um círculo ao redor de todas as possibilidades reais.

Em vez de dizer: "Se você virasse à esquerda, você teria batido com 45% de chance",
Eles dizem: "Se você virasse à esquerda, a chance de bater estaria entre 10% e 60%".

Esse intervalo (de 10% a 60%) é chamado de Inferência Parcial. O grande feito deste artigo é que eles conseguiram calcular esses limites de forma matematicamente exata e super rápida (usando fórmulas prontas, sem precisar de supercomputadores para fazer milhões de tentativas).

3. As Regras do Jogo: "Estabilidade" e "Monotonicidade"

Para que esses limites não fiquem tão largos que sejam inúteis (tipo dizer "a chance é entre 0% e 100%"), eles adicionaram duas regras de senso comum, como se fossem leis da física para o "mundo alternativo":

Estabilidade Contrafactual: Se algo aconteceu porque era muito provável, mudar a ação não deve fazer algo improvável acontecer magicamente. É como dizer: "Se eu troco de caminho, não é mágico que eu apareça em outro país instantaneamente."
Monotonicidade: Se um resultado não aconteceu no mundo real (mesmo sendo possível), é improvável que ele se torne mais provável no mundo alternativo. Se você não bateu na árvore indo reto, é estranho pensar que, ao virar à esquerda, a chance de bater na árvore aumentaria absurdamente sem motivo.

Essas regras ajudam a "apertar" o círculo de segurança, tornando a resposta mais útil.

4. O Resultado: O "Piloto de Segurança" (Política Robusta)

Com esses limites calculados, os autores criaram um novo tipo de "mapa" chamado MDP Contrafactual Intervalar.

Imagine que você precisa escolher um caminho em um jogo de tabuleiro onde os dados são viciados, mas você não sabe como.

O método antigo escolhia o caminho que parecia melhor baseado em uma suposição de como os dados eram viciados.
O novo método (deste artigo) escolhe o caminho que garante o melhor resultado possível no pior cenário. É como um piloto de avião que, mesmo com a neblina, escolhe a rota que garante que o avião não caia, mesmo que o vento sopre da pior maneira possível.

5. Por que isso é importante?

Os autores testaram isso em vários cenários, desde jogos simples (como GridWorld) até simulações de pacientes com sepse e controle de aeronaves.

Velocidade: O novo método é 4 a 251 vezes mais rápido que os métodos antigos.
Segurança: Em situações onde a incerteza é alta (como em um paciente doente ou um avião em tempestade), o método deles é muito mais confiável. Ele não promete o milagre, mas garante que você não vai tomar uma decisão catastrófica baseada em uma suposição errada.

Resumo em uma frase:

Este artigo ensina como calcular, de forma rápida e segura, todas as possibilidades de "o que teria acontecido se...", criando um plano de ação que funciona bem mesmo quando não temos certeza absoluta de como o mundo funciona, protegendo-nos de decisões desastrosas em situações críticas.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Inferência Contrafactual Robusta em Processos de Decisão de Markov

1. O Problema

A inferência contrafactual em Processos de Decisão de Markov (MDPs) visa estimar o que teria acontecido se ações diferentes tivessem sido tomadas em um cenário observado, permitindo a avaliação de políticas offline (sem interação com o ambiente real). Isso é crucial em domínios de segurança crítica, como saúde e controle de aeronaves.

No entanto, a inferência contrafactual enfrenta um desafio fundamental: a não identificabilidade do modelo causal. Dada uma distribuição de transições observada e intervencionada de um MDP, existem múltiplos modelos causais (Estruturas Causais - SCMs) consistentes com esses dados. Diferentes modelos causais podem produzir probabilidades contrafactuais drasticamente diferentes.

Limitação dos métodos existentes: A maioria das abordagens atuais (como o modelo Gumbel-max SCM) assume um modelo causal específico para tornar as probabilidades identificáveis. Isso pode levar a conclusões imprecisas ou enganosas, especialmente quando o modelo assumido não reflete a realidade subjacente.
Limitação dos métodos parciais: Métodos que tentam calcular limites (bounds) sobre todas as SCMs compatíveis (como a abordagem de Zhang et al.) formulam o problema como uma otimização linear. Contudo, o número de restrições cresce exponencialmente com o tamanho do MDP, tornando a computação proibitivamente lenta para sistemas grandes.

2. Metodologia Proposta

Os autores propõem uma abordagem não paramétrica que calcula limites apertados (tight bounds) para as probabilidades de transição contrafactual sobre todos os modelos causais compatíveis, sem assumir um modelo específico, mas incorporando suposições razoáveis para refinar esses limites.

Principais Etapas:

Formulação via SCMs Canônicos:
- O MDP é convertido em sua representação equivalente de SCM Canônico.
- O problema de encontrar os limites das probabilidades contrafactuais é formulado como um problema de otimização linear sobre as distribuições das variáveis exógenas ( $\theta$ ).
Incorporação de Suposições Razoáveis:
Para evitar limites triviais (ex: $[0, 1]$ ) e tornar a inferência útil, o método incorpora duas suposições:
- Estabilidade Contrafactual (Counterfactual Stability): Se a probabilidade de um resultado observado aumenta relativamente a outros sob uma intervenção contrafactual, o resultado observado deve permanecer o mais provável.
- Monotonicidade Contrafactual (Counterfactual Monotonicity):
  - Se um resultado foi observado, sua probabilidade contrafactual não pode diminuir em relação à probabilidade nominal.
  - Se um resultado possível não foi observado, sua probabilidade contrafactual não pode aumentar em relação à probabilidade nominal.
Derivação de Limites Analíticos (Closed-Form):
- A contribuição central é a prova de que, no contexto de MDPs (Markovianos, sem confundidores não observados), o problema de otimização linear complexo reduz-se a soluções analíticas exatas (fórmulas fechadas).
- Os autores derivam teoremas (4.1 a 4.3) que fornecem expressões matemáticas diretas para os limites inferiores e superiores das probabilidades contrafactuais, dependendo da relação de suporte entre o par estado-ação observado e o par contrafactual (disjunto ou sobreposto).
- Isso elimina a necessidade de resolver problemas de otimização grandes, permitindo computação instantânea.
Construção de MDPs Contrafactuais Intervalares (ICFMDP):
- Utilizando esses limites, constrói-se um Interval Counterfactual MDP (ICFMDP), onde cada transição é definida por um intervalo de probabilidade $[P_{LB}, P_{UB}]$ .
- Para derivar políticas robustas, aplica-se a Iteração de Valor Pessimista (Pessimistic Value Iteration). O objetivo é encontrar uma política que maximize a recompensa esperada no pior caso dentro do intervalo de incerteza do ICFMDP.

3. Contribuições Chave

Redução de Complexidade: Transformar um problema de otimização exponencialmente complexo em soluções analíticas de tempo constante para MDPs, permitindo a escalabilidade para grandes sistemas.
Robustez à Incerteza do Modelo: Ao considerar todos os SCMs compatíveis (e não apenas um), as políticas derivadas são garantidas para performar bem mesmo sob o modelo causal "pior caso" compatível com os dados.
Novas Suposições: A introdução da suposição de Monotonicidade Contrafactual para refinar os limites e eliminar contrafactuais implausíveis que outros métodos (como Gumbel-max) poderiam gerar.
Eficiência Computacional: O método é significativamente mais rápido que as abordagens baseadas em amostragem (Gumbel-max).

4. Resultados Experimentais

Os autores avaliaram o método em quatro ambientes: GridWorld, Frozen Lake, Sepsis (decisão clínica) e Aircraft (controle de aeronaves).

Velocidade: O método proposto foi 4 a 251 vezes mais rápido que a abordagem Gumbel-max SCM, pois evita a amostragem estocástica e usa fórmulas fechadas.
Robustez (Pior Caso):
- Em todos os ambientes, a política derivada do ICFMDP (nossa abordagem) garantiu uma recompensa no pior caso significativamente superior àquela da política derivada do Gumbel-max.
- Em cenários altamente estocásticos (ex: GridWorld com $p=0.4$ e Sepsis), a abordagem Gumbel-max mostrou alta variância e falhou em garantir melhorias sobre a observação no pior caso, enquanto a abordagem proposta manteve-se conservadora e robusta.
Avaliação de Políticas Offline (OPE): Os limites de retorno contrafactual gerados pelo método cobriram corretamente o retorno verdadeiro da política alvo, demonstrando que o método é não enviesado e fornece intervalos de confiança válidos.
Impacto das Suposições: A remoção das suposições de estabilidade e monotonicidade alargou os limites de probabilidade, reduzindo ligeiramente o desempenho da política no pior caso, mas a abordagem ainda superou consistentemente o Gumbel-max.

5. Significado e Conclusão

Este trabalho resolve uma lacuna crítica na inferência contrafactual para MDPs: a tensão entre a necessidade de robustez (considerar a incerteza do modelo causal) e a viabilidade computacional.

Segurança Crítica: Para domínios como saúde e aviação, onde assumir um único modelo causal pode ser perigoso, a capacidade de garantir desempenho no pior caso sobre uma família de modelos causais é fundamental.
Escalabilidade: A derivação de limites analíticos permite que a inferência contrafactual robusta seja aplicada a MDPs de grande escala, algo que era inviável com métodos de otimização anteriores.
Explicabilidade: O método fornece explicações contrafactuais que são não apenas "o que teria dado melhor", mas "o que teria dado melhor garantidamente, independentemente da estrutura causal oculta".

Em suma, o artigo estabelece um novo padrão para a inferência contrafactual em processos de decisão sequencial, oferecendo uma ferramenta matematicamente rigorosa, computacionalmente eficiente e robusta para a tomada de decisões sob incerteza causal.