Interventional Time Series Priors for Causal Foundation Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando entender por que as coisas acontecem no mundo. Você observa que, quando chove, o chão fica molhado. Mas será que a chuva causa o chão molhado, ou será que alguém derrubou um balde de água e, por coincidência, começou a chover?

Na ciência de dados, isso é chamado de inferência causal. O problema é que, para treinar um "super-detetive" (uma Inteligência Artificial) a fazer essa distinção, precisamos de dados onde não apenas observamos o mundo, mas também intervimos nele.

Aqui está a história do papel que você enviou, contada de forma simples:

1. O Problema: O Detetive Cego

Até agora, os cientistas tinham ótimos "simuladores" para criar dados de séries temporais (como preços de ações, clima ou batimentos cardíacos ao longo do tempo). Eles conseguiam criar cenários onde sabiam exatamente qual era a causa e qual era o efeito.

Mas havia um grande defeito: Esses simuladores só mostravam o que acontecia naturalmente. Eles nunca mostravam o que aconteceria se você, como um cientista louco, decidisse mudar algo no meio do caminho (como "e se eu parasse a chuva?"). Sem esses dados de "e se...", a IA não conseguia aprender a prever o futuro após uma intervenção. Era como treinar um piloto de avião apenas com vídeos de voos tranquilos, sem nunca simular uma tempestade ou uma falha no motor.

2. A Solução: O "CausalTimePrior" (O Simulador de Realidades Alternativas)

Os autores, Dennis Thumm e Ying Chen, criaram uma nova ferramenta chamada CausalTimePrior. Pense nela como uma máquina de universos paralelos.

Ela faz três coisas incríveis:

Cria o Cenário: Ela inventa um mundo complexo com várias variáveis (como temperatura, umidade, vento) e define regras de como elas se conectam (causalidade).
Cria a Observação: Ela roda esse mundo e grava o que acontece naturalmente.
Cria a Intervenção: Ela pega o mesmo mundo, mas muda uma regra no meio do caminho (ex: "e se eu congelar o vento?") e grava o que acontece depois dessa mudança.

Isso gera pares de dados perfeitos: "O que aconteceu naturalmente" vs. "O que aconteceu se eu tivesse mudado isso".

3. A Mágica: O "Regime-Switching" (O Mundo que Muda de Regra)

A parte mais genial e criativa deste trabalho é que o mundo deles não é estático. Às vezes, as regras mudam de repente.

Imagine que você está dirigindo. De repente, a estrada muda de asfalto para terra. O carro responde de forma diferente. Ou imagine que o clima muda de verão para inverno instantaneamente.
O CausalTimePrior consegue simular isso. Ele cria cenários onde a "física" do mundo muda (o que os autores chamam de regime-switching). Isso é crucial porque, na vida real, as coisas mudam de comportamento o tempo todo (mercados financeiros, epidemias, clima). A maioria dos simuladores antigos não fazia isso.

4. O Treinamento: O "Super-Detetive" (PFN)

Com essa máquina de universos paralelos gerando milhões de exemplos de "o que aconteceria se...", eles treinaram uma Inteligência Artificial chamada PFN (Rede Ajustada a Dados Anteriores).

Como funciona: A IA lê um pouco do passado (dados observacionais) e recebe uma pergunta: "Se eu mudar X agora, o que vai acontecer com Y daqui a 10 minutos?".
O Resultado: A IA aprendeu a distinguir entre correlação (duas coisas acontecendo juntas por acaso) e causalidade (uma coisa realmente causando a outra).

No teste, quando a IA via uma correlação falsa (duas coisas que pareciam ligadas, mas não eram), ela ignorava. Quando via uma causa real, ela acertava o resultado da intervenção. Ela conseguiu fazer isso sem precisar ser re-treinada para cada novo cenário específico, funcionando como um "modelo fundamental" (Foundation Model) para tempo.

Resumo em uma Metáfora Final

Imagine que você quer ensinar uma criança a cozinhar.

Os métodos antigos: Você mostrava fotos de pratos prontos e dizia: "Veja, isso é um bolo". A criança aprendia a reconhecer a foto, mas não sabia o que aconteceria se trocasse o açúcar por sal.
O CausalTimePrior: É como ter um laboratório de culinária mágico onde você pode criar milhares de receitas, cozinhar o bolo, e depois dizer: "Agora, vamos tentar fazer o mesmo bolo, mas sem ovos". O laboratório gera instantaneamente o resultado dessa nova receita.
A IA treinada: A criança que viu milhares desses experimentos de "e se" agora sabe, intuitivamente, como os ingredientes interagem. Se você pedir para ela fazer um bolo novo, ela consegue prever o resultado mesmo sem ter visto aquela receita específica antes.

Conclusão:
Este trabalho preencheu uma lacuna gigante. Ele criou a primeira "fábrica de dados" que gera cenários de tempo com intervenções reais e mudanças de regras. Isso abre a porta para criar IAs que não apenas preveem o futuro, mas entendem como mudar o futuro se tomarmos decisões diferentes. É um passo gigante para ter IAs que entendem a verdadeira causa e efeito no mundo dinâmico.

Each language version is independently generated for its own context, not a direct translation.

Título: Interventional Time Series Priors for Causal Foundation Models

Autores: Dennis Thumm e Ying Chen (National University of Singapore)
Contexto: Workshop on Time Series in the Age of Large Models (TSALM), ICLR 2026.

1. O Problema

O campo de modelos fundamentais (foundation models) para inferência causal tem avançado rapidamente em dados tabulares, utilizando Redes Ajustadas a Dados Prévios (Prior-Data Fitted Networks - PFNs). No entanto, a extensão dessas capacidades para séries temporais enfrenta um obstáculo fundamental: a ausência de geradores de dados sintéticos adequados que forneçam dados intervencionais.

Limitação Atual: Benchmarks existentes para descoberta causal em séries temporais (como CausalTime, TimeGraph, CauseMe) geram apenas dados observacionais com grafos causais de verdade (ground-truth).
O Gap: Para treinar modelos fundamentais que realizem inferência causal "in-context" (estimar efeitos de tratamento sem treinamento específico para cada tarefa), é necessário um conjunto de dados que pareie observações com resultados de intervenções (dados contrafactuais). Sem isso, os modelos não podem aprender a prever o que aconteceria sob uma intervenção específica.
Desafio Adicional: A maioria dos geradores existentes não suporta dinâmicas complexas como mudanças de regime (regime-switching) ou intervenções temporais variáveis.

2. Metodologia: CausalTimePrior

Os autores propõem o CausalTimePrior, um framework principiado para gerar Modelos Causais Estruturais Temporais (TSCMs) sintéticos com dados pareados observacionais e intervencionais.

A. Definição do Modelo (TSCM)

O framework baseia-se em Modelos Causais Estruturais Dinâmicos (DSCM) em tempo discreto:

Estrutura de Grafo: Um DAG (Grafo Acíclico Direcionado) com atrasos temporais ( $G_0$ para relações instantâneas e $G_k$ para atrasos $k$ ).
Equações Estruturais: $X_t^{(i)} = f_i(Pa(X_t^{(i)})) + \epsilon_t^{(i)}$ , onde as funções $f_i$ podem ser não lineares.
Ruído: Distribuições variadas (Gaussiana, Uniforme, Laplace).

B. O Prior (Distribuição de Probabilidade)

O prior $\Pi$ amostra os componentes do modelo de forma controlada:

Prior de Grafo ( $\Pi_G$ ): Amostra o número de variáveis ( $N$ ), atraso máximo ( $K$ ) e probabilidade de arestas. As arestas são amostradas via modelo Erdős-Rényi, garantindo aciclicidade.
Prior de Mecanismo ( $\Pi_F$ ): Amostra funções não lineares de uma família diversificada (identidade, seno, cosseno, tanh, módulo, quadrado, exponencial), permitindo dinâmicas temporais complexas.
Tipos de Intervenção: O framework suporta três tipos de intervenções, essenciais para o treinamento robusto:
- Hard (Dura): Substituição direta da variável por um valor constante ( $do(X=c)$ ), cortando arestas de entrada.
- Soft (Suave): Perturbação do mecanismo aditivo ( $X = f(Pa) + \delta + \epsilon$ ).
- Time-varying (Variável no tempo): Intervenções que seguem perfis específicos (degrau, rampa, senoidal).

C. Dinâmicas de Mudança de Regime (Regime-Switching)

Uma contribuição distintiva é a extensão para TSCMs com mudança de regime.

Utiliza um Modelo de Mudança de Markov onde a estrutura causal ( $G$ ) e os mecanismos ( $F$ ) mudam dependendo de um estado latente $d_t$ .
Isso simula quebras estruturais comuns em dados do mundo real, onde as relações causais não são estacionárias.

D. Pipeline de Geração de Dados

Para cada exemplo de treinamento:

Amostra-se um TSCM ( $S$ ) do prior.
Define-se uma especificação de intervenção (alvos, tempos, tipo, valores).
Gera-se a série observacional ( $X_{obs}$ ) via simulação direta.
Gera-se a série intervencionada ( $X_{int}$ ) aplicando o operador $do(\cdot)$ .
O par $(X_{obs}, X_{int})$ forma o conjunto de dados de treinamento para o PFN.

3. Contribuições Principais

Primeiro Gerador com Intervenções e Mudança de Regime: O CausalTimePrior é o primeiro gerador a combinar dinâmicas de mudança de regime (com quebras estruturais) com a geração de dados intervencionais pareados.
Prior Diverso e Controlável: Suporta grafos não lineares, múltiplos tipos de intervenção e dinâmicas de regime, preenchendo a lacuna de dados sintéticos para treinamento de modelos fundamentais causais em séries temporais.
Validação de PFN: Demonstra que redes PFN treinadas neste prior conseguem realizar estimativa de efeitos causais "in-context" em TSCMs nunca vistos, sem necessidade de ajuste por amostra.

4. Resultados Experimentais

Os autores treinaram um PFN simples (baseado em GRU de 2 camadas) em 100.000 TSCMs gerados pelo CausalTimePrior e avaliaram em 1.000 TSCMs de teste (hold-out).

Validação do Prior:
- Diversidade estrutural: 70% de TSCMs não lineares, 15% com mudança de regime.
- Estabilidade: 0% de divergência (sem valores NaN/Inf).
- Cobertura de Intervenção: Variação significativa no tamanho do efeito (média 17.98).
Desempenho do Modelo (PFN):
- Precisão Causal: O modelo distingue corretamente entre consultas causais e não causais. A razão Predição/Verdade (Pred/GT) foi de 0.95 para variáveis intervenidas (alvo da intervenção) e 0.46 para variáveis não causais (indicando que o modelo aprendeu a prever efeitos próximos de zero onde não há causalidade).
- Comparação com Baselines: O PFN alcançou RMSE comparável a modelos VAR (Vector Autoregression) ajustados por conjunto de dados, mas sem necessidade de ajuste por amostra (zero-shot/in-context).
- Ablação de Tipo de Intervenção: Modelos treinados com uma mistura de tipos de intervenção (hard, soft, variável) tiveram maior precisão na direção do efeito (70.4% vs 63.9%) e correlação de tamanho de efeito (0.821 vs 0.691) comparado a modelos treinados apenas com intervenções "hard".
- Generalização OOD (Out-of-Distribution): O modelo manteve a capacidade de distinguir efeitos causais mesmo em grafos maiores e mais densos, embora o erro absoluto (RMSE) tenha aumentado, como esperado.
Causalidade vs. Correlação: Em casos de alta correlação espúria sem caminho causal, o PFN previu corretamente um efeito nulo (erro de 0.005), enquanto o VAR-OLS (baseado apenas em correlação) cometeu um erro massivo (177x maior).

5. Significado e Conclusão

O trabalho estabelece um caminho viável para o desenvolvimento de Modelos Fundamentais para Inferência Causal em Séries Temporais.

Impacto: Resolve o gargalo de dados ao fornecer um gerador sintético robusto que permite o pré-treinamento de modelos em tarefas de inferência causal, eliminando a necessidade de treinamento específico para cada novo domínio ou conjunto de dados.
Futuro: Os autores planejam escalar para arquiteturas Transformer, incorporar dinâmicas de tempo contínuo (SDEs) e validar o prior em distribuições de dados do mundo real.
Relevância: A capacidade de realizar inferência causal "in-context" é crucial para aplicações em finanças, saúde e ciências climáticas, onde as relações causais mudam e os dados intervencionais reais são escassos ou caros de obter.

Em resumo, o CausalTimePrior é a infraestrutura necessária para treinar a próxima geração de modelos de IA capazes de entender e prever o impacto de intervenções em sistemas temporais complexos.