Distributional Equivalence in Linear Non-Gaussian Latent-Variable Cyclic Causal Models: Characterization and Learning

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando descobrir quem fez o quê em uma grande festa, mas você não pode ver todos os convidados. Alguns estão escondidos atrás de cortinas (as variáveis latentes), e você só consegue ver quem está dançando na pista (as variáveis observadas).

O desafio é: como saber quem influenciou quem, se você não vê todo mundo e se as pessoas estão se influenciando em círculos (alguém puxa o braço de outro, que puxa o de um terceiro, que puxa o do primeiro)?

Este artigo, apresentado na conferência ICLR 2026, é como um novo manual de instruções para esse detetive. Aqui está a explicação simplificada:

1. O Problema: O Labirinto das Hipóteses

Antes, os detetives (cientistas de dados) tinham que fazer muitas suposições para resolver o caso. Eles diziam: "Ok, vamos assumir que ninguém se influencia em círculos" ou "Vamos assumir que os convidados escondidos só falam com a pista, mas nunca com outros convidados escondidos".

O problema é que, na vida real, as coisas são bagunçadas. Existem ciclos (feedback loops) e as variáveis escondidas se misturam de formas complexas. Se as suas suposições estiverem erradas, sua conclusão sobre quem causou o quê também estará errada.

2. A Grande Descoberta: O "Mapa de Equivalência"

Os autores descobriram que, muitas vezes, diferentes cenários podem parecer exatamente iguais para quem está apenas observando a pista de dança.

A Analogia da Máscara: Imagine que você vê duas pessoas dançando juntas. Pode ser que o Homem A esteja puxando a Mulher B, ou pode ser que a Mulher B esteja puxando o Homem A. Se você só vê o movimento, não consegue dizer quem começou.
A Classe de Equivalência: O artigo diz: "Não tente adivinhar qual é a única verdade. Em vez disso, desenhe todos os cenários possíveis que explicam o que você vê". Eles chamam isso de "Classe de Equivalência". É como dizer: "O culpado pode ser o Sr. X, a Sra. Y ou o Sr. Z, mas sabemos que é um deles, e sabemos exatamente como eles se relacionam entre si".

3. A Nova Ferramenta: "Rank de Borda" (Edge Ranks)

Para desenhar esse mapa de todos os cenários possíveis, os autores criaram uma nova ferramenta chamada Rank de Borda.

A Analogia do Tráfego: Imagine que você quer saber quantos carros podem passar de um bairro A para um bairro B.
- O método antigo (Rank de Caminho) olhava para o trânsito global: "Quantas rotas inteiras existem?". É difícil de calcular porque se você fechar uma rua, todo o mapa de tráfego muda de forma imprevisível.
- O novo método (Rank de Borda) olha para as ruas individuais (bordas): "Esta rua específica é essencial para o fluxo?". É como verificar se uma única peça de um quebra-cabeça é crucial para manter a estrutura. É mais fácil de manipular e permite ver o que pode ser mudado sem estragar a "dança" que você vê na pista.

4. O Algoritmo "glvLiNG": O Detetive Sem Preconceitos

Com essa nova ferramenta, eles criaram um algoritmo chamado glvLiNG.

Como funciona: Ele pega os dados (a música e os movimentos na pista), usa uma técnica matemática para "limpar" o ruído e descobre a estrutura básica. Depois, ele usa as regras de "Rank de Borda" para gerar todos os mapas possíveis que explicam os dados.
A Diferença: Antigamente, o algoritmo dizia: "Acho que é assim, porque assumi que não há círculos". Agora, o glvLiNG diz: "Não assumi nada. Aqui está a lista de todas as possibilidades que são compatíveis com o que você viu".

5. Por que isso é importante?

Imagine que você está tentando entender por que o preço das ações de bancos cai quando o preço da energia sobe.

Método antigo: Poderia ignorar um fator oculto (como uma crise política global) ou assumir que não há ciclos, levando a uma conclusão errada.
Método novo (este artigo): Mostra que, talvez, não possamos saber exatamente quem puxou quem, mas podemos saber com certeza que "Bancos e Energia estão ligados de tal forma que, se X mudar, Y tem que mudar, independentemente de quem seja o culpado oculto".

Resumo em uma frase

Este artigo ensina como desenhar o mapa completo de todas as possibilidades de quem causou o quê, mesmo quando temos variáveis escondidas e ciclos de influência, sem precisar fazer suposições falsas sobre como o mundo funciona. É como trocar um palpite por uma lista exaustiva e matematicamente provada de cenários possíveis.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

A descoberta causal com variáveis latentes (não observadas) é uma tarefa fundamental, mas desafiadora. A maioria dos métodos existentes depende de suposições estruturais fortes, como:

Restrições sobre como as variáveis latentes são indicadas (ex: modelos de medição puros).
Proibição de efeitos de variáveis observadas sobre latentes.
Assunção de aciclicidade (ausência de ciclos/feedback), embora loops de feedback sejam comuns em sistemas reais.
Assunções de "triângulo-livre" ou "arco-livre".

O artigo identifica que a principal barreira para uma abordagem geral e livre de suposições estruturais é a falta de uma caracterização de equivalência. Sem saber quais modelos são indistinguíveis (equivalentes) com base nos dados observados, não é possível projetar algoritmos que recuperem a estrutura causal correta.

O objetivo deste trabalho é preencher essa lacuna para o cenário de Modelos Lineares Não-Gaussianos (LiNG) com variáveis latentes arbitrárias e ciclos.

2. Metodologia e Conceitos Fundamentais

Os autores estabelecem uma caracterização gráfica completa da equivalência distribucional (quando dois grafos geram o mesmo conjunto de distribuições observadas) e desenvolvem um algoritmo para recuperar essa classe de equivalência.

2.1. Definições Chave

Equivalência Distribucional: Dois grafos $G$ e $H$ são equivalentes se o conjunto de distribuições observáveis geradas por eles for idêntico ( $P(G, X) = P(H, X)$ ).
Irredutibilidade: Para evitar casos triviais (como adicionar latentes que não afetam as observáveis), o modelo é reduzido a uma forma irredutível, onde não existem conjuntos de latentes com menos de dois filhos fora do conjunto.
Matrizes de Mistura: O modelo é representado por $V = (I - B)^{-1}E = AE$ , onde $A$ é a matriz de mistura. A equivalência depende da estrutura de rank das submatrizes de $A$ .

2.2. A Nova Ferramenta: Restrições de Rank de Aresta (Edge Rank Constraints)

O cerne da contribuição metodológica é a introdução de Edge Ranks (Ranks de Aresta), uma nova ferramenta que complementa os tradicionais Path Ranks (Ranks de Caminho).

Path Ranks ( $\rho$ ): Baseados no teorema de fluxo máximo/corte mínimo (Menger). Representam o número máximo de caminhos direcionados disjuntos em vértices. São globais e difíceis de manipular localmente.
Edge Ranks ( $r$ ): Baseados no emparelhamento bipartido máximo em grafos de suporte binários. Representam o "rank de emparelhamento" de uma submatriz de suporte.
Dualidade (Teorema 1): O artigo prova uma dualidade elegante entre Path Ranks e Edge Ranks. Isso permite reescrever condições de equivalência globais (baseadas em caminhos) em condições locais e manipuláveis (baseadas em arestas e emparelhamentos).

2.3. Caracterização Gráfica da Equivalência

Utilizando os Edge Ranks, os autores derivam critérios práticos:

Critério de Equivalência (Teorema 2): Dois modelos irredutíveis são equivalentes se e somente se existe uma permutação dos vértices latentes tal que os "bases de filhos" (conjuntos de vértices que admitem emparelhamentos perfeitos) para o conjunto de latentes $L$ e para cada variável observada individual $X_i$ sejam preservados.
Caracterização Transformacional (Teorema 3): Fornece uma maneira de navegar por toda a classe de equivalência. Dois grafos são equivalentes se um pode ser transformado no outro através de:
- Reversões de Ciclos Admissíveis: Inverter ciclos disjuntos de vértices.
- Adições/Deleções de Arestas Admissíveis: Adicionar ou remover arestas que não alteram o rank de emparelhamento em subgrafos específicos (definidos por matroides transversais).

3. Algoritmo: glvLiNG

Os autores propõem o algoritmo glvLiNG (general latent-variable Linear Non-Gaussian causal discovery), que é o primeiro método de descoberta causal sem suposições estruturais para este cenário.

Etapas do Algoritmo:

Estimativa de OICA: Utiliza Análise de Componentes Independentes Sobredeterminada (OICA) para estimar a matriz de mistura $\tilde{A}$ a partir dos dados.
Realização de Rank (Construção do Grafo):
- Fase 1: Reconstrói as arestas saindo das variáveis latentes ( $L \to V$ ) resolvendo um problema de realização de grafo bipartido para um matroide transversal.
- Fase 2: Reconstrói as arestas saindo das variáveis observadas ( $X \to V$ ). Otimiza a complexidade ao decompor o problema global em verificações locais para cada $X_i$ individualmente (usando o Teorema 2).
Travessia da Classe de Equivalência: A partir do grafo inicial, o algoritmo aplica as operações admissíveis (Teorema 3) para enumerar ou navegar por toda a classe de grafos equivalentes.

4. Resultados e Avaliação

O trabalho apresenta uma avaliação abrangente em cinco frentes:

Tamanho das Classes de Equivalência: Estatísticas exaustivas mostram que, mesmo para grafos pequenos (5-6 vértices), o número de grafos em uma classe de equivalência pode ser enorme (ex: 783 classes para 5 vértices com 2 latentes), evidenciando a incerteza inerente.
Eficiência Computacional: O glvLiNG é significativamente mais rápido que abordagens baseadas em Programação Linear Inteira (MILP) para realizar os ranks. Resolve casos com $n=10$ em menos de 5 segundos, enquanto a baseline falha após 10 minutos para $n>5$ .
Benchmark sob "Oracle": Quando comparado a métodos existentes (LaHiCaSl, PO-LiNGAM) que recebem acesso direto aos testes de independência (Oracle), os métodos existentes falham em modelos com estruturas arbitrárias (violando suas suposições), produzindo grafos excessivamente esparsos e com alta taxa de erro estrutural (SHD). O glvLiNG recupera a classe correta.
Simulações com Dados Finitos: O glvLiNG supera os métodos baselines em grafos densos e é mais robusto ao aumento da dimensionalidade latente. Em grafos esparsos, os métodos baselines (que assumem estruturas hierárquicas) ainda têm vantagem, mas o glvLiNG mantém desempenho competitivo sem violar suposições.
Dados do Mundo Real: Aplicado a dados de retornos diários de ações de 14 grandes empresas de Hong Kong (2000-2005). O algoritmo recuperou padrões causais plausíveis, identificando bancos como fontes causais centrais e variáveis latentes com interpretações econômicas razoáveis.

5. Significado e Contribuições Principais

Primeira Caracterização Geral: É a primeira caracterização de equivalência distribucional para modelos paramétricos com variáveis latentes e ciclos, sem suposições estruturais (como aciclicidade ou modelos de medição puros).
Nova Ferramenta Teórica: A introdução das Edge Rank Constraints enriquece a caixa de ferramentas para descoberta causal, oferecendo uma perspectiva local e combinatória que complementa os ranks de caminho globais.
Método Livre de Suposições: O glvLiNG demonstra que é possível recuperar a estrutura causal (até a equivalência) sem impor restrições artificiais sobre como as latentes interagem, superando limitações de décadas de pesquisa.
Ferramenta Interativa: Os autores disponibilizam um demo interativo (https://equiv.cc) para visualizar e navegar pelas classes de equivalência, facilitando a compreensão da complexidade do problema.

Em resumo, este trabalho estabelece as bases teóricas e práticas para a descoberta causal robusta em cenários complexos e realistas, onde variáveis ocultas e feedbacks coexistem, eliminando a necessidade de suposições estruturais restritivas que limitavam os métodos anteriores.