Fairness under Graph Uncertainty: Achieving Interventional Fairness with Partially Known Causal Graphs over Clusters of Variables

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um gerente de recursos humanos tentando contratar pessoas para um trabalho difícil. Você tem muitos dados sobre os candidatos: idade, histórico escolar, notas em testes físicos e, claro, algumas informações sensíveis como gênero e raça.

O seu objetivo é ser justo: você quer contratar a pessoa mais qualificada, sem que o gênero ou a raça influenciem a decisão de forma injusta. Mas aqui está o problema: como você sabe exatamente quais dados estão influenciando quais outros?

O Problema: O Mapa do Tesouro Incompleto

Para garantir justiça, os cientistas de dados precisam entender a "causalidade". É como ter um mapa que mostra quem influencia quem.

Exemplo: Será que o gênero influencia a nota do teste físico? Ou será que a nota do teste físico depende apenas da prática e da saúde?

O problema é que, na vida real, não temos o mapa completo. Tentar descobrir todas as conexões entre todas as variáveis (como se fosse desenhar cada rua de uma cidade gigante) é caro, difícil e muitas vezes impossível. É como tentar adivinhar o caminho de um labirinto sem nunca ter visto o desenho.

A maioria dos métodos antigos exige que você tenha o mapa perfeito (o "grau causal" completo). Se você errar uma única seta no mapa, sua "fórmula de justiça" pode falhar e discriminar alguém sem você perceber.

A Solução: O Mapa de "Bairros" (Clusters)

O artigo propõe uma ideia brilhante e mais simples: em vez de tentar mapear cada rua individual, vamos mapear os "bairros".

Imagine que, em vez de olhar para cada árvore individual de um parque, você olha para os "quarteirões" ou "bairros".

Em vez de saber se "Árvore A" influencia "Árvore B", você sabe se o "Bairro das Árvores" influencia o "Bairro dos Prédios".

Isso é o que os autores chamam de Gráfico de Causalidade em Clusters. É muito mais fácil e rápido desenhar um mapa de bairros do que um mapa de cada árvore. Mesmo que você não saiba exatamente o que acontece dentro de cada bairro, o mapa dos bairros já te dá informações suficientes para tomar decisões justas.

A Técnica: O "Teste de Cenários Piores"

Como o mapa de bairros ainda tem algumas incertezas (você não sabe a direção de todas as setas entre os bairros), os autores criaram um método de segurança:

Listar os Possíveis: Eles criam uma lista de todos os mapas possíveis que poderiam ser verdadeiros, baseados no mapa de bairros que eles têm.
O "Pior Cenário": Em vez de tentar adivinhar qual mapa é o certo, eles treinam o algoritmo para ser justo em todos os mapas possíveis ao mesmo tempo. É como um piloto de avião que treina para voar em tempestade, chuva e sol ao mesmo tempo. Se o avião aguenta o "pior cenário" de todos, ele será seguro em qualquer situação real.
A Balança Mágica (Kernel MMD): Para medir se o algoritmo está sendo justo, eles usam uma ferramenta matemática inteligente (chamada de "MMD") que compara as decisões tomadas para diferentes grupos (ex: homens vs. mulheres). Eles criaram uma versão mais rápida e eficiente dessa ferramenta, que funciona bem mesmo com muitos dados.

Por que isso é importante?

Mais Realista: Não exige que você seja um gênio da causalidade para ter um mapa perfeito. Funciona com o que você tem na mão (o mapa de bairros).
Mais Justo e Preciso: Os testes mostraram que esse método erra menos na previsão (é mais preciso) e discrimina menos do que os métodos antigos que tentam adivinhar o mapa completo.
Robusto: Mesmo que o mapa de bairros não seja 100% perfeito, o método continua funcionando bem, porque ele se prepara para todas as possibilidades.

Resumo em uma Analogia Final

Imagine que você quer garantir que uma receita de bolo seja justa para todos os convidados, independentemente de onde eles vieram.

Método Antigo: Exige que você saiba exatamente como cada grão de açúcar e cada gota de óleo interagem entre si em nível molecular. Se você errar um detalhe, o bolo fica ruim.
Método Novo (C-IFair): Você olha para os "ingredientes principais" (farinha, ovos, leite) como grupos. Você testa a receita de forma que funcione bem, não importa se o açúcar se mistura primeiro com a farinha ou com os ovos. Você garante que o bolo saia perfeito em todas as combinações possíveis de mistura.

Conclusão: O artigo nos ensina que, para criar inteligência artificial justa, não precisamos de um conhecimento perfeito e impossível do mundo. Com um pouco de criatividade (agrupando variáveis) e muita preparação para o pior cenário, podemos tomar decisões melhores e mais éticas.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

O artigo aborda o desafio de garantir justiça algorítmica (fairness) em decisões automatizadas (como contratações ou empréstimos) quando o conhecimento sobre a estrutura causal subjacente dos dados é incompleto ou incerto.

O Dilema da Justiça Causal: Muitas definições modernas de justiça baseiam-se em conceitos causais, especificamente a justiça intervencional (interventional fairness). Esta exige que a distribuição de uma previsão ( $\hat{Y}$ ) permaneça inalterada quando se intervém em atributos sensíveis (como gênero ou raça), mantendo constantes as características admissíveis.
A Limitação Atual: A maioria dos métodos existentes assume que se tem acesso ao grafo causal verdadeiro em nível de variável (DAG) ou a um CPDAG (Grafo Acíclico Parcialmente Direcionado) completo. No entanto, inferir um grafo causal completo a partir de dados observacionais é um problema notoriamente difícil, especialmente em dimensões altas, pois requer um número exponencial de testes de independência condicional. Erros na inferência do grafo podem levar a violações das garantias de justiça.
A Proposta: O trabalho propõe um cenário mais realista onde apenas um CPDAG de Clusters (Cluster CPDAG) está disponível. Neste cenário, as variáveis são agrupadas em clusters (partições definidas pelo usuário), e o grafo causal é conhecido apenas entre esses clusters, não dentro deles. A inferência de grafos em nível de cluster é significativamente mais eficiente e robusta do que em nível de variável.

2. Metodologia Proposta (C-IFair)

Os autores desenvolvem um framework de aprendizado chamado C-IFair (Cluster Interventional Fairness) que opera sob incerteza gráfica usando o CPDAG de clusters.

A. Enumeração de Conjuntos de Ajuste (Adjustment Sets)

O principal desafio é identificar quais variáveis (clusters) devem ser condicionadas para estimar distribuições intervencionais válidas, dado que a estrutura interna de cada cluster é desconhecida.

Algoritmo de Enumeração: Os autores propõem um algoritmo gráfico para enumerar conjuntos de ajuste candidatos ( $Z_1, \dots, Z_M$ ).
Lógica: O algoritmo explora todas as orientações possíveis de arestas não direcionadas no CPDAG de clusters que são consistentes com as arcos de independência (independence arcs) e marcas de conexão/separação (connection/separation marks).
Garantia: O objetivo é garantir que, para qualquer DAG de clusters verdadeiro compatível com o CPDAG inferido, pelo menos um dos conjuntos enumerados seja um conjunto de ajuste válido (d-separando os caminhos de "back-door" entre atributos sensíveis e a previsão).
Refinamento: Em casos onde a estrutura é indeterminável, o método permite um refinamento do grafo (dividindo clusters em nós únicos) para garantir a identificação de conjuntos de ajuste válidos.

B. Penalização da Pior Caso de Injustiça

Como não se sabe qual dos conjuntos de ajuste enumerados é o correto para o grafo verdadeiro, o framework adota uma abordagem de pior caso (worst-case).

A função de penalidade ( $g_\theta$ ) na função de perda maximiza a discrepância entre as distribuições intervencionais sobre todos os conjuntos de ajuste candidatos.
Isso força o modelo a ser justo independentemente de qual estrutura causal específica dentro da classe de equivalência seja a verdadeira.

C. Estimação Eficiente via MMD Barycenter

Calcular a discrepância máxima sobre todos os pares de distribuições e todos os conjuntos de ajuste seria computacionalmente proibitivo. Para resolver isso, os autores introduzem duas otimizações:

MMD de Baricentro (Barycenter MMD): Em vez de calcular a soma de todas as distâncias MMD (Maximum Mean Discrepancy) entre pares de valores sensíveis, eles decompõem o cálculo para a soma das distâncias entre cada distribuição e uma distribuição de baricentro (média mista). Isso reduz a complexidade de $O(N_A^2)$ para $O(N_A)$ , onde $N_A$ é o número de valores do atributo sensível.
Random Fourier Features (RFF): Utilizam RFFs para aproximar o mapeamento do kernel, reduzindo a complexidade de cálculo do MMD de $O(n^2)$ para $O(n \cdot d_{RFF})$ , onde $n$ é o tamanho da amostra.

Resultado: Uma função de penalidade computacionalmente eficiente que escala bem com o número de valores sensíveis e o tamanho da amostra.

3. Principais Contribuições

Framework C-IFair: Um novo framework de aprendizado que alcança justiça intervencional utilizando apenas um CPDAG de clusters, relaxando a necessidade de um grafo causal completo em nível de variável.
Algoritmo de Enumeração Gráfica: Desenvolvimento de um algoritmo que enumera conjuntos de ajuste válidos considerando a incerteza estrutural dentro dos clusters e as marcas de independência/conexão do CPDAG.
Otimização Computacional: Proposta de um estimador de MMD de Baricentro combinado com RFFs, permitindo a penalização da pior caso de injustiça de forma escalável.
Validação Empírica: Demonstração de que o método supera abordagens existentes em cenários de alta dimensionalidade e com grafos densos.

4. Resultados Experimentais

Os autores avaliaram o método em dados sintéticos (lineares e não-lineares) e em três conjuntos de dados do mundo real (Adult, German Credit, OULAD).

Comparação com Baselines: O C-IFair foi comparado com métodos que ignoram a causalidade (Unaware), métodos que usam grafos completos (Oracle), e métodos de justiça causal baseados em CPDAGs de variáveis ( $\epsilon$ -IFair, $\ell$ -IFair).
Desempenho em Dados Sintéticos:
- O C-IFair alcançou o melhor equilíbrio entre precisão (RMSE) e justiça (Unfairness) em todos os cenários.
- Em configurações de alta dimensionalidade ( $d=15$ ), métodos baseados em CPDAGs de variáveis ( $\ell$ -IFair) falharam em manter a justiça, enquanto o C-IFair manteve-se robusto. Isso confirma que a inferência de grafos em nível de cluster é mais confiável quando a inferência em nível de variável é difícil.
Dados Reais: Nos datasets Adult e German Credit, o C-IFair obteve os melhores resultados de AUC (área sob a curva) e as menores métricas de injustiça, superando os baselines que tentam inferir grafos complexos.
Robustez: O método demonstrou robustez mesmo quando a partição de clusters não era perfeitamente admissível (violando algumas premissas teóricas), mantendo desempenho competitivo.

5. Significado e Impacto

Este trabalho é significativo por várias razões:

Viabilidade Prática: Remove a barreira de entrada para a aplicação de justiça causal em cenários do mundo real, onde obter um grafo causal completo é impossível ou extremamente custoso. Ao focar em clusters, torna a inferência causal viável.
Robustez à Incerteza: Em vez de depender de uma única estimativa de grafo (que pode estar errada), o método considera um conjunto de grafos possíveis e otimiza para o pior caso, garantindo que a justiça seja mantida mesmo sob incerteza estrutural.
Eficiência Computacional: A introdução do MMD de Baricentro e RFFs torna a aplicação de métodos de justiça causal viável em grandes conjuntos de dados e com muitos atributos sensíveis, algo que métodos anteriores não conseguiam fazer eficientemente.
Direção Futura: O trabalho abre caminho para o uso de conhecimento de domínio (partições de clusters) para melhorar a justiça algorítmica, sugerindo que a colaboração entre especialistas de domínio (para definir clusters) e cientistas de dados (para inferir causalidade) é uma estratégia promissora.

Em resumo, o artigo apresenta uma solução elegante e robusta para o problema da justiça algorítmica em cenários de incerteza causal, demonstrando que é possível alcançar justiça intervencional de alta qualidade sem a necessidade de conhecimento causal perfeito em nível de variável.