Exposing the Illusion of Fairness: Auditing Vulnerabilities to Distributional Manipulation Attacks

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um auditor de qualidade em uma fábrica de carros. Sua função é garantir que os carros não emitam fumaça preta (poluição) e que sejam seguros para todos. O dono da fábrica (o "auditee") entrega a você uma caixa com 100 peças de motor para você testar. Se essas peças passarem no teste, o carro é aprovado.

O problema é que o dono da fábrica pode ser mal-inteligente. Ele sabe que a fábrica inteira está emitindo muita fumaça preta, mas ele pode selecionar apenas as 100 peças mais limpas e perfeitas para te entregar. Para você, parece que a fábrica é limpa. Mas, na realidade, o resto dos milhões de carros que saem da fábrica continuam poluindo.

Este artigo de pesquisa, escrito por um grupo de cientistas da França e do Brasil, é como um manual para desmascarar esse truque.

Aqui está a explicação simples do que eles descobriram:

1. O Grande Truque: "Fairwashing" (Lavagem de Justiça)

No mundo da Inteligência Artificial (IA), existe uma preocupação real: os computadores podem ser preconceituosos (por exemplo, negar empréstimos para um grupo específico de pessoas). As leis exigem que as empresas provem que seus sistemas são justos.

Os pesquisadores descobriram que uma empresa com um sistema preconceituoso pode criar uma "ilusão de justiça".

A Analogia: Imagine que você tem um baralho de cartas onde a maioria são cartas ruins (preconceituosas). Se você pedir para alguém tirar 10 cartas aleatórias, provavelmente sairá algo ruim. Mas, se você pedir para a pessoa escolher as 10 melhores cartas e mostrar apenas essas, ela parecerá ter um baralho perfeito.
O que o artigo faz: Ele mostra matematicamente como um sistema "mau" pode escolher apenas os dados que parecem justos para enganar o auditor, enquanto esconde o resto dos dados preconceituosos.

2. Como eles fazem isso? (Os "Mágicos" da Matemática)

O artigo explica duas técnicas principais que um "auditor mal-intencionado" usaria para fazer essa mágica sem ser pego:

O Camaleão (Projeção Entrópica): Imagine que você tem um grupo de pessoas em uma sala. Para parecer justo, você pede para algumas pessoas mudarem levemente de lugar ou de roupa, mas de um jeito tão sutil que, se você olhar de longe, a sala parece exatamente a mesma. Eles usam matemática avançada para mover os dados "justamente" o suficiente para passar no teste de justiça, mas sem mudar a "cara" geral dos dados.
O Transportador (Transporte Ótimo): Imagine que você tem um mapa de pontos. Para enganar o auditor, você move alguns pontos de um lugar para outro, como se estivesse empurrando areia de um monte para outro, de forma que a forma geral da montanha não mude, mas a cor (a justiça) fique perfeita.

3. Como o Auditor pode pegar o trapaceiro?

O artigo não apenas mostra como trapacear, mas ensina como os reguladores (o "polícia") podem detectar a fraude.

A Analogia do Cheiro: Se alguém tenta esconder um cheiro ruim com perfume, um nariz treinado (o auditor) pode sentir que algo está errado.
A Solução: Os pesquisadores propõem que o auditor não confie apenas na "caixa de peças" entregue. Eles sugerem usar testes estatísticos que medem a "distância" entre o que foi entregue e o que deveria ser.
- Se o dono da fábrica entrega apenas as peças perfeitas, a "distância" entre a caixa entregue e a fábrica real será muito grande.
- O artigo testa vários desses "narizes" (testes estatísticos) e descobre quais são melhores para cheirar a fraude.

4. A Lição Principal: Tamanho Importa!

A descoberta mais importante do artigo é sobre o tamanho da amostra.

A Analogia: Se você quer pegar um rato em um celeiro gigante, e o dono do celeiro te deixa escolher apenas 5 fardos de feno para olhar, é fácil esconder o rato. Mas se você tiver que olhar 500 fardos, fica muito difícil esconder o rato sem que você veja algo estranho.
Conclusão: O artigo diz que, para evitar que as empresas mintam sobre a justiça de suas IAs, os reguladores devem exigir amostras de dados muito grandes. Quanto maior a amostra que o auditor pode verificar, mais difícil é para a empresa esconder seus preconceitos.

Resumo Final

Este trabalho é um alerta: Não confie cegamente no que a empresa te mostra.
Se uma empresa diz "nosso sistema é justo", ela pode estar apenas mostrando os melhores dados, escondendo o resto. O artigo fornece as ferramentas matemáticas para os reguladores saberem quando estão sendo enganados e diz que a melhor defesa é pedir para ver muito mais dados do que o necessário, tornando impossível esconder a verdade.

É como se dissessem: "Não aceite apenas a amostra grátis no supermercado; vá até o fundo da prateleira e veja o que está escondido atrás."

Each language version is independently generated for its own context, not a direct translation.

Título: Expondo a Ilusão de Justiça: Auditoria de Vulnerabilidades a Ataques de Manipulação Distribucional

1. Problema e Contexto

Com a rápida implementação de sistemas de IA em domínios de alto risco (como regulamentado pelo Ato de IA da UE), a auditoria de conformidade tornou-se crítica. A auditoria de justiça (fairness) frequentemente depende de métricas globais, como a Razão de Impacto Disparato (Disparate Impact - DI), calculadas sobre uma amostra de dados fornecida pelo auditado (o dono do modelo).

O problema central identificado é a vulnerabilidade à manipulação maliciosa:

Um auditado mal-intencionado pode selecionar ou modificar um subconjunto de dados que parece representativo da distribuição original, mas que foi otimizado para satisfazer artificialmente as métricas de justiça (ex: DI $\ge$ 0.8).
Isso cria uma "ilusão de justiça", onde o sistema parece cumprir a regulamentação na auditoria, mas continua discriminatório na prática (no conjunto de dados completo).
O objetivo do auditado é minimizar o deslocamento distribucional (para passar em testes de representatividade) enquanto maximiza a métrica de justiça.

2. Metodologia

Os autores formalizam o problema como uma tarefa de projeção distribucional restrita. O auditado busca encontrar uma nova distribuição $Q_t$ que satisfaça a restrição de justiça (DI $\ge t$ ) e minimize a distância em relação à distribuição original $Q_n$ .

Estratégias de Ataque (Fair-washing)

O artigo propõe e analisa quatro categorias principais de métodos para manipular os dados:

Projeção Entrópica (KL Divergência):
- Baseada na minimização da Divergência de Kullback-Leibler (KL).
- Utiliza o Teorema da Projeção Entrópica para reponderar os dados originais (atribuir pesos $\lambda_i$ ) de modo a atender à restrição de justiça com o menor custo de informação possível.
- Variações: Balanced (modificação igualitária entre classes) e Proportional (modificação proporcional ao tamanho das classes).
Transporte Ótimo (Wasserstein Distance):
- Baseada na minimização da Distância de Wasserstein (Monge-Kantorovich).
- Move os pontos de dados no espaço de características para atender à restrição, criando "novos" indivíduos ou alterando características existentes.
- Inclui métodos baseados em gradiente (Grad_balanced, Grad_proportional) e uma variante que projeta as covariáveis para valores viáveis no conjunto de dados (1D-transport).
Substituição de Atributos (Replace):
- Manipula apenas a variável sensível ( $S$ ) e o rótulo de decisão ( $\hat{Y}$ ), mantendo as características originais ( $X$ ) inalteradas.
- Usa um algoritmo iterativo para trocar pares $(S, \hat{Y})$ que maximizem o DI a cada passo.
Correspondência Restrita (Matching - MW):
- Combina a minimização do transporte ótimo com a restrição de que os novos indivíduos devem ser correspondências de indivíduos existentes no conjunto de dados (transporte discreto).
- Este método é particularmente eficaz pois preserva a estrutura do espaço de entrada.

Detecção pela Autoridade Supervisora

Para contrapor esses ataques, os autores propõem testes estatísticos baseados em distâncias distribucionais para verificar se a amostra enviada é representativa da distribuição total:

Testes Utilizados: Kolmogorov-Smirnov (KS), Distância de Wasserstein ( $W_2$ ), Divergência KL e Maximum Mean Discrepancy (MMD).
Abordagem: A autoridade compara a distribuição da amostra enviada ( $D_n$ ) com a distribuição real conhecida ( $Q_n$ ). Se a distância for estatisticamente significativa, a amostra é considerada manipulada.

3. Contribuições Principais

Formalização Matemática: Definição rigorosa do problema de manipulação de auditoria como um problema de otimização de projeção distribucional sob restrições de justiça.
Novos Métodos de Ataque: Desenvolvimento de estratégias baseadas em projeções entrópicas e transporte ótimo que demonstram como é possível "lavar" dados (fair-washing) com deslocamento distribucional mínimo.
Análise de Detectabilidade: Avaliação sistemática da capacidade dos testes estatísticos de detectar essas manipulações. O estudo mostra que, dependendo do método e do tamanho da amostra, é possível enganar a auditoria.
Diretrizes Práticas: Recomendações para reguladores sobre como fortalecer os processos de auditoria, focando no tamanho da amostra e na combinação de múltiplos testes estatísticos.

4. Resultados Experimentais

Os experimentos foram realizados em 7 conjuntos de dados tabulares (incluindo Adult, Folktables, Bank Fraud) e estendidos para dados de imagem (CelebA).

Eficácia dos Ataques:
- O método MW (Matching com Transporte Ótimo) e os métodos baseados em Entropia mostraram-se os mais eficazes para aumentar o DI sem ser detectado. Eles conseguem atingir valores de DI altos (ex: 0.8 ou superior) mantendo a distância distribucional baixa.
- Métodos que modificam características individuais (Gradientes) são facilmente detectados.
- Em alguns casos (ex: dataset INC e TRA), foi possível atingir o limite de justiça (DI $\ge$ 0.8) sem que nenhum dos 7 testes estatísticos rejeitasse a hipótese nula (de que as distribuições são iguais).
Impacto do Tamanho da Amostra:
- O tamanho da amostra é o fator mais crítico. Amostras pequenas (ex: 10% dos dados) são muito mais fáceis de manipular sem detecção do que amostras grandes (20% ou mais).
- À medida que o tamanho da amostra aumenta, o espaço de distribuições manipuláveis que permanecem indetectáveis diminui drasticamente.
Dados Não Tabulares (Imagens):
- Testes aplicados diretamente em pixels são menos eficazes. No entanto, testes aplicados em espaços de descritores aprendidos (latent spaces de CNNs como ResNet) são muito mais sensíveis à manipulação.

5. Significado e Conclusões

O artigo expõe uma falha fundamental nos processos atuais de auditoria de IA: a confiança cega em subconjuntos de dados fornecidos pelo auditado.

Conclusão Principal: Métricas globais de justiça podem ser facilmente manipuladas se o auditado controlar a seleção da amostra. A "justiça" observada pode ser uma ilusão estatística.
Recomendações para Reguladores:
1. Não permitir seleção livre: O auditado não deve escolher livremente a amostra de auditoria.
2. Acesso Total ou Amostras Grandes: As autoridades devem ter acesso ao conjunto de dados completo ou exigir amostras suficientemente grandes para reduzir a variância e o espaço de manipulação.
3. Testes Combinados: Utilizar uma combinação de testes estatísticos (KL, Wasserstein, KS, MMD) aumenta a robustez contra ataques específicos.
4. Verificação de Representatividade: A representatividade da amostra deve ser o objetivo primário da auditoria, não apenas o cálculo da métrica de justiça.

Este trabalho serve como um alerta para a necessidade de frameworks de auditoria mais robustos e adversariais, onde a detecção de manipulação distribucional é tão importante quanto a medição da justiça em si. O código e os dados estão disponíveis publicamente para reprodução.