Joint Distribution-Informed Shapley Values for Sparse Counterfactual Explanations

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando consertar um carro que não liga. O mecânico (o modelo de Inteligência Artificial) diz: "Se você trocar o motor, o pneu, o banco e a cor do carro, ele vai ligar".

Isso é tecnicamente verdade, mas é desnecessário e caro. Você só precisava trocar a bateria!

Essa é a ideia central do artigo "Valores de Shapley Informados pela Distribuição Conjunta para Explicações Contrafactuais Esparsas". Os autores criaram uma ferramenta chamada COLA para resolver exatamente esse problema: encontrar a maneira mais simples e barata de mudar algo para obter um resultado diferente de uma IA.

Aqui está uma explicação simples, usando analogias do dia a dia:

1. O Problema: O "Excesso de Mudança"

Muitas vezes, quando pedimos para uma IA explicar por que algo deu errado e o que fazer para consertar (chamado de Explicação Contrafactual), ela sugere mudar muitas coisas.

Exemplo: Um banco nega um empréstimo. A IA diz: "Para conseguir, você precisa mudar sua idade, seu nome, seu endereço, seu salário e sua profissão".
O Problema: Você não pode mudar sua idade ou nome. Mudar o endereço e a profissão é difícil demais. A explicação é inútil porque pede mudanças irreais.

2. A Solução: O "Detetive COLA"

Os autores criaram o COLA (Counterfactuals with Limited Actions). Pense nele como um detetive muito esperto que chega depois que o mecânico (a IA original) já deu a solução exagerada.

O COLA não inventa uma nova solução do zero; ele pega a solução exagerada e a refina para encontrar o caminho mais curto. Ele faz isso em duas etapas principais:

Etapa A: O "Mapa de Correspondência" (Transporte Ótimo)

Imagine que você tem uma sala cheia de pessoas com roupas velhas (os dados reais) e outra sala com pessoas com roupas novas (os dados ideais que a IA sugeriu).

O problema é: quem deve trocar de roupa com quem?
Métodos antigos tentavam adivinhar aleatoriamente ou usar regras rígidas.
O COLA usa uma técnica chamada Transporte Ótimo. Pense nisso como um algoritmo de logística super eficiente. Ele calcula qual é o caminho mais curto e barato para levar cada pessoa da sala "velha" para a sala "nova", sem desperdiçar energia. Ele cria um "mapa de conexão" perfeito entre o que você é hoje e o que você precisa ser.

Etapa B: O "Juiz Justo" (Valores de Shapley)

Agora que temos o mapa, precisamos saber quais roupas trocar.

Métodos comuns olham para a importância geral de cada peça de roupa (ex: "camisetas são importantes"). Mas isso pode enganar.
O COLA usa uma versão melhorada dos Valores de Shapley (chamada p-SHAP). Imagine que o Shapley é um juiz que divide a "culpa" ou o "mérito" de uma mudança.
O "p" significa que o juiz olha para o mapa de conexão que criamos na etapa anterior. Ele pergunta: "Olhando especificamente para a conexão entre esta pessoa e aquela roupa ideal, qual é a única peça que realmente importa mudar?"

3. O Resultado: A "Fórmula Mágica"

Ao combinar o mapa eficiente (Transporte Ótimo) com o juiz justo (Shapley), o COLA consegue:

Manter o mesmo resultado desejado (o carro liga, o empréstimo é aprovado).
Mas com muito menos mudanças.

Os números do artigo são impressionantes:
Em testes com diversos bancos de dados e modelos, o COLA conseguiu atingir o objetivo usando apenas 26% a 45% das mudanças que os métodos originais pediam.

Tradução: Se a IA original dizia "mude 10 coisas", o COLA diz: "Na verdade, você só precisa mudar 3 ou 4".

4. Por que isso é importante?

Ação Realista: Se você é um paciente, não adianta a IA dizer "mude seu DNA". É melhor dizer "mude sua dieta e faça exercícios". O COLA foca no que é possível mudar.
Economia de Esforço: Para empresas, significa menos trabalho para corrigir problemas. Para pessoas, significa menos estresse e mudanças na vida.
Segurança: Ao mudar menos coisas, você evita criar "soluções" que parecem falsas ou manipuladoras.

Resumo em uma frase

O COLA é como um personal trainer de Inteligência Artificial: em vez de te pedir para mudar toda a sua vida para ficar saudável, ele analisa seu corpo e diz exatamente quais 3 exercícios você precisa fazer para ver resultados, ignorando tudo o que é desnecessário.

O código e a ferramenta já estão disponíveis para que qualquer um possa usar essa "lente de aumento" para ver o caminho mais curto até o sucesso em qualquer sistema de IA.

Each language version is independently generated for its own context, not a direct translation.

Título: Valores de Shapley Informados pela Distribuição Conjunta para Explicações Contrafactuais Esparsas

Autores: Lei You, Yijun Bian, Lele Cao.
Framework Proposto: COLA (COunterfactuals with Limited Actions).

1. Problema e Motivação

As explicações contrafactuais (CE) visam revelar como pequenas alterações nas entradas de um modelo de aprendizado de máquina podem inverter sua previsão. No entanto, métodos existentes frequentemente modificam mais características (features) do que o necessário para atingir o resultado desejado, o que reduz a clareza e a acionabilidade da explicação para o usuário.

O problema central abordado é: Dado um conjunto de instâncias factuais, como criar um plano de ação que exija o mínimo de modificações de características possível para alcançar um resultado contrafactual desejado?

Os desafios identificados são:

A falta de um algoritmo único de CE que atenda a todos os cenários (individuais, grupais ou distribucionais).
A necessidade de independência de modelos (não assumir diferenciabilidade ou estruturas específicas).
A ineficiência de usar atribuição de características (FA) e explicações contrafactuais (CE) de forma desacoplada. A importância de uma característica (FA) nem sempre se alinha com o caminho mais eficiente para alcançar o resultado contrafactual, levando a modificações contraproducentes.

2. Metodologia: O Framework COLA

O artigo propõe o COLA, um framework post-hoc agnóstico a modelos e geradores de CE. O objetivo é refinar qualquer explicação contrafactual existente, reduzindo o número de alterações necessárias enquanto preserva o efeito desejado.

O COLA opera em três etapas principais:

A. Transporte Ótimo (OT) para Acoplamento

O método utiliza o Transporte Ótimo (Optimal Transport - OT) para calcular um acoplamento (joint distribution) entre o conjunto de dados factuais ( $x$ ) e o conjunto de dados contrafactuais gerados ( $r$ ).

Em vez de assumir alinhamentos aleatórios ou baseados apenas na distribuição de treinamento, o OT encontra o plano de transporte ( $p_{OT}$ ) que minimiza o custo de mover a distribuição factual para a contrafactual.
Isso resolve o problema de alinhamento: qual instância factual corresponde a qual instância contrafactual de forma mais eficiente?

B. p-SHAP (Valores de Shapley Informados pela Probabilidade Conjunta)

O COLA introduz uma nova variante de valores de Shapley chamada p-SHAP.

Diferente dos métodos tradicionais (como Baseline SHAP ou Counterfactual SHAP padrão), o p-SHAP utiliza a distribuição conjunta obtida pelo OT ( $p_{OT}$ ) para definir a função de valor no cálculo dos Shapley.
Teorema 4.1: O OT minimiza um limite superior da divergência $W_1$ (distância de Wasserstein) entre as saídas do modelo factual e o alvo. Sob condições de Lipschitz, isso garante que o custo de modificação seja minimizado.
Teorema 4.2: O p-SHAP atribui causalidade correta às modificações, garantindo que a importância das características reflita o efeito interventional necessário para atingir o alvo.

C. Seleção Esparsa de Ações

Com os valores de Shapley calculados via p-SHAP, o framework:

Normaliza os valores absolutos para criar uma matriz de probabilidade de modificação.
Seleciona um subconjunto mínimo de características para alterar (baseado em um limite $C$ de ações permitidas).
Atribui os novos valores das características baseando-se no contrafactual alinhado pelo OT (usando funções como $A_{max}^{Value}$ ou $A_{avg}^{Value}$ ).
Gera a explicação refinada ( $z$ ) que é teoricamente garantida de estar mais próxima ou igual à factual original em comparação com a proposta bruta do gerador de CE.

3. Contribuições Principais

Framework COLA: A primeira abordagem sistemática para refinar explicações contrafactuais sem depender de um algoritmo de CE específico ou de um modelo específico.
p-SHAP: Uma nova definição de valores de Shapley que integra a distribuição conjunta ótima (via OT) para alinhar factuais e contrafactuais, superando métodos que usam alinhamentos aleatórios ou distribuições marginais simples.
Garantias Teóricas:
- Prova de que o OT minimiza um limite superior da divergência entre a saída factual e o alvo.
- Prova de que as explicações refinadas pelo COLA não se afastam mais da factual original do que a explicação contrafactual original (Teorema 5.1).
Eficiência Empírica: Redução drástica no número de características modificadas mantendo a eficácia da explicação.

4. Resultados Experimentais

Os experimentos foram realizados em 4 conjuntos de dados (HELOC, German Credit, Hotel Bookings, COMPAS), 12 modelos (incluindo XGBoost, LightGBM, DNN, SVM, etc.) e 5 geradores de CE (DiCE, AReS, GlobeCE, KNN, Discount).

Redução de Ações: O COLA com p-SHAP alcançou o mesmo efeito contrafactual (80% a 100% da eficácia original) utilizando apenas 26% a 45% das modificações de características originais. Em alguns casos, para atingir 80% do efeito, foram necessárias apenas 13% a 25% das alterações.
Superioridade do p-SHAP: O método proposto (CF-pOT) superou consistentemente todas as outras variantes de Shapley (como RB-SHAP, CF-SHAP com alinhamento aleatório ou uniforme). Isso demonstra que o alinhamento via OT é crucial e que a simples informação contrafactual não é suficiente sem o acoplamento correto.
Near-Optimalidade: Em um benchmark de pequena escala resolvido via Programação Linear Inteira Mista (MILP), o COLA demonstrou desempenho próximo ao ótimo global, validando sua eficácia na busca por soluções esparsas.
Robustez: O método funcionou bem independentemente do gerador de CE utilizado (DiCE, KNN, AReS, etc.) e do tipo de modelo preditivo.

5. Significado e Impacto

Este trabalho avança significativamente o campo da IA Explicável (XAI) ao resolver o problema da "sobre-modificação" nas explicações contrafactuais.

Praticidade: Ao reduzir drasticamente o número de mudanças necessárias, as explicações tornam-se mais acionáveis para usuários reais (ex: um cliente de banco precisa alterar apenas 2 fatores para ser aprovado, em vez de 5).
Generalidade: O framework é agnóstico, podendo ser aplicado como uma camada de pós-processamento sobre qualquer gerador de CE existente, melhorando seus resultados sem exigir reengenharia do modelo subjacente.
Fundamentação Teórica: A conexão entre Transporte Ótimo, Teoria dos Jogos (Shapley) e otimização de ações fornece uma base matemática sólida para a seleção de características em cenários contrafactuais, indo além de heurísticas empíricas.

Em resumo, o COLA oferece uma maneira rigorosa e eficiente de transformar explicações contrafactuais "brutas" em planos de ação mínimos e viáveis, utilizando a distribuição conjunta ótima para guiar a atribuição de importância das características.