Do Metrics for Counterfactual Explanations Align with User Perception?

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um robô superinteligente que decide se você consegue um empréstimo, se um fungo é comestível ou se você tem risco de doença cardíaca. O robô diz "Não", mas não explica o porquê. Para nos acalmar e nos ajudar a entender, criamos uma ferramenta chamada Explicação Contrafactual.

Pense nela como um "E se..." mágico. O robô diz: "Se você tivesse ganho R$ 500 a mais por mês, ou se tivesse menos colesterol, eu teria dito 'Sim'". É como mostrar um caminho alternativo para o sucesso.

Agora, os cientistas de computador criaram uma série de réguas e balanças digitais (chamadas de métricas) para medir se essas explicações são boas. Elas medem coisas como:

Esparsidade: Quantas coisas mudamos? (Menos é melhor?)
Proximidade: O novo cenário é muito diferente do original? (Deve ser parecido?)
Diversidade: Mudamos coisas muito diferentes entre si?

O Grande Problema:
Os cientistas usaram essas réguas digitais para classificar as explicações como "boas" ou "ruins". Mas será que essas réguas digitais medem o que nós, humanos, realmente achamos importante? Será que o que a máquina considera "preciso" é o que o humano considera "útil"?

O Experimento (A Prova de Fogo)

Os autores deste artigo decidiram fazer um teste simples, mas profundo:

Eles geraram milhares dessas explicações "E se..." para três situações diferentes (Cogumelos, Níveis de Obesidade e Doenças Cardíacas).
Eles calcularam todas as réguas digitais para cada explicação.
Depois, eles chamaram 167 pessoas comuns (não especialistas) para ler essas explicações e dar notas de 1 a 4 em coisas como: "Isso faz sentido?", "É fácil de entender?", "Eu confio nisso?".

O Que Eles Descobriram? (A Surpresa)

A descoberta foi como descobrir que o termômetro do carro está quebrado.

As réguas digitais não conversam com os humanos: As métricas que os computadores usam para dizer "esta é uma ótima explicação" quase nunca batem com o que as pessoas acham. Às vezes, o computador diz que uma explicação é perfeita, e as pessoas acham confusa. Às vezes, o computador diz que é ruim, e as pessoas acham útil.
Cada mundo é um mundo: O que funcionou para explicar cogumelos não funcionou para explicar doenças cardíacas. Não existe uma "fórmula mágica" universal. O que é bom depende totalmente do contexto.
Mais réguas não ajudam: Os cientistas pensaram: "E se usarmos 7 réguas ao mesmo tempo em vez de uma só?". Eles tentaram misturar todas as métricas em modelos complexos de inteligência artificial para prever o que os humanos iam pensar. Resultado: Não funcionou. Adicionar mais dados às vezes até piorou a previsão. Foi como tentar adivinhar o clima olhando para a temperatura, a umidade, a pressão, a velocidade do vento e a cor da nuvem... e ainda assim errar porque falta algo fundamental.

A Analogia Final

Imagine que você é um chef de cozinha e quer saber se sua sopa está boa.

As Métricas Atuais são como um robô que mede a temperatura da sopa, o pH, o peso dos ingredientes e o tempo de cozimento. O robô diz: "A sopa está perfeita! Todos os números estão no verde!"
Os Humanos são os comensais que provam a sopa. Eles dizem: "Está sem sal e muito quente".

O artigo diz que estamos confiantes demais na medição do robô (as métricas) e esquecemos de perguntar ao comensal (o usuário). Estamos tentando medir a "qualidade" de uma explicação com uma régua que mede apenas a geometria dos dados, ignorando a psicologia e a intuição humana.

Conclusão Simples

O estudo conclui que as ferramentas atuais para avaliar explicações de IA estão falhando. Elas não conseguem capturar o que realmente importa para as pessoas: a clareza, a confiança e a utilidade prática.

Os autores pedem que paremos de confiar cegamente nessas "réguas digitais" e comecemos a criar novas formas de avaliar a IA que sejam centradas no ser humano, talvez ouvindo mais as pessoas e menos os algoritmos. Se queremos que a Inteligência Artificial seja confiável, precisamos entender o que ela acha importante, mas principalmente o que nós achamos importante.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O campo da Inteligência Artificial Explicável (XAI) depende fortemente de métricas algorítmicas automatizadas para avaliar a qualidade de explicações, especificamente as Explicações Contrafactuais (CFs). Métricas comuns avaliam propriedades como esparsidade (número de alterações), proximidade (distância da instância original) e plausibilidade.
No entanto, existe uma lacuna crítica: essas métricas são raramente validadas contra julgamentos humanos. A questão central do estudo é: as métricas automatizadas atuais refletem significativamente a percepção de qualidade pelos usuários? O artigo investiga se essas métricas servem como bons proxies para a avaliação humana, ou se há uma desconexão estrutural entre o que os algoritmos otimizam e o que os humanos consideram uma boa explicação.

2. Metodologia

Os autores conduziram um estudo empírico controlado combinando geração de dados, avaliação humana e modelagem preditiva.

Datasets e Geração de CFs:
- Foram utilizados três datasets tabulares do repositório UCI: Mushroom (classificação binária), Obesity Levels (classificação multiclasse) e Heart Disease (classificação binária).
- Um modelo base (XGBoost) foi treinado em cada dataset.
- Explicações Contrafactuais foram geradas usando o método Counterfactuals Guided by Prototypes (via biblioteca Alibi Explain).
- Foram selecionados 85 CFs válidos (30 para Mushroom, 30 para Obesity, 25 para Heart Disease) através de uma estratégia de amostragem baseada em clustering para garantir diversidade nas propriedades quantitativas.
Estudo com Usuários:
- Participantes: 167 participantes recrutados via Prolific.
- Tarefa: Os participantes avaliaram os CFs em cinco dimensões de qualidade percebida usando uma escala Likert de 4 pontos:
  1. Precisão Percebida (Perceived Accuracy)
  2. Compreensibilidade (Understandability)
  3. Plausibilidade (Plausibility)
  4. Suficiência de Detalhe (Sufficiency of Detail)
  5. Satisfação do Usuário (User Satisfaction)
- As cinco dimensões foram agregadas em uma Pontuação de Qualidade Combinada (CQS).
Métricas Automatizadas:
- Foram computadas 7 métricas padrão para os mesmos CFs: Esparsidade, Proximidade, Proximidade aos Dados de Treino (Closeness), Diversidade, Oracle Score, Trust Score e Completude (Completeness).
Análise:
- Correlação: Análise de correlação de Pearson entre as 7 métricas e as avaliações humanas (dimensões individuais e CQS).
- Modelagem Preditiva: Teste de se combinações de métricas podem prever as avaliações humanas. Foram analisados todos os 127 subconjuntos não vazios das 7 métricas usando cinco classes de modelos (Regressão Linear, kNN, Random Forest, XGBoost, GAMs) com validação cruzada de 5 dobras.

3. Contribuições Principais

Estudo de Usuário Controlado: Realização de uma avaliação sistemática onde participantes não especialistas avaliaram CFs em múltiplas dimensões de qualidade através de três datasets distintos.
Comparação Abrangente: Cálculo de um conjunto completo de métricas automatizadas padrão e sua comparação direta com as avaliações humanas.
Análise de Combinação de Métricas: Investigação rigorosa sobre se a combinação de múltiplas métricas (linear ou não linear) melhora a previsão da percepção humana, descobrindo que adicionar mais métricas frequentemente degrada o desempenho.
Evidência de Desalinhamento Estrutural: Demonstração de que as métricas atuais falham em capturar critérios relevantes para humanos, sugerindo a necessidade de novas abordagens centradas no ser humano.

4. Resultados Chave

Correlações Fracas e Dependentes do Dataset:
- As correlações entre métricas automatizadas e avaliações humanas foram geralmente fracas.
- Apenas o Trust Score mostrou uma associação estatisticamente significativa (embora moderada, $r \approx 0.3$ ) com a CQS quando agregado.
- Padrões Divergentes: O comportamento das correlações variou drasticamente entre os datasets.
  - No dataset Mushroom, métricas como esparsidade e proximidade tiveram correlações negativas fortes com a satisfação (usuários preferiram menos alterações).
  - No dataset Obesity, métricas como diversidade e completude tiveram correlações positivas (usuários preferiram explicações mais ricas).
  - No dataset Heart Disease, não houve correlações consistentes ou significativas.
- Isso indica que não existe uma métrica universal que funcione como proxy para a qualidade percebida em diferentes contextos.
Falha na Modelagem Preditiva:
- Regressão Linear: Desempenhou consistentemente mal, com valores de $R^2$ fortemente negativos (média de -1.25), indicando que combinações lineares de métricas não explicam a variância das avaliações humanas.
- Modelos Não Lineares (ex: Random Forest): Embora tenham superado a regressão linear, o desempenho ainda foi pobre. O melhor modelo (Random Forest) atingiu um $R^2$ máximo de apenas 0.33 em alguns casos, mas a média geral permaneceu abaixo de 0.1.
- Efeito do Número de Métricas: Aumentar o número de métricas usadas nos modelos não melhorou a previsão. Pelo contrário, adicionar mais de 3 ou 4 métricas frequentemente degradou o desempenho, sugerindo que as métricas não fornecem informações complementares úteis e introduzem ruído.

5. Significado e Conclusão

O estudo conclui que existe uma falha estrutural entre como as Explicações Contrafactuais são atualmente avaliadas (via métricas computacionais) e como são experienciadas pelos usuários.

Implicações Práticas: A prática comum de usar métricas automatizadas como substitutas (proxies) para avaliação humana em XAI é questionável e potencialmente enganosa. Otimizar para métricas como esparsidade ou proximidade pode não resultar em explicações que os usuários considerem úteis, confiáveis ou satisfatórias.
Direção Futura: Os autores argumentam que a comunidade de XAI precisa desenvolver métricas de avaliação que sejam diretamente fundamentadas na percepção humana e na teoria cognitiva, em vez de depender apenas de desideratos computacionais. O estudo destaca a necessidade de mais pesquisas centradas no usuário para definir o que realmente constitui uma "boa" explicação em diferentes contextos.

Em resumo, as métricas atuais de CFs não alinham-se de forma confiável com a percepção do usuário, sendo altamente dependentes do contexto e incapazes de prever a qualidade percebida, mesmo quando combinadas.

Do Metrics for Counterfactual Explanations Align with User Perception?

O Experimento (A Prova de Fogo)

O Que Eles Descobriram? (A Surpresa)

A Analogia Final

Conclusão Simples

1. Problema e Motivação

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

5. Significado e Conclusão

Mais como este

LABBench2: An Improved Benchmark for AI Systems Performing Biology Research

Linear Programming for Multi-Criteria Assessment with Cardinal and Ordinal Data: A Pessimistic Virtual Gap Analysis

Seven simple steps for log analysis in AI systems

Turing Test on Screen: A Benchmark for Mobile GUI Agent Humanization

AHC: Meta-Learned Adaptive Compression for Continual Object Detection on Memory-Constrained Microcontrollers