From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um detetive tentando entender por que um cliente comprou um produto ou por que um paciente ficou doente. Hoje em dia, usamos "supercomputadores" (chamados de Modelos de Machine Learning) para fazer essas previsões. Eles são incrivelmente precisos, mas funcionam como uma caixa preta: você joga os dados dentro e eles dão a resposta, mas ninguém sabe exatamente como chegaram lá.

Para abrir essa caixa preta, os cientistas criaram ferramentas chamadas Explicadores Pós-Hoc (como o SHAP e o LIME). A ideia era simples: "Vamos usar essas ferramentas para ver o que o computador está pensando".

O problema? Muitos pesquisadores de negócios começaram a usar essas ferramentas de um jeito errado. Eles não usaram apenas para entender o computador, mas para tirar conclusões sobre a realidade do mundo real.

Este artigo é um alerta importante sobre esse erro. Aqui está a explicação, usando analogias simples:

1. O Erro: Confundir o Mapa com o Território

Imagine que você tem um GPS (o Modelo de IA) que diz qual é o caminho mais rápido para o trabalho. O GPS é muito preciso.

O que o Explicador faz: Ele mostra no mapa quais ruas o GPS mais usou para decidir o caminho.
O Erro Comum: Os pesquisadores olham para o GPS e dizem: "Ah, o GPS usou a Rua A, então a Rua A realmente é a melhor rua para todos, e é por isso que as pessoas moram nela."

O artigo diz: Isso é perigoso. O GPS pode ter escolhido a Rua A apenas porque o mapa dele estava um pouco diferente do mundo real, ou porque ele encontrou um atalho que só funcionava para ele. O fato de o GPS ter escolhido a Rua A não prova que a Rua A é a melhor para a realidade.

2. A Descoberta Principal: "Muitos Caminhos, Mesma Chegada"

O conceito central do artigo é o Efeito Rashomon.
Imagine que você pede para 10 pessoas diferentes irem do ponto A ao ponto B. Todas elas chegam no mesmo tempo (são todas "precisas").

A Pessoa 1 vai pela Rua A.
A Pessoa 2 vai pela Rua B.
A Pessoa 3 vai pela Rua C.

Elas chegaram ao mesmo lugar, mas usaram caminhos totalmente diferentes.
No mundo dos dados, isso significa que existem muitos modelos diferentes que preveem o futuro com a mesma precisão, mas que "acreditam" em coisas diferentes sobre o que é importante.

Se você usar o Explicador em apenas um desses modelos, ele vai te dizer: "A Rua A é a mais importante!". Mas se você olhar para o modelo vizinho, ele dirá: "Não, a Rua B é a mais importante!".
Conclusão: A precisão do modelo não garante que a explicação dele seja a verdade absoluta sobre o mundo.

3. O Que Acontece na Prática?

Os autores analisaram 181 estudos de negócios e descobriram que:

Cerca de 42% dos pesquisadores estão usando essas explicações para dizer coisas como: "O fator X causa o resultado Y" ou "O fator X é o mais importante para o sucesso".
Eles testaram isso com dados simulados (onde a resposta verdadeira era conhecida) e viram que, mesmo com modelos super precisos, as ferramentas de explicação muitas vezes mentem sobre a direção (se algo aumenta ou diminui o resultado) e a força (o quão importante algo é).

É como se você olhasse para um espelho distorcido e dissesse: "Olha, meu nariz está do lado esquerdo!", quando na verdade o espelho apenas refletiu mal a imagem.

4. Por Que Isso Acontece?

Dois vilões principais causam essa confusão:

Correlação entre Variáveis: Se duas coisas estão sempre juntas (ex: "ter guarda-chuva" e "estar chovendo"), o computador pode escolher uma ou outra aleatoriamente para fazer a previsão. O explicador vai apontar uma como a "culpada", mas pode ser apenas a outra.
O Efeito Rashomon (Muitas Verdades): Como vimos, existem muitos modelos "certos" que contam histórias diferentes. Se os modelos não concordam entre si, a explicação de um deles não é confiável.

5. A Solução: Como Usar Corretamente?

O artigo não diz para jogar as ferramentas fora. Pelo contrário! Elas são ótimas, mas precisamos mudar como as usamos.

Não use para provar verdades: Não use o SHAP ou LIME para dizer "Isso é um fato científico" ou para validar uma teoria final.
Use para gerar hipóteses (Investigação): Use essas ferramentas como um radar de ideias. Elas podem te dizer: "Ei, olhe para essa variável, ela parece interessante, vamos investigar mais a fundo com métodos mais rigorosos (como experimentos ou estatística clássica)".

A Analogia Final:
Pense no Explicador (SHAP/LIME) como um amigo que dá palpites.

Se você pergunta: "Qual é a melhor rua para ir ao trabalho?", o amigo pode dar um palpite baseado no que ele viu.
Se você usa o palpite dele para planejar a rota de emergência da cidade inteira, você está cometendo um erro grave.
Mas se você usa o palpite dele para descobrir novas ruas que você nunca considerou e depois vai até lá conferir pessoalmente, o amigo é muito útil!

Resumo para Levar para Casa

Precisão não é Verdade: Um modelo pode acertar a previsão, mas explicar errado o porquê.
Cuidado com a "Verdade Única": Se vários modelos precisos contam histórias diferentes, nenhuma delas é necessariamente a verdade absoluta.
Mude o Papel: Use essas ferramentas para descobrir novas perguntas e ideias, não para responder perguntas definitivas sobre como o mundo funciona.

O artigo é um aviso para que os pesquisadores de negócios parem de tratar esses explicadores como "provas de realidade" e passem a tratá-los como "ferramentas de exploração".

Each language version is independently generated for its own context, not a direct translation.

Título: Da Explicação do Modelo à Interpretação Errada dos Dados: Uma Análise de Cautela sobre Explicadores Post Hoc na Pesquisa de Negócios

1. O Problema

O crescimento do volume e da complexidade dos dados tornou o Aprendizado de Máquina (ML) essencial para tarefas preditivas em negócios. No entanto, modelos de alta precisão frequentemente operam como "caixas pretas". Para mitigar essa opacidade, pesquisadores utilizam ferramentas de explicação post hoc, como SHAP (Shapley Additive Explanations) e LIME (Local Interpretable Model-Agnostic Explanations).

O problema central identificado pelos autores é uma tendência crescente e problemática: pesquisadores estão tratando as explicações geradas por essas ferramentas (que descrevem a relação entre características e as previsões do modelo, $X \to \hat{Y}$ ) como evidência direta sobre as relações subjacentes nos dados (a relação entre características e o resultado real, $X \to Y$ ).

Essa prática, denominada "Pipeline de Explicação", é usada para validar hipóteses sobre causalidade ou importância de variáveis nos dados. Os autores questionam se é válido inferir a estrutura geradora de dados ( $X \to Y$ ) a partir da explicação de um modelo preditivo ( $X \to \hat{Y}$ ), especialmente quando há múltiplos modelos igualmente precisos que podem gerar explicações conflitantes.

2. Metodologia

Os autores adotaram uma abordagem mista, combinando revisão de literatura, simulação controlada e análise empírica:

Revisão Sistemática da Literatura:
- Analisaram 181 estudos publicados em revistas de negócios de alto impacto (UTD 24, FT50, INFORMS) e repositórios (Web of Science, SSRN).
- O objetivo foi quantificar a prevalência da interpretação de explicações post hoc como evidência de relações nos dados (inferência de nível de dados).
- Utilizaram anotação manual assistida por LLM para classificar os tipos de afirmações feitas (interpretação de direção e de força).
Definição de Métricas de Alinhamento:
- Introduziram duas métricas para avaliar a fidelidade das explicações em relação à verdade fundamental (ground truth):
  1. Alinhamento de Direção (Direction Alignment): Avalia se o sinal da mudança na explicação (ex: aumentar uma característica aumenta a previsão) corresponde ao sinal da mudança no resultado real ( $Y$ ).
  2. Alinhamento de Força (Strength Alignment): Avalia se a classificação de importância das características feita pelo explicador corresponde à classificação real de importância no processo gerador de dados.
Experimentos de Simulação:
- Geraram 81 conjuntos de dados sintéticos com "verdades fundamentais" conhecidas e controladas.
- Variaram sistematicamente quatro fatores: número de características, força de correlação entre características, presença de termos não lineares e presença de termos de interação.
- Treinaram modelos de ML (XGBoost, Random Forest, etc.) e aplicaram SHAP e LIME.
- Avaliaram o alinhamento das explicações em relação à verdade fundamental conhecida.
Análise do Efeito Rashomon:
- Investigaram o Efeito Rashomon (a existência de um conjunto de modelos com desempenho preditivo quase idêntico, mas representações internas e atribuições de características diferentes).
- Definiram Acordo de Rashomon (Rashomon Agreement) baseado em previsões e em explicações entre modelos equivalentes para diagnosticar a confiabilidade da explicação.

3. Contribuições Principais

Documentação do Uso Indevido: Evidenciaram que 42,5% dos estudos revisados interpretam explicações post hoc como evidência de relações nos dados, uma prática que viola a intenção original dessas ferramentas (explicar o modelo, não os dados).
Novas Métricas de Validação: Propuseram e operacionalizaram as métricas de "Alinhamento de Direção" e "Alinhamento de Força" para testar a validade de inferências baseadas em explicadores.
Identificação de Drivers de Falha: Demonstraram que a alta precisão preditiva é necessária, mas insuficiente para garantir que as explicações reflitam a verdade dos dados.
Diagnóstico Prático: Introduziram o conceito de Acordo de Rashomon como um sinal diagnóstico. A discordância entre explicações de modelos igualmente precisos indica alto risco de má interpretação dos dados.

4. Resultados Chave

Desempenho Médio vs. Confiabilidade: Embora as explicações pareçam precisas em média (alta precisão preditiva), elas exibem heterogeneidade substancial e caudas longas à esquerda na distribuição de alinhamento. Isso significa que, para muitos pares de conjunto de dados e modelo, as explicações falham em capturar a direção ou a força real dos efeitos, mesmo com modelos de alta precisão.
O Papel do Efeito Rashomon: Modelos com precisão quase idêntica podem gerar rankings de importância de características drasticamente diferentes. A existência de um grande "Conjunto de Rashomon" implica que nenhuma explicação única de um modelo pode ser considerada a verdade absoluta sobre os dados.
Fatores de Dados:
- A correlação entre características é o principal motor de desalinhamento. Quando variáveis são correlacionadas, modelos diferentes podem usar substitutos diferentes para obter a mesma precisão, levando a explicações conflitantes.
- Não-linearidades e interações também contribuem para a ambiguidade, embora a correlação seja o fator dominante.
Diagnóstico via Acordo:
- Existe uma forte correlação positiva entre o Acordo de Rashomon baseado em explicações e o Alinhamento com a verdade fundamental.
- Quando modelos igualmente precisos concordam nas suas explicações (especialmente no ranking de importância), a explicação é mais confiável.
- Quando há discordância nas explicações entre modelos precisos, o risco de má interpretação dos dados é alto.
- O acordo baseado apenas em previsões é menos informativo para detectar esse risco.

5. Significado e Implicações

Mudança de Paradigma na Pesquisa: O artigo alerta contra o uso de SHAP e LIME para validar hipóteses sobre dados. Em vez disso, essas ferramentas devem ser posicionadas como ferramentas exploratórias para gerar hipóteses.
Recomendação Prática:
- Pesquisadores não devem afirmar que "a característica X causa Y" apenas com base em valores SHAP/LIME.
- Antes de tirar conclusões substantivas, deve-se verificar a estabilidade das explicações através do Acordo de Rashomon (testar se múltiplos modelos precisos concordam).
- Hipóteses geradas por explicadores devem ser validadas posteriormente por métodos de inferência causal mais rigorosos (ex: variáveis instrumentais, ensaios controlados, regressão causal).
Limitação Fundamental: A ambiguidade na recuperação da estrutura $X \to Y$ não é um defeito do explicador, mas uma propriedade fundamental da modelagem empírica com dados finitos e ruidosos (Efeito Rashomon).

Em resumo, o paper conclui que a confiança cega em explicadores post hoc para inferir relações causais ou de importância nos dados é perigosa e frequentemente infundada. A precisão do modelo não garante a fidelidade da explicação aos dados reais.

From Model Explanation to Data Misinterpretation: A Cautionary Analysis of Post Hoc Explainers in Business Research

1. O Erro: Confundir o Mapa com o Território

2. A Descoberta Principal: "Muitos Caminhos, Mesma Chegada"

3. O Que Acontece na Prática?

4. Por Que Isso Acontece?

5. A Solução: Como Usar Corretamente?

Resumo para Levar para Casa

Título: Da Explicação do Modelo à Interpretação Errada dos Dados: Uma Análise de Cautela sobre Explicadores Post Hoc na Pesquisa de Negócios

1. O Problema

2. Metodologia

3. Contribuições Principais

4. Resultados Chave

5. Significado e Implicações

Mais como este

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers