Explainability of Text Processing and Retrieval Methods: A Survey

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um super-herói digital chamado "Modelo de IA". Ele é incrivelmente inteligente: consegue ler milhões de livros, entender o que você procura na internet e até escrever respostas para perguntas complexas. O problema é que esse super-herói é um misterioso. Ele toma decisões incríveis, mas ninguém sabe exatamente como ou por que ele chegou a elas. É como se ele dissesse: "Eu sei que esta resposta é a correta, confie em mim", mas não mostrasse o raciocínio.

Este artigo é um guia de sobrevivência para entender como estamos tentando desvendar os segredos desse super-herói. Os autores, Sourav Saha, Debapriyo Majumdar e Mandar Mitra, reuniram todas as pesquisas recentes para nos ensinar a fazer perguntas como: "Por que você escolheu este resultado?" e "O que você está pensando?".

Aqui está a explicação, dividida em partes simples:

1. O Problema: A Caixa Preta

Antigamente, os sistemas de busca funcionavam como uma receita de bolo bem escrita. Se você queria encontrar algo, o sistema olhava para palavras-chave específicas (como "receita" e "bolo") e dava uma pontuação baseada em regras claras que qualquer humano podia entender.

Hoje, com a Inteligência Artificial moderna (Deep Learning), o sistema virou uma caixa preta. Ele transforma o texto em números complexos (vetores densos) que ninguém consegue visualizar. É como se o super-herói estivesse pensando em uma língua alienígena. Ele é muito mais eficiente, mas se ele errar, não sabemos por quê. E isso é perigoso! Se um sistema médico ou jurídico errar, precisamos saber o motivo.

2. A Solução: O Detetive de IA

O artigo é um "mapa do tesouro" de todas as técnicas que os cientistas criaram para abrir essa caixa preta. Eles chamam isso de Explicabilidade e Interpretabilidade.

Pense nas técnicas como diferentes tipos de detetives:

O Detetive "Faça de Conta" (Modelos Surrogatos): Imagine que você não consegue entender a mente do super-herói. Então, você cria um "robôzinho" simples e transparente (como um modelo antigo de busca) que tenta imitar o comportamento do super-herói em situações específicas. Se o robôzinho simples consegue prever o que o super-herói vai fazer, você usa o raciocínio do robôzinho para explicar o super-herói.
- Analogia: É como tentar adivinhar o que um gênio vai fazer observando o que uma criança faria na mesma situação. Se a criança faz a mesma coisa, você usa a lógica da criança para explicar o gênio.
O Detetive "Quem é o Culpado?" (Atribuição de Características): Aqui, o detetive olha para a frase e pergunta: "Qual palavra foi a mais importante para essa decisão?". Ele apaga uma palavra de cada vez e vê se a resposta muda.
- Analogia: É como um jogo de "Quem matou?". Se você remove a palavra "não" da frase "Não é um bom filme", e a resposta muda de "ruim" para "bom", então a palavra "não" foi a culpada (ou o herói) da decisão.
O Detetive "E Se...?" (Explicações Contrastivas): Em vez de perguntar "por que isso?", ele pergunta "o que teria que mudar para que o resultado fosse diferente?".
- Analogia: Se o sistema rejeitou seu empréstimo, ele explica: "Se você tivesse R$ 500 a mais no salário, eu teria aprovado". Isso mostra exatamente qual foi o fator decisivo.

3. Onde isso é usado?

O artigo foca em duas áreas principais:

Ranking de Documentos (O Google da IA): Quando você pesquisa algo, o sistema decide qual site aparece primeiro. O artigo explica como entender por que o sistema colocou o site A antes do site B. Será que foi por causa de uma palavra específica? Ou porque o site A é mais antigo?
RAG (Geração Aumentada por Recuperação): Imagine um chatbot que lê documentos para responder perguntas. O RAG é como um estudante que tem o livro aberto na mesa. O problema é: o estudante está realmente lendo o livro ou apenas chutando baseado no que ele já sabe de cabeça?
- O artigo discute como verificar se a resposta do chatbot é fiel ao documento lido (não inventar fatos) e como saber exatamente qual parte do texto ele usou para construir a resposta.

4. O Grande Desafio: Como medir se a explicação é boa?

A parte mais difícil é: Como sabemos se a explicação é verdadeira?
Se o super-herói diz "Eu escolhi o site A porque a palavra 'barato' estava lá", e nós aceitamos isso, mas na verdade ele escolheu porque o site A tinha uma cor azul, a explicação foi falsa.

Os autores apontam que ainda não temos um "teste de verdade" perfeito. Existem métricas (como medir se a explicação se parece com a decisão original), mas ainda é um campo em construção. É como tentar calibrar um termômetro sem ter um termômetro de referência confiável.

5. O Futuro: O que falta?

O artigo termina com um chamado para a ação. Os cientistas precisam:

Criar testes padronizados para ver qual método de explicação é o melhor.
Entender melhor como os modelos gigantes (LLMs) funcionam internamente.
Garantir que, em áreas sensíveis como medicina e direito, a IA não seja apenas "mágica", mas transparente e confiável.

Resumo em uma frase

Este artigo é um manual para transformar a mágica da Inteligência Artificial em uma conversa clara, ajudando humanos a entenderem, confiarem e corrigirem os sistemas que estão cada vez mais tomando decisões importantes sobre nossas vidas.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O artigo aborda o desafio crítico da explicabilidade e interpretabilidade em modelos de processamento de texto e recuperação de informação (RI) baseados em Deep Learning (DL) e Aprendizado de Máquina (ML).

Contexto: Historicamente, os sistemas de RI (como BM25) eram "intrinsecamente explicáveis" por utilizarem vetores de características esparsas e compreensíveis (frequência de termos, comprimento do documento).
O Desafio Atual: A revolução dos Modelos de Linguagem Grandes (LLMs), Redes Neurais de Recuperação (NRMs) e Sistemas de Geração Aumentada por Recuperação (RAG) substituiu características interpretáveis por vetores densos em espaços de alta dimensão ( $R^n$ ) e arquiteturas complexas com bilhões de parâmetros.
A Lacuna: Embora esses modelos ofereçam desempenho superior, sua natureza de "caixa preta" impede que humanos entendam por que um documento foi classificado acima de outro ou por que uma resposta gerada foi produzida. Isso gera desconfiança, dificulta a depuração e impede a conformidade com regulamentações éticas e legais.
Objetivo da Pesquisa: Fornecer uma visão abrangente e organizada dos esforços de pesquisa recentes na explicabilidade de RI e NLP, focando especificamente em modelos neurais de classificação de documentos e sistemas RAG, complementando pesquisas anteriores que cobriam apenas NLP geral ou métodos post-hoc específicos.

2. Metodologia e Escopo

Os autores realizaram uma pesquisa sistemática em conferências e periódicos de alto impacto (SIGIR, CIKM, ACL, NeurIPS, etc.) cobrindo o período de 2004 a 2025.

Definições: Adotam uma definição ampla de "explicabilidade" e "interpretabilidade" como a capacidade de apresentar o funcionamento interno ou os resultados de um modelo em termos compreensíveis para humanos.
Taxonomia de Classificação: O artigo organiza os métodos de explicação baseando-se em quatro critérios principais:
1. Modelo-agnóstico vs. Modelo-consciente: Se o método requer conhecimento da arquitetura interna do modelo.
2. Explicabilidade Inerente vs. Post-hoc: Se o modelo é projetado para ser transparente ou se a explicação é gerada após o treinamento.
3. Escopo Global vs. Local: Se a explicação descreve o comportamento geral do modelo ou a decisão para uma instância específica.
4. Forma da Explicação: Surrogados explicáveis, atribuição de características (feature attribution), razões (rationales) e explicações contrastivas.

3. Contribuições Principais e Estrutura do Artigo

O artigo é estruturado para cobrir desde métodos tradicionais até as fronteiras mais recentes com LLMs e RAG.

A. Fundamentos e Métodos Básicos (Seções 3-5)

Métodos Post-hoc: Revisão de técnicas padrão como LIME (modelos substitutos locais), SHAP (valores de Shapley para atribuição de características) e Probing (classificadores simples para detectar propriedades linguísticas em camadas intermediárias de redes neurais).
Avaliação: Discute a falta de um protocolo de avaliação padronizado para RI explicável (ExIR). Apresenta métricas como Fidelidade (quão bem a explicação imita o modelo), Suficiência e Compreensibilidade, além de estudos de usuários.

B. Classificação de Documentos (Document Ranking) (Seção 6)

Esta é a seção central, dividida em abordagens globais e locais:

Explicações Globais:
- Framework Axiomático: Uso de axiomas de RI (ex: TFC1 - favorecer documentos com mais ocorrências de termos de consulta) para diagnosticar e explicar NRMs. Estudos mostram que modelos neurais muitas vezes violam axiomas tradicionais, explicando falhas em conjuntos de dados específicos.
- Modelos Aditivos: Uso de Modelos Aditivos Generalizados (GAMs) e árvores de decisão para aproximar modelos neurais complexos.
- Probing em NRMs: Análise de quais camadas de BERT/LLMs capturam sintaxe vs. semântica e como modelos como ColBERT utilizam correspondências exatas vs. semânticas.
Explicações Locais:
- Atribuição de Características: Adaptação de LIME e SHAP para ranking (ex: LIRME, EXS) para identificar quais termos contribuem para a pontuação de um documento.
- Rationales (Justificativas): Extração de sub-sequências de texto (spans) que justificam a relevância. Discussão sobre a dificuldade de alinhar rationales automáticos com a intuição humana.
- Explicações Listwise: Métodos que explicam a lista inteira de resultados (ex: expansão de consulta para simular o ranking neural) e abordagens baseadas em SHAP para ranking (RankSHAP).

C. Sistemas Conversacionais e RAG (Seção 7)

Com o advento dos LLMs, a explicabilidade migrou para sistemas de Geração Aumentada por Recuperação (RAG):

Fidelidade e Atribuição: Como garantir que a resposta gerada pelo LLM seja baseada nos documentos recuperados e não em alucinações ou memória paramétrica.
Conflitos de Conhecimento: Análise de situações onde a memória interna do LLM contradiz os documentos recuperados (conflitos de contexto vs. memória).
Métodos: Revisão de frameworks como RAGAs e ARES para avaliação automática de fidelidade, e técnicas de atribuição (ex: MIRAGE) que identificam tokens específicos no contexto que influenciaram a geração.

D. Apêndices (NLP e Arquiteturas Específicas)

O artigo inclui apêndices detalhados sobre a explicabilidade de componentes fundamentais do NLP, muitas vezes ignorados em pesquisas de RI focadas apenas no ranking:

Embeddings: Transformação de espaços vetoriais para dimensões interpretáveis (ex: POLAR, Densifier).
Modelos de Sequência: Decomposição contextual em LSTMs para entender interações de palavras.
Atenção: O debate intenso sobre se os pesos de atenção são explicáveis (estudos mostram que alta atenção não garante alta influência na previsão).
Transformers/BERT: Análise de camadas, cabeças de atenção e fluxo de informação (skip connections vs. atenção).

4. Resultados e Descobertas Chave

Viés de Avaliação: Não existe um "padrão ouro" para avaliar explicações em RI. Métricas de fidelidade (correlação de rank) são comuns, mas não garantem que a explicação seja útil para um usuário final.
Desempenho vs. Explicabilidade: Modelos neurais (especialmente BERT e LLMs) superam modelos tradicionais em eficácia, mas falham em satisfazer axiomas clássicos de RI, tornando sua lógica de decisão menos intuitiva.
Limitações de Atribuição: Técnicas como LIME e SHAP podem ser instáveis em tarefas de ranking; pequenas perturbações no texto podem alterar drasticamente a explicação.
Atenção não é Explicação: Estudos robustos (Seção D) demonstram que os pesos de atenção em Transformers não são necessariamente explicativos (não são "fiéis" à decisão do modelo), embora sejam plausíveis para humanos.
RAG e Alucinação: Em sistemas RAG, a atribuição de citação não garante fidelidade; um modelo pode citar um documento relevante mesmo tendo gerado a resposta com base em sua memória interna ("certo pelas razões erradas").
Conflito de Conhecimento: LLMs tendem a priorizar sua memória paramétrica sobre documentos recuperados quando há conflito, exigindo mecanismos de desacoplamento.

5. Significado e Direções Futuras

O artigo conclui que a área de Explicabilidade em RI (ExIR) está em um estágio crítico de maturação.

Necessidade de Padrões: A comunidade precisa urgentemente de protocolos de avaliação padronizados e conjuntos de testes (benchmarks) específicos para ExIR, similares aos existentes para eficácia de recuperação.
Foco em RAG: Com a adoção massiva de LLMs, a explicabilidade deve evoluir de "por que este documento foi classificado?" para "por que esta resposta foi gerada e qual a evidência que a suporta?".
Domínios Específicos: Há uma lacuna na explicabilidade para domínios críticos como saúde e direito, onde a interpretabilidade é mandatória.
Integração de Métricas: Futuras pesquisas devem integrar a análise de métricas de avaliação de RI (como NDCG) com a interpretabilidade, investigando como restrições explicativas afetam o desempenho.

Em suma, o artigo serve como um mapa abrangente e técnico para pesquisadores e praticantes que desejam navegar no complexo campo de tornar os sistemas modernos de processamento de texto e recuperação de informação transparentes e confiáveis.