Explainable AI: Context-Aware Layer-Wise Integrated Gradients for Explaining Transformer Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio superinteligente (o modelo de IA) que consegue ler milhares de livros, entender sentimentos em comentários de filmes e até identificar gatos em fotos. Esse gênio é incrível, mas é como se ele fosse um caixa-preta: você pede uma resposta, ele dá, mas ninguém sabe exatamente como ele chegou àquela conclusão.

Até agora, as ferramentas que tentavam "abrir" essa caixa preta tinham dois grandes problemas:

Elas olhavam apenas para a resposta final, ignorando todo o processo de pensamento que aconteceu antes.
Elas não entendiam que as palavras (ou pixels) funcionam em equipes. Uma palavra sozinha pode não significar nada, mas junto com outra, muda tudo.

Os autores deste artigo criaram uma nova ferramenta chamada CA-LIG. Vamos explicar como ela funciona usando uma analogia simples: a investigação de um detetive em uma fábrica de ideias.

1. O Problema: O Detetive que só olha a porta de saída

Antes do CA-LIG, os "detetives" (métodos de explicação) faziam o seguinte:

Eles olhavam apenas para o produto final na esteira de saída da fábrica.
Diziam: "Ah, o modelo escolheu 'Positivo' porque a palavra 'incrível' estava lá".
O erro: Eles ignoravam como a palavra "não" no início da frase poderia ter mudado tudo, ou como a palavra "filme" no meio ajudou a conectar as ideias. Eles perdiam o contexto e a evolução do pensamento.

2. A Solução: O Detetive que vigia cada estação da fábrica (CA-LIG)

O CA-LIG é como um detetive que tem um passaporte especial para entrar em cada estação de trabalho dentro da fábrica do modelo de IA.

A fábrica do modelo (chamada de Transformer) tem várias camadas (estações):

Camadas Iniciais: Onde as palavras são apenas "pedaços de madeira" (análise gramatical simples).
Camadas Médias: Onde as palavras começam a se juntar para formar frases e ideias (análise de contexto).
Camadas Finais: Onde a decisão é tomada (a conclusão).

O CA-LIG faz duas coisas inteligentes:

A. O Rastro de Pó (Integração de Gradientes)

Imagine que cada palavra deixa um rastro de pó brilhante conforme ela passa pelas estações. O CA-LIG mede o quanto esse "pó" (importância) aumenta ou diminui em cada etapa.

Se a palavra "amazing" (incrível) ganha muito brilho na camada final, o detetive sabe que ela foi crucial.
Mas ele também vê se a palavra "not" (não) apagou o brilho de "amazing" na camada intermediária.
Diferença: Outros métodos só olham o brilho final. O CA-LIG vê a história completa do brilho.

B. O Mapa de Conexões (Gradientes de Atenção)

Dentro da fábrica, os trabalhadores (palavras) conversam entre si. Às vezes, a palavra "bible" (bíblia) olha para a palavra "God" (Deus) e diz: "Ei, nós estamos juntos!".

O CA-LIG não apenas olha quem brilha, mas quem está conversando com quem.
Ele cria um mapa que mostra: "A palavra X ajudou a palavra Y a se tornar importante". Isso é a consciência de contexto.

3. O Resultado: Um Mapa de "Provas" e "Contra-Provas"

Ao final da investigação, o CA-LIG entrega um mapa colorido para o humano:

Verde Brilhante: Provas que apoiam a decisão (ex: "amazing", "love").
Vermelho: Provas que tentaram derrubar a decisão (ex: "worst", "boring").
Branco: Palavras neutras que só serviram de estrutura (ex: "the", "is").

O mais legal é que esse mapa mostra como a decisão evoluiu. Ele pode dizer: "No início, a palavra 'movie' era neutra. Na metade, ela ajudou a conectar 'bad' com 'acting'. No final, essa conexão foi o que fez o modelo dizer 'Negativo'".

4. Por que isso é importante? (A Analogia do Jogo de Tabuleiro)

Imagine que você está jogando xadrez contra um computador.

Métodos Antigos: O computador diz: "Venci porque fiz xeque-mate". (Útil, mas não ensina nada).
Método CA-LIG: O computador diz: "Venci porque, 3 jogadas atrás, você moveu o cavalo para a esquerda (camada média), o que abriu uma linha para meu bispo (camada profunda), permitindo que eu atacasse seu rei agora".

Isso torna a IA confiável. Se o modelo está explicando como pensou, podemos confiar mais nele, especialmente em áreas sensíveis como detectar discurso de ódio ou diagnosticar doenças.

Resumo em uma frase

O CA-LIG é como dar um filme em câmera lenta do pensamento da IA, em vez de apenas mostrar uma foto estática do resultado final, permitindo que entendamos não apenas o que a IA decidiu, mas como e por que ela chegou lá, passo a passo, considerando todas as conexões entre as palavras.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

Os modelos baseados em Transformers (como BERT, GPT, T5) alcançaram desempenho de ponta em diversas tarefas de Processamento de Linguagem Natural (NLP) e Visão Computacional. No entanto, sua natureza profundamente hierárquica e não linear torna suas previsões difíceis de interpretar ("caixas-pretas").

O artigo identifica três limitações fundamentais nas técnicas atuais de Inteligência Artificial Explicável (XAI) para Transformers:

Viés da Última Camada: A maioria dos métodos gera explicações apenas na camada final de saída, ignorando como a relevância semântica e contextual evolui através das camadas intermediárias do modelo.
Falta de Unificação Local-Global: Os métodos existentes tendem a capturar apenas a saliência local (nível de token, como em Integrated Gradients) ou interações estruturais globais (padrões de atenção), sem integrar ambas as perspectivas em uma única representação coerente.
Baixa Consciência Contextual: As técnicas atuais frequentemente falham em considerar dependências entre tokens, conexões residuais, transformações de redes feedforward e o fluxo de informação entre camadas, elementos centrais da arquitetura Transformer.

2. Metodologia: O Framework CA-LIG

Para superar essas limitações, os autores propõem o Framework de Gradientes Integrados em Nível de Camada Consciente de Contexto (CA-LIG). Este é um framework unificado e hierárquico que opera em quatro etapas principais:

A. Gradientes Integrados em Nível de Camada (Layer-wise Integrated Gradients - LIG)

Diferente do Integrated Gradients (IG) tradicional, que calcula atribuições apenas na saída final, o CA-LIG calcula IG em cada bloco Transformer (camada).

Para cada camada $l$ , o modelo traça uma trajetória interpolada entre uma representação de base (baseline) e a representação real do input.
Calcula-se o gradiente da pontuação da classe alvo em relação aos estados ocultos interpolados.
Isso gera mapas de atribuição por camada, capturando como a relevância de cada token evolui à medida que a representação passa pela hierarquia do modelo.

B. Gradientes de Atenção Específicos de Classe

O framework calcula os gradientes da pontuação da classe alvo em relação à matriz de atenção de cada bloco.

Isso quantifica a sensibilidade da previsão em relação às conexões de atenção entre tokens específicos.
Permite identificar quais interações token-token (dependências estruturais) são cruciais para o raciocínio do modelo, indo além da simples visualização dos pesos de atenção.

C. Fusão Consciente de Contexto

Os sinais de relevância local (LIG) e os sinais de sensibilidade estrutural (gradientes de atenção) são fundidos.

Utiliza-se uma normalização Simétrica Min-Max para os scores de relevância dos tokens.
Uma fusão elementar ponderada combina os gradientes de atenção com a relevância dos tokens, criando um mapa de relevância contextual que preserva a fidelidade das contribuições individuais dos tokens enquanto incorpora dependências globais.

D. Agregação e Propagação de Relevância

Para obter um mapa de atribuição unificado, o framework utiliza um coeficiente ajustável ( $\lambda$ ) para balancear a influência dos gradientes de atenção e da relevância dos tokens.

As matrizes de relevância ponderada são agregadas através das camadas (rollout), permitindo rastrear o fluxo cumulativo de informação do input até as camadas profundas.
O resultado final é um mapa de atribuição assinado (positivo para evidência de suporte, negativo para evidência oposta) que reflete tanto a importância local quanto as dependências estruturais.

3. Principais Contribuições

Framework Unificado e Hierárquico: Propõe a primeira abordagem que calcula e integra atribuições em cada bloco Transformer, permitindo a interpretabilidade camada a camada, não apenas na saída final.
Mecanismo de Fusão Gradiente-Atenção: Desenvolveu um mecanismo que funde gradientes em nível de camada com estruturas de gradientes de atenção, conectando a relevância local de tokens com padrões de interação global.
Consciência Contextual e Preservação de Relevância: Enforce a normalização e a conservação de relevância através de caminhos de atenção multi-cabeça, melhorando a interpretabilidade e a fidelidade.
Validação Multidomínio: Demonstrou a generalidade do framework em tarefas de NLP (análise de sentimentos, detecção de discurso de ódio em línguas de baixos recursos, classificação de documentos longos) e Visão Computacional (classificação de imagens com Vision Transformers).

4. Resultados e Avaliação

Os autores avaliaram o CA-LIG em diversos modelos (BERT, XLM-R, AfroLM, MAE) e conjuntos de dados (IMDB, 20 Newsgroups, Hate Speech em Amárico, CIFAR-10, ASIRRA).

Avaliação Qualitativa:
- O CA-LIG produziu visualizações mais claras e semanticamente coerentes do que métodos baselines (como Attention Rollout, LRP, IG padrão).
- Em tarefas de texto, conseguiu capturar dependências de longo alcance e pares de conceitos que co-ocorrem em diferentes cláusulas (ex: "evidência" $\to$ "bíblia"), algo que métodos baseados apenas em atenção ou gradientes finais perdem.
- Em tarefas de visão, focou em regiões semanticamente relevantes (ex: olhos, focinho de um gato) em vez de ruído de fundo ou pixels dispersos.
- Evitou a dominância de tokens especiais (como o token [CLS]), distribuindo a relevância de forma mais intuitiva.
Avaliação Quantitativa:
- Token-F1: No benchmark ERASER (Movie Reviews), o CA-LIG superou consistentemente os métodos baselines na sobreposição entre os tokens explicados e as justificativas humanas (rationales).
- AUC de Perturbação (Visão): Em tarefas de visão, o CA-LIG mostrou maior fidelidade, com curvas de inserção/deleção de patches indicando que a remoção das regiões destacadas pelo modelo causava uma queda mais rápida na confiança da previsão, provando que as explicações são fiéis ao mecanismo de decisão.
Análise de Sensibilidade por Camada:
- O estudo de caso mostrou que o CA-LIG alinha-se com a progressão hierárquica conhecida dos Transformers: camadas iniciais capturam sintaxe, camadas médias capturam semântica contextual e camadas profundas consolidam a decisão. O framework consegue rastrear essa evolução, algo que métodos de camada única não fazem.

5. Significado e Conclusão

O trabalho representa um avanço significativo na interpretabilidade de modelos profundos. Ao demonstrar que a explicação de um Transformer não deve ser limitada à camada final, mas sim rastrear a evolução da relevância através da hierarquia, o CA-LIG oferece:

Maior Fidelidade: As explicações refletem melhor o processo interno de raciocínio do modelo.
Coerência Estrutural: Integra dependências locais e globais, fornecendo uma visão holística.
Generalidade: Funciona eficazmente tanto em NLP quanto em Visão Computacional e em cenários de baixos recursos.

O código será disponibilizado publicamente, permitindo que a comunidade científica adote e expanda essa abordagem para construir modelos de IA mais transparentes, confiáveis e alinhados com o raciocínio humano.