GIFT: A Framework Towards Global Interpretable Faithful Textual Explanations of Vision Classifiers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um "caixa-preta" muito inteligente: um computador que olha para fotos e decide coisas, como "essa pessoa parece velha" ou "esse carro pode virar à direita". O problema é que ninguém sabe exatamente como ele chegou a essa conclusão. Ele pode estar olhando para o rosto, mas também pode estar olhando para o fundo da foto ou para um detalhe estranho que nem percebemos.

O artigo que você apresentou, chamado GIFT, é como um detetive que entra nessa caixa-preta para descobrir a verdade de forma clara, honesta e em linguagem humana.

Aqui está a explicação do GIFT usando uma analogia simples:

O Problema: O Detetive Cego

Antes do GIFT, os métodos de explicação eram como tentar adivinhar o que o computador pensou olhando apenas para manchas de cor na foto (mapas de calor) ou pedindo para ele imitar um professor simplório. O problema é que essas explicações muitas vezes mentem ou são confusas. Elas dizem "o computador olhou aqui", mas não explicam por que aquilo importa.

A Solução: O GIFT (O Detetive Inteligente)

O GIFT é um framework (um conjunto de ferramentas) que funciona em 4 etapas, como se fosse um processo de investigação criminal:

1. A Cena do Crime (Geração de Contrafactuais)

Imagine que você tem uma foto onde o computador diz "Isso é um carro vermelho". O GIFT cria uma "versão alternativa" dessa foto (um contrafactual).

A Analogia: É como se você pegasse uma foto de um carro vermelho e dissesse ao computador: "E se eu pintar esse carro de azul? O que você acha agora?".
O computador muda sua resposta para "Não é um carro vermelho".
O GIFT faz isso centenas de vezes, mudando coisas pequenas (cor, objeto, posição) para ver o que faz o computador mudar de ideia. Isso garante que a explicação seja fiel à realidade do computador, não uma invenção.

2. O Tradutor (Legenda de Mudanças)

Agora, o GIFT tem centenas de fotos alteradas, mas isso é difícil para humanos entenderem.

A Analogia: O GIFT usa um "tradutor" (uma Inteligência Artificial visual) para olhar a foto original e a foto alterada e escrever uma frase simples: "O carro ficou azul" ou "O objeto de metal sumiu".
Em vez de mostrar pixels, ele gera texto. Isso torna a explicação interpretável para qualquer pessoa.

3. O Detetive Sênior (Agregação Global)

O GIFT tem milhares dessas frases soltas: "o carro ficou azul", "o céu ficou cinza", "o objeto sumiu". Sozinhas, elas não dizem nada.

A Analogia: O GIFT entrega todas essas anotações para um "Detetive Sênior" (um modelo de linguagem grande, como o ChatGPT). O Detetive Sênior lê tudo e diz: "Espera aí! Percebi um padrão. Sempre que o computador muda de ideia, é porque falta um objeto vermelho".
Ele transforma milhares de pistas locais em uma regra global clara: "Este computador decide 'sim' se houver um objeto vermelho".

4. O Teste de Fogo (Verificação Causal)

Aqui está a parte mais genial. O Detetive Sênior pode estar errado ou alucinar. O GIFT não confia cegamente nele.

A Analogia: O GIFT diz: "Ok, você acha que a regra é 'objetos vermelhos'. Vamos testar!". Ele pega uma foto nova, edita a foto (adiciona ou remove um objeto vermelho) e pergunta ao computador: "Agora, o que você acha?".
Se o computador mudar de ideia exatamente como o GIFT previu, a explicação é verificada e verdadeira. Se não mudar, o GIFT descarta essa regra e tenta outra. Isso garante que a explicação não seja apenas uma coincidência, mas uma causa real.

Por que isso é importante? (Os Exemplos do Papel)

O papel mostra o GIFT em ação em três situações:

Jogo de Blocos (CLEVR): O computador foi treinado para achar "objetos de metal vermelhos". O GIFT descobriu a regra perfeita, mesmo que o computador fosse muito complexo.
Rostos (CelebA): O computador achava que uma pessoa era "velha". O GIFT descobriu que ele estava olhando para "óculos" e "ruguras na testa", mas também percebeu que, às vezes, ele estava sendo enganado por "fundo detalhado" (um viés estranho).
Dirigir Carros (BDD): Este é o caso mais impressionante. O computador foi treinado para decidir se um carro pode virar à direita. O GIFT descobriu um viés perigoso: o computador achava que, se houvesse carros na faixa da esquerda, ele não podia virar à direita. Isso era um erro de treinamento (o computador estava "preguiçoso" e usando uma pista fácil em vez de analisar a estrada). O GIFT expôs esse erro que humanos não tinham percebido.

Resumo em uma frase

O GIFT é como um tradutor que pega as decisões confusas de uma IA, cria cenários de "e se...", escreve a história em português claro e, o mais importante, faz o teste prático para garantir que a história é verdadeira e não apenas uma suposição.

Isso nos ajuda a confiar mais nas IAs, especialmente em áreas críticas como carros autônomos e medicina, onde saber o "porquê" é tão importante quanto saber o "o quê".

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

A interpretabilidade de modelos de visão computacional (deep vision) é crucial para sua implantação segura em aplicações de alto risco, como direção autônoma e diagnóstico médico. No entanto, as abordagens existentes de explicação apresentam limitações significativas:

Mapas de Saliência e Atribuição de Recursos: Oferecem explicações locais (por instância), muitas vezes pouco fiéis (não refletem o raciocínio real do modelo) e com semântica ambígua (difíceis de interpretar para humanos).
Métodos Baseados em Conceitos: Frequentemente exigem conceitos pré-definidos manualmente ou são específicos de arquitetura, limitando sua aplicabilidade geral.
Explicações Contrafactuais: Embora fiéis e causais, são inerentemente locais (focam em uma única imagem) e difíceis de interpretar visualmente. Além disso, uma única modificação contrafactual pode ter múltiplas causas plausíveis, gerando ambiguidade.

O desafio central é desenvolver um método que gere explicações Globais (regras de decisão do modelo, não apenas de uma imagem), Interpretáveis (em linguagem natural), Fiéis (causalmente vinculadas ao modelo) e Textuais.

2. Metodologia: O Framework GIFT

O GIFT (Global Interpretable Faithful Textual) é um framework post-hoc (após o treinamento) que opera em quatro estágios sequenciais para transformar explicações locais e visuais em regras globais textuais e verificadas causalmente.

Estágio 1: Geração de Explicações Visuais Locais Fiéis

O sistema gera pares de imagens contrafactuais para um conjunto de dados de entrada.
Utiliza um gerador de contrafactuais (CEX) que modifica minimamente a imagem de entrada ( $x$ ) para criar uma imagem ( $x'$ ) que altera a classificação do modelo ( $M(x) \neq M(x')$ ).
Objetivo: Garantir fidelidade. Como a mudança na saída é forçada pela alteração visual, a relação é causal e direta, evitando aproximações de modelos substitutos (surrogates).

Estágio 2: Tradução para Linguagem Natural (Change Captioning)

Um Modelo de Visão e Linguagem (VLM) analisa o par de imagens ( $x, x'$ ) e gera uma legenda de mudança (change caption).
Função: Traduzir as diferenças visuais (ex: "um objeto vermelho foi removido") em descrições textuais simples. Isso aumenta a acessibilidade humana, mas introduz ruído potencial e ambiguidade, pois as legendas são locais.

Estágio 3: Agregação e Dedução de Explicações Globais

Um Grande Modelo de Linguagem (LLM) recebe o conjunto de todas as legendas de mudança e as decisões do modelo associadas.
Função: O LLM analisa padrões recorrentes, desambigua evidências locais conflitantes e sintetiza hipóteses globais sobre as regras de decisão do modelo (ex: "A classe 1 é ativada pela presença de objetos vermelhos").
Inovação: Transforma sinais locais e ruidosos em hipóteses globais coerentes sem depender de conceitos pré-definidos pelo usuário.

Estágio 4: Verificação Causal das Hipóteses

Este é o estágio crítico para garantir a fidelidade. As hipóteses geradas no Estágio 3 são testadas causalmente.
Filtro Grosso: Usa um modelo VQA (Visual Question Answering) para calcular a Informação Direcionada (DI), medindo a correlação entre o conceito e a classe.
Filtro Fino (Intervenção): Utiliza um modelo de edição de imagem guiado por texto para intervir nas imagens de um conjunto de validação:
- Adiciona ou remove o conceito proposto (ex: adicionar "óculos").
- Observa se a decisão do modelo muda.
Métricas Causais:
- CaCE (Causal Concept Effect): Mede a mudança esperada na probabilidade da classe ao adicionar/remover o conceito.
- PNS (Probabilidade de Causa Necessária e Suficiente): Estima a probabilidade de o conceito ser tanto necessário quanto suficiente para a decisão.
Resultado: Apenas explicações que passam por essa verificação causal são mantidas, garantindo que a regra textual reflete o verdadeiro comportamento do modelo.

3. Contribuições Principais

Primeiro Framework Global e Textual: Introduz o primeiro método para obter explicações globais, textuais e baseadas em contrafactuais para classificadores de visão, com suporte de quantificação causal.
Sinergia de Técnicas: Combina a geração de sinais causais locais (contrafactuais) com o raciocínio de LLMs para extrair insights globais, resolvendo o problema da localidade das explicações contrafactuais.
Verificação Causal Rigorosa: Propõe um pipeline de verificação que utiliza intervenções em imagens e métricas causais (CaCE e PNS) para validar a fidelidade das explicações textuais, superando métodos puramente correlacionais.
Descoberta de Vieses Inesperados: Demonstra a capacidade de revelar vieses ocultos e conceitos latentes que humanos ou métodos tradicionais não conseguem identificar.

4. Resultados Experimentais

O GIFT foi validado em três cenários de complexidade crescente:

CLEVR (Ambiente Sintético Controlado):
- O framework conseguiu descobrir as regras de classificação ocultas (ex: "objeto ciano metálico") em 11 de 12 casos, superando a complexidade composicional dos dados.
- A verificação causal (Estágio 4) foi essencial para distinguir regras verdadeiras de overspecificações (ex: diferenciar "objeto vermelho" de "objeto vermelho metálico").
CelebA (Rostos Humanos - Realidade):
- Identificou atributos finos relacionados à classificação de "Idoso" vs. "Jovem" (ex: rugas, cabelo grisalho).
- Descobriu que atributos individuais tinham baixo impacto causal isolado, mas combinações (ex: "Óculos + Rugas na testa") tinham alto PNS, revelando como o modelo usa conjuntos de características.
- Detectou um viés de treinamento: a presença de "óculos" correlacionava-se fortemente com a classe "Idoso" nos dados, um viés que o modelo aprendeu erroneamente.
BDD-OIA (Cenas de Direção - Viés Intencional):
- O objetivo era detectar um viés injetado no modelo: associar a presença de veículos na faixa esquerda à impossibilidade de virar à direita.
- Resultado Chave: O GIFT identificou corretamente o viés ("tráfego denso na faixa esquerda").
- Comparação: Métodos baseados apenas em hipóteses de LLM (sem contrafactuais) ou inspeção humana falharam em detectar esse viés não intuitivo. O GIFT provou ser superior na descoberta de falhas sistêmicas.

5. Significância e Impacto

O trabalho GIFT representa um avanço significativo na área de IA explicável (XAI) ao:

Ponte entre Local e Global: Resolve a dicotomia entre explicações locais fiéis (contrafactuais) e explicações globais compreensíveis (textuais).
Foco em Causalidade: Move-se além da correlação, exigindo que as explicações sejam validadas por intervenções reais no espaço de dados, garantindo que o modelo realmente use aquele conceito para decidir.
Segurança e Confiabilidade: Oferece uma ferramenta prática para engenheiros e auditores detectarem vieses perigosos e falhas de generalização em modelos de visão antes da implantação em sistemas críticos.
Flexibilidade: O framework é agnóstico ao modelo, podendo ser instanciado com diferentes geradores de contrafactuais, VLMs e editores de imagem, adaptando-se a diversos domínios.

Em resumo, o GIFT estabelece um novo padrão para a interpretabilidade de modelos de visão, garantindo que as explicações fornecidas não sejam apenas plausíveis para humanos, mas causalmente fundamentadas no comportamento real do algoritmo.