From Features to Actions: Explainability in Traditional and Agentic AI Systems

Each language version is independently generated for its own context, not a direct translation.

Do "Porquê" da Resposta ao "Porquê" da Jornada: Entendendo a IA Agente

Imagine que você tem um assistente muito inteligente. Nos últimos anos, a tecnologia de "Explicabilidade de IA" (XAI) focou em entender assistentes que respondem a uma pergunta de cada vez. Mas agora, surgiram novos assistentes (chamados de IA Agente) que não apenas respondem, mas agem: eles navegam na internet, reservam voos, usam ferramentas e tomam decisões em várias etapas.

Este artigo é como um manual de instruções que diz: "Os métodos antigos de explicar o que a IA faz não funcionam mais para esses novos assistentes. Precisamos de uma nova abordagem."

Aqui está a explicação passo a passo:

1. O Velho Mundo: O Fotógrafo (IA Estática)

Antes, a IA era como um fotógrafo.

Como funcionava: Você entregava uma foto (entrada) e ele dizia: "Isso é um gato" (saída).
A Explicação: Para explicar a resposta, o fotógrafo apontava para as orelhas e bigodes da foto e dizia: "Eu vi que é um gato porque vi esses detalhes".
A Ferramenta: Técnicas como SHAP e LIME funcionavam bem aqui. Elas olhavam para a foto e diziam quais pixels eram importantes. Era estático: uma foto, uma resposta.

2. O Novo Mundo: O Detetive (IA Agente)

Hoje, temos a IA Agente. Ela é como um detetive ou um chef de cozinha em uma cozinha movimentada.

Como funciona: O trabalho não é uma foto única. É uma jornada. O detetive precisa:
1. Ler a pista inicial.
2. Decidir qual ferramenta usar (um computador, um telefone).
3. Fazer uma ligação.
4. Ouvir a resposta.
5. Anotar algo na agenda.
6. Decidir o próximo passo com base no que ouviu.
O Problema: Se o detetive falhar no final (ex: não consegue reservar o voo), olhar apenas para a "foto inicial" (a pergunta do cliente) não explica onde ele errou. Ele errou na ligação? Esqueceu de anotar o nome? Usou o telefone errado?

3. A Descoberta Principal: A Diferença entre "O que" e "Onde"

Os autores do artigo testaram duas formas de explicar os erros:

Método Antigo (Atribuição): Tentar apontar quais palavras da pergunta original causaram o erro.
- Resultado: Funciona bem para o fotógrafo, mas falha miseravelmente com o detetive. É como culpar a "pista inicial" por um erro que aconteceu na 10ª etapa da investigação. Não ajuda a consertar o problema.
Método Novo (Rastreamento/Trace): Olhar para o diário de bordo (o registro de todas as ações, pensamentos e ferramentas usadas).
- Resultado: Funciona perfeitamente. Eles criaram uma "lista de verificação" (rubrica) para analisar cada passo da jornada.

4. O Que Eles Encontraram? (As Analogias de Falha)

Ao analisar os diários de bordo dos agentes, eles descobriram dois tipos de falhas diferentes:

O "Deslize Lento" (TAU-bench Airline):
Imagine um detetive que, a cada passo, escreve um nome errado no caderno. No começo, ninguém percebe. Mas depois de 10 passos, o nome está tão errado que ele liga para a pessoa errada e a missão falha.
- A lição: O erro não foi uma decisão única, foi a inconsistência do estado (esquecer ou confundir informações ao longo do tempo). Isso foi a causa de 2,7 vezes mais falhas do que qualquer outra coisa.
O "Bloqueio Rápido" (AssistantBench):
Imagine um chef que decide usar uma faca de serra para cortar um tomate. O erro acontece na primeira escolha. Não importa o quanto ele tente consertar depois; a missão já está perdida.
- A lição: Aqui, o erro foi escolher a ferramenta errada logo de cara.

5. A Solução Proposta: O "Pacote de Explicação Mínimo" (MEP)

Os autores sugerem que, para entender essas IAs, não podemos mais entregar apenas uma "explicação solta". Precisamos de um Pacote de Explicação Mínimo (MEP) que contenha três coisas:

O Artefato: A explicação em si (ex: "O agente errou").
A Evidência: O registro completo do que aconteceu (o diário de bordo, as ferramentas usadas, o que foi lido).
A Verificação: Um selo de confiança (ex: "Nós verificamos que ele realmente usou a ferramenta errada, não foi apenas uma alucinação").

Resumo em uma frase:

Para entender por que uma IA moderna falha, não olhe apenas para a pergunta inicial (como se fosse uma foto); olhe para o filme inteiro da jornada, porque é lá que você verá se o agente esqueceu de anotar algo, usou a ferramenta errada ou se perdeu no caminho.

Por que isso importa?
Se você quer usar uma IA para cuidar de pacientes, gerenciar dinheiro ou dirigir carros, você não quer apenas saber o que ela decidiu no final. Você precisa saber onde e como ela poderia ter errado no meio do caminho, para poder corrigi-la antes que algo ruim aconteça.

Each language version is independently generated for its own context, not a direct translation.

Resumo Técnico: Da Característica à Ação: Explicabilidade em Sistemas de IA Tradicionais e Agênticos

1. O Problema

A área de IA Explicável (XAI) tradicionalmente focou na interpretação de previsões individuais de modelos estáticos, gerando explicações post-hoc que relacionam entradas a saídas sob uma estrutura de decisão fixa (ex: SHAP, LIME). No entanto, o cenário da IA mudou com o surgimento de sistemas agênticos baseados em Grandes Modelos de Linguagem (LLMs).

Nesses sistemas, o comportamento não é um único ponto de decisão, mas uma trajetória que se desenrola ao longo de múltiplos passos (observações, decisões, chamadas de ferramentas e atualizações de estado). O sucesso ou fracasso é determinado pela sequência de ações, não apenas pelo resultado final.

A Lacuna: Os métodos de XAI existentes, projetados para atribuição de características em previsões estáticas, não conseguem diagnosticar falhas em trajetórias agênticas. Eles falham em responder perguntas críticas como: "Por que o agente escolheu esta ferramenta?", "Onde o estado interno divergiu?" ou "Por que a recuperação de erro falhou?".
Hipótese: É necessário uma mudança de paradigma, passando da explicação em nível de características (features) para explicações em nível de trajetória (trajectories).

2. Metodologia

Os autores propõem uma comparação empírica e formal entre dois paradigmas: Explicabilidade Estática vs. Explicabilidade Agêntica.

Definição Formal (MEP): Introduzem o conceito de Pacote de Explicação Mínima (Minimal Explanation Packet - MEP).
- Estático: Artefato (ex: mapa de calor SHAP) + Contexto (entrada/saída) + Verificação (estabilidade).
- Agêntico: Artefato (trajetória de execução) + Contexto (logs de ferramentas, estado, evidências recuperadas) + Verificação (rubricas de comportamento, consistência de replay).
Benchmarks e Dados:
- Cenário Estático: Classificação binária de ofertas de emprego (IT vs. não-IT) usando modelos TF-IDF + Regressão Logística e Text CNN.
- Cenário Agêntico: Dois benchmarks de agentes de ferramentas:
  1. TAU-bench Airline: Tarefas de serviço ao cliente de companhias aéreas (API-mediated).
  2. AssistantBench: Tarefas de assistência na web (navegação multi-estágio).
Métricas de Avaliação:
- Estático: Estabilidade da explicação (correlação de Spearman sob perturbações).
- Agêntico: Rubricas Comportamentais (avaliadas por um juiz LLM via Docent) que verificam: Alinhamento de Intenção, Adesão ao Plano, Correção da Ferramenta, Precisão na Escolha da Ferramenta, Consistência do Estado e Recuperação de Erro.
Experimento de Ponte: Os autores mapearam as trajetórias agênticas em vetores de características binárias baseados nas violações de rubricas e aplicaram métodos de atribuição (SHAP) para ver se poderiam recuperar padrões globais de falha.

3. Principais Contribuições

Distinção Formal: Estabelecem uma distinção clara entre explicabilidade para preditores estáticos (focada em atribuição de entrada) e para sistemas agênticos (focada em contas de decisão de trajetória).
Taxonomia Cruzada: Propõem uma taxonomia que mapeia métodos existentes (atribuição, atenção, conceitos, mecanismos) para os novos requisitos de sistemas agênticos, destacando a necessidade de vincular atribuições a escolhas de ferramentas e evolução de estado.
Pacote de Explicação Mínima (MEP): Introduzem um framework unificado para empacotar artefatos explicativos com evidências vinculadas e sinais de verificação, essencial para auditoria e debugging em agentes.
Evidência Empírica: Demonstram que métodos de atribuição tradicionais falham em localizar falhas específicas em trajetórias, enquanto avaliações baseadas em rastro (trace-based) são superiores para diagnóstico.

4. Resultados Chave

Cenário Estático: Métodos como SHAP e LIME produziram classificações de características estáveis (Spearman $\rho \approx 0.86$ ) para modelos simples, mas falharam em capturar dinâmicas de decisão multi-estágio.
Cenário Agêntico (Falhas):
- Atribuições baseadas em características não conseguem localizar onde uma falha ocorreu em uma execução específica.
- Consistência do Estado (State Tracking): Em TAU-bench Airline, a inconsistência no rastreamento de estado foi o preditor mais forte de falha. Foi 2.7x mais prevalente em execuções falhas e reduziu a probabilidade de sucesso em 49%. Isso indica um padrão de "falha lenta" onde pequenos desvios se acumulam.
- Escolha de Ferramenta (Tool Choice): No AssistantBench, a precisão na escolha da ferramenta foi um fator decisivo e esparsamente distribuído (apareceu apenas em falhas), indicando um padrão de "falha rápida" onde uma decisão errada bloqueia o progresso.
Experimento de Ponte: Ao comprimir trajetórias em vetores de rubricas, o SHAP conseguiu identificar quais rubricas eram globalmente importantes para o sucesso (ex: Alinhamento de Intenção, Consistência de Estado). No entanto, isso permaneceu correlacional e não forneceu diagnósticos acionáveis para falhas individuais, confirmando que a atribuição sozinha é insuficiente para agentes.

5. Significado e Impacto

Mudança de Paradigma: O trabalho argumenta que a explicabilidade em IA não deve ser tratada como um artefato estático pós-inferência, mas como uma conta estruturada de comportamento baseada em evidências de execução.
Aplicações Práticas: Para sistemas críticos (saúde, finanças, automação empresarial), é crucial entender onde e por que um agente falhou durante a execução, não apenas o resultado final. As rubricas baseadas em rastro permitem auditoria, debugging e avaliação de confiabilidade.
Direção Futura: O artigo sugere que a pesquisa futura deve focar em frameworks padronizados de explicação em nível de trajetória, mecanismos de verificação mais fortes e análises contrafactuais para validar hipóteses causais sobre falhas de agentes, superando as limitações das análises puramente correlacionais.

Em resumo, o paper demonstra que a explicabilidade para agentes autônomos exige uma mudança de "o que influenciou a previsão" para "o que quebrou a trajetória", exigindo ferramentas que analisem logs de execução, consistência de estado e interações com ferramentas, em vez de apenas mapas de calor de entrada.