Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de 200 chefs idênticos, todos treinados com o mesmo livro de receitas (os dados) para fazer o mesmo prato. A única diferença é que cada chef tem um "gosto" ligeiramente diferente devido a um dado aleatório jogado no início do treinamento (como quem corta a cebola primeiro ou a temperatura exata do forno).

A pergunta que os autores deste artigo fazem é: Se todos esses chefs fazem o mesmo prato com o mesmo sabor, será que eles explicam da mesma forma por que o prato ficou bom?

A resposta curta é: Não. E o quanto essa explicação muda depende de três coisas principais. Vamos usar analogias para entender o que eles descobriram:

1. O Contexto (A Ordem das Palavras)

A Analogia: Imagine que você tem uma frase: "O João comeu a maçã". Agora, embaralhe as palavras: "Maçã a comeu João o".
Os autores testaram se a ordem das palavras importava para a estabilidade da explicação.

O que aconteceu: Quando as palavras estavam na ordem correta, os chefs explicavam quase da mesma forma (muito estável). Quando as palavras estavam embaralhadas, as explicações começaram a variar um pouco mais entre os chefs.
A lição: A estrutura da frase importa. Modelos de linguagem (como o que você usa agora) são sensíveis à ordem. Se a ordem é confusa, até a explicação de por que a máquina pensou aquilo fica um pouco mais instável. Mas, no geral, esse foi o fator que causou menos mudança.

2. A Classe (O que estamos procurando)

A Analogia: Imagine que você está procurando um "ponto fraco" em um time de futebol.

Cenário A: Você procura um jogador que usa uma camisa vermelha brilhante (uma palavra-chave clara). É fácil de explicar: "Ele ganhou porque usou a camisa vermelha". Todos os chefs concordam.
Cenário B: Você procura um time que não tem nenhum jogador com camisa vermelha. A vitória acontece pela ausência da cor vermelha.
O que aconteceu: Quando a resposta depende da ausência de uma palavra específica (como "não tem João, então é James"), as explicações dos chefs variam muito mais. Um chef pode dizer "foi porque faltou o João", outro pode dizer "foi porque o James estava lá", e outro pode focar em palavras aleatórias do começo da frase.
A lição: Explicar algo baseado no que não está lá é muito mais difícil e instável do que explicar algo baseado no que está lá. Isso causou um impacto médio na instabilidade.

3. A Tarefa (O Tipo de Problema)

A Analogia: Compare dois jogos:

Jogo 1 (Fácil): "Adivinhe se este texto é sobre Astronomia ou Matemática". As palavras são óbvias: "estrelas", "galáxia" vs. "equação", "número". É como achar uma agulha num palheiro onde a agulha brilha.
Jogo 2 (Difícil): "Adivinhe se este texto é uma notícia factual ou uma opinião". Aqui, as palavras se misturam. Você precisa entender o tom, a ironia e a relação entre as frases. É como tentar adivinhar o clima apenas olhando para a cor da nuvem, onde tudo parece cinza.
O que aconteceu: A diferença na estabilidade das explicações foi gigantesca entre esses dois tipos de tarefa. No jogo fácil (Astronomia), os chefs explicavam quase igual. No jogo difícil (Opinião vs. Fato), as explicações variavam muito de um chef para o outro.
A lição: Quanto mais complexo e sutil for o raciocínio necessário para a tarefa, mais as explicações vão variar dependendo de como o modelo foi treinado. Isso foi o fator que causou o maior impacto.

Resumo da Ópera (Conclusão)

Os autores descobriram que, se você treinar um modelo de Inteligência Artificial várias vezes com pequenas variações aleatórias, as explicações que ele dá sobre suas decisões não são fixas. Elas mudam dependendo de:

Como a frase está escrita (pouco impacto).
Se a resposta depende de algo que falta (impacto médio).
Quão difícil e complexo é o trabalho que o modelo está fazendo (grande impacto).

Por que isso importa?
Se você usa uma IA para tomar decisões importantes (como aprovar um empréstimo ou diagnosticar uma doença), e a explicação dela muda dependendo de um "dado aleatório" no treinamento, isso é perigoso. Significa que a explicação pode não ser totalmente confiável.

O artigo sugere que, para confiar de verdade nas explicações da IA, não devemos olhar apenas para uma única explicação, mas sim entender como essas explicações se comportam em média, especialmente em tarefas complexas onde a "lógica" da máquina é mais difícil de rastrear.

Each language version is independently generated for its own context, not a direct translation.

Título: Sensibilidade das Explicações de LLMs à Aleatoriedade do Treinamento: Dependências de Contexto, Classe e Tarefa

1. Problema e Motivação

Os modelos Transformer tornaram-se fundamentais no Processamento de Linguagem Natural (NLP), mas explicar suas decisões permanece um desafio crítico. Duas propriedades essenciais para essas explicações são a fidelidade (refletir o comportamento real do modelo) e a plausibilidade (ser compreensível para humanos).

Recentemente, descobriu-se que o mesmo modelo, treinado nos mesmos dados mas com diferentes sementes de aleatoriedade (random seeds), pode gerar explicações drasticamente diferentes. Isso levanta uma questão fundamental: a estabilidade das explicações não deve ser analisada apenas em instâncias únicas, mas considerando a distribuição das explicações geradas por múltiplas instâncias de treinamento. O artigo investiga como três fatores naturais influenciam essa sensibilidade à aleatoriedade do treinamento:

O contexto sintático (ordem das palavras).
As classes a serem aprendidas (presença ou ausência de marcadores discriminantes).
A tarefa em si.

2. Metodologia

Modelos e Dados:

Modelos: Utilizou-se o RoBERTa-base para inglês e o CamemBERT-base para francês.
Treinamento: Foram ajustados (fine-tuned) 200 modelos para cada configuração, mantendo hiperparâmetros idênticos (taxa de aprendizado, tamanho do lote, épocas) e variando apenas a semente aleatória. A semente controla a ordem dos dados, o dropout (neurônios desativados) e a inicialização da cabeça de classificação.
Seleção de Modelos: Selecionou-se um subconjunto de $m$ modelos equivalentes (com precisão estatisticamente similar no conjunto de teste).
Texto de Teste: Selecionaram-se textos "compatíveis" onde todos os modelos previram o mesmo rótulo.

Método de Explicação:

Utilizou-se a Propagação de Relevância por Camadas (LRP - Layer-wise Relevance Propagation). É um método determinístico que atribui um valor de relevância a cada token do texto, oferecendo um bom equilíbrio entre plausibilidade e fidelidade.
Para um texto de $n$ palavras, obtém-se $m$ vetores de valores de relevância (um para cada modelo).

Métrica de Avaliação:

Utilizou-se a métrica MCWME (Mean Correlation With Mean Explanation).
Funcionamento: Calcula-se uma "explicação média" a partir de um subconjunto dos modelos e mede-se a correlação (Pearson) das explicações dos modelos restantes com essa média.
Validação Cruzada: Utilizou-se leave-one-out para obter estimativas precisas. Um MCWME alto indica alta estabilidade (baixa sensibilidade à aleatoriedade); um valor baixo indica alta sensibilidade.

3. Contribuições e Experimentos Principais

O estudo foi dividido em três experimentos para isolar as variáveis:

A. Impacto do Contexto Sintático (Experimento 1)

Objetivo: Avaliar como a ordem das palavras afeta a estabilidade.
Setup: Dois conjuntos de dados com 10.000 frases de 10 palavras.
- Conjunto 1: Frases ordenadas (ex: "John" vs "James" em posições específicas).
- Conjunto 2: Versão embaralhada das mesmas palavras (mantendo a distribuição de vocabulário, mas alterando a sintaxe).
Resultado: As frases ordenadas mostraram estabilidade quase perfeita (MCWME alto). As frases embaralhadas apresentaram uma estabilidade significativamente menor.
Conclusão: A aleatoriedade do treinamento afeta mais a estabilidade quando a sintaxe é alterada. Isso sugere que os modelos capturam pequenas relações entre palavras que deveriam ser zero, mas que o mecanismo de atenção do LRP relata erroneamente devido à aleatoriedade.

B. Dependência da Classe: Ausência de Marcadores Discriminantes (Experimento 2)

Objetivo: Investigar classes onde a decisão não depende de uma palavra específica presente, mas sim da sua ausência.
Setup:
- Classe A: Presença do nome "John".
- Classe B: Ausência de "John" (substituído por "James" ou palavras aleatórias).
Resultado: A classe sem marcador discriminante claro (onde a decisão é baseada na ausência de "John") apresentou um MCWME significativamente menor (mais sensível à aleatoriedade) do que a classe com o marcador presente.
Observação: Mesmo com MCWME baixo (~0.7), as explicações não foram puramente aleatórias (que seriam ~0), sugerindo que o modelo ainda atribui relevância a posições estruturais (início/fim da frase) mesmo sem um marcador lexical forte.

C. Dependência da Tarefa (Experimento 3 - Mundo Real)

Objetivo: Comparar a estabilidade entre duas tarefas distintas.
- Tarefa 1 (ArXiv): Classificação de resumos de artigos em Astrofísica vs. Matemática. Vocabulário altamente discriminante.
- Tarefa 2 (InfOpinions): Classificação de artigos de imprensa em Informação vs. Opinião. Requer compreensão mais profunda das relações semânticas.
Resultado: A tarefa de ArXiv (vocabulário mais discriminante) apresentou maior estabilidade nas explicações. A tarefa de InfOpinions apresentou menor estabilidade.
Correlação: A maior estabilidade na tarefa ArXiv correlaciona-se com a maior precisão do modelo (99.8% vs 96%), sugerindo que tarefas mais fáceis (com marcadores lexicais óbvios) geram explicações mais robustas à aleatoriedade do treinamento.

4. Resultados Chave e Significância

Resultados Estatísticos:
Todos os três fatores investigados tiveram um impacto estatisticamente significativo na sensibilidade das explicações à aleatoriedade do treinamento, ordenados por magnitude de impacto:

Tarefa: Maior impacto (diferenças entre conjuntos de dados e complexidade semântica).
Classes: Impacto médio (diferença entre classes com marcadores presentes vs. ausentes).
Contexto Sintático: Menor impacto (embora ainda significativo, a ordem das palavras tem menos efeito que a natureza da tarefa).

Significância e Implicações:

Novo Paradigma de Avaliação: O trabalho argumenta que a explicabilidade não deve ser avaliada apenas em uma única execução de modelo, mas sim analisando a distribuição de explicações geradas por múltiplas sementes.
Fragilidade das Explicações: Demonstra que explicações de modelos complexos podem ser instáveis dependendo da tarefa e da classe, o que pode comprometer a confiança humana (plausibilidade) e a veracidade técnica (fidelidade).
Recomendações Práticas:
- O uso de modelos mais simples deve ser considerado quando não houver perda de precisão, pois podem ser mais estáveis.
- A interpretação de explicações deve levar em conta a variabilidade inerente ao processo de treinamento.
Questões Abertas: O artigo levanta se métodos de explicação mais complexos poderiam reduzir essa dependência da aleatoriedade e como a distribuição de explicações afeta a percepção de plausibilidade por humanos.

Em suma, o paper fornece evidências empíricas de que a "explicação" de um modelo de linguagem não é uma propriedade fixa do modelo, mas sim uma propriedade dinâmica influenciada fortemente pela tarefa, pela classe específica e pela aleatoriedade do treinamento.

Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

1. O Contexto (A Ordem das Palavras)

2. A Classe (O que estamos procurando)

3. A Tarefa (O Tipo de Problema)

Resumo da Ópera (Conclusão)

Título: Sensibilidade das Explicações de LLMs à Aleatoriedade do Treinamento: Dependências de Contexto, Classe e Tarefa

1. Problema e Motivação

2. Metodologia

3. Contribuições e Experimentos Principais

4. Resultados Chave e Significância

Mais como este

Speculative Decoding Scaling Laws (SDSL): Throughput Optimization Made Simple

Summarize Before You Speak with ARACH: A Training-Free Inference-Time Plug-In for Enhancing LLMs via Global Attention Reallocation

DeReason: A Difficulty-Aware Curriculum Improves Decoupled SFT-then-RL Training for General Reasoning

MDER-DR: Multi-Hop Question Answering with Entity-Centric Summaries

Markovian Generation Chains in Large Language Models