Sensivity of LLMs' Explanations to the Training Randomness:Context, Class & Task Dependencies

Este artigo investiga como o contexto sintático, as classes e as tarefas influenciam a sensibilidade das explicações de modelos Transformer à aleatoriedade do treinamento, demonstrando que todos os fatores têm impacto estatisticamente significativo, sendo o efeito mais forte nas tarefas e o mais fraco no contexto.

Romain Loncour, Jérémie Bogaert, François-Xavier Standaert

Publicado 2026-03-10
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um grupo de 200 chefs idênticos, todos treinados com o mesmo livro de receitas (os dados) para fazer o mesmo prato. A única diferença é que cada chef tem um "gosto" ligeiramente diferente devido a um dado aleatório jogado no início do treinamento (como quem corta a cebola primeiro ou a temperatura exata do forno).

A pergunta que os autores deste artigo fazem é: Se todos esses chefs fazem o mesmo prato com o mesmo sabor, será que eles explicam da mesma forma por que o prato ficou bom?

A resposta curta é: Não. E o quanto essa explicação muda depende de três coisas principais. Vamos usar analogias para entender o que eles descobriram:

1. O Contexto (A Ordem das Palavras)

A Analogia: Imagine que você tem uma frase: "O João comeu a maçã". Agora, embaralhe as palavras: "Maçã a comeu João o".
Os autores testaram se a ordem das palavras importava para a estabilidade da explicação.

  • O que aconteceu: Quando as palavras estavam na ordem correta, os chefs explicavam quase da mesma forma (muito estável). Quando as palavras estavam embaralhadas, as explicações começaram a variar um pouco mais entre os chefs.
  • A lição: A estrutura da frase importa. Modelos de linguagem (como o que você usa agora) são sensíveis à ordem. Se a ordem é confusa, até a explicação de por que a máquina pensou aquilo fica um pouco mais instável. Mas, no geral, esse foi o fator que causou menos mudança.

2. A Classe (O que estamos procurando)

A Analogia: Imagine que você está procurando um "ponto fraco" em um time de futebol.

  • Cenário A: Você procura um jogador que usa uma camisa vermelha brilhante (uma palavra-chave clara). É fácil de explicar: "Ele ganhou porque usou a camisa vermelha". Todos os chefs concordam.
  • Cenário B: Você procura um time que não tem nenhum jogador com camisa vermelha. A vitória acontece pela ausência da cor vermelha.
  • O que aconteceu: Quando a resposta depende da ausência de uma palavra específica (como "não tem João, então é James"), as explicações dos chefs variam muito mais. Um chef pode dizer "foi porque faltou o João", outro pode dizer "foi porque o James estava lá", e outro pode focar em palavras aleatórias do começo da frase.
  • A lição: Explicar algo baseado no que não está lá é muito mais difícil e instável do que explicar algo baseado no que está lá. Isso causou um impacto médio na instabilidade.

3. A Tarefa (O Tipo de Problema)

A Analogia: Compare dois jogos:

  • Jogo 1 (Fácil): "Adivinhe se este texto é sobre Astronomia ou Matemática". As palavras são óbvias: "estrelas", "galáxia" vs. "equação", "número". É como achar uma agulha num palheiro onde a agulha brilha.
  • Jogo 2 (Difícil): "Adivinhe se este texto é uma notícia factual ou uma opinião". Aqui, as palavras se misturam. Você precisa entender o tom, a ironia e a relação entre as frases. É como tentar adivinhar o clima apenas olhando para a cor da nuvem, onde tudo parece cinza.
  • O que aconteceu: A diferença na estabilidade das explicações foi gigantesca entre esses dois tipos de tarefa. No jogo fácil (Astronomia), os chefs explicavam quase igual. No jogo difícil (Opinião vs. Fato), as explicações variavam muito de um chef para o outro.
  • A lição: Quanto mais complexo e sutil for o raciocínio necessário para a tarefa, mais as explicações vão variar dependendo de como o modelo foi treinado. Isso foi o fator que causou o maior impacto.

Resumo da Ópera (Conclusão)

Os autores descobriram que, se você treinar um modelo de Inteligência Artificial várias vezes com pequenas variações aleatórias, as explicações que ele dá sobre suas decisões não são fixas. Elas mudam dependendo de:

  1. Como a frase está escrita (pouco impacto).
  2. Se a resposta depende de algo que falta (impacto médio).
  3. Quão difícil e complexo é o trabalho que o modelo está fazendo (grande impacto).

Por que isso importa?
Se você usa uma IA para tomar decisões importantes (como aprovar um empréstimo ou diagnosticar uma doença), e a explicação dela muda dependendo de um "dado aleatório" no treinamento, isso é perigoso. Significa que a explicação pode não ser totalmente confiável.

O artigo sugere que, para confiar de verdade nas explicações da IA, não devemos olhar apenas para uma única explicação, mas sim entender como essas explicações se comportam em média, especialmente em tarefas complexas onde a "lógica" da máquina é mais difícil de rastrear.