Understanding the Dynamics of Demonstration Conflict in In-Context Learning

Este estudo revela que os modelos de linguagem exibem uma estrutura computacional de duas fases ao lidar com exemplos conflitantes no aprendizado em contexto, onde cabeças de atenção específicas em camadas iniciais e tardias amplificam a vulnerabilidade a regras corrompidas, e a ablação direcionada dessas cabeças consegue melhorar significativamente o desempenho.

Difan Jiao, Di Wang, Lijie Hu

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando um robô superinteligente a fazer uma tarefa nova, como resolver um quebra-cabeça matemático. Você não programa o robô com novas regras; em vez disso, você mostra a ele alguns exemplos (chamados de "demonstrações") e espera que ele aprenda o padrão sozinho. Isso é o que chamamos de Aprendizado em Contexto.

O problema é: e se um dos exemplos que você mostrou estiver errado? O que acontece se, entre 7 exemplos corretos, você colocar apenas 1 com um erro proposital?

Este artigo descobre que esses robôs (chamados Modelos de Linguagem Grandes, ou LLMs) são surpreendentemente frágeis. Mesmo com apenas um exemplo errado, eles frequentemente esquecem a regra correta e seguem o erro, como se aquele único exemplo errado fosse a verdade absoluta.

Os autores decidiram investigar como o cérebro do robô funciona por dentro para entender por que isso acontece. Eles descobriram que o processo de raciocínio do robô acontece em duas fases distintas, como uma fábrica de montagem:

1. A Fase de "Confusão" (Camadas Intermediárias)

Quando o robô lê os exemplos, ele não decide imediatamente qual é a regra certa.

  • A Analogia: Imagine que o robô é um detetive que recebe várias testemunhas. Na metade do processo, ele anota em seu caderno: "A testemunha A diz que o ladrão usou um chapéu vermelho, mas a testemunha B (que está mentindo) diz que foi azul".
  • O que o artigo descobriu: Nas camadas médias do cérebro do robô, ele guarda ambas as informações (a regra certa e a errada) com força igual. Ele ainda não decidiu quem está mentindo. É como se ele estivesse "confuso" e mantivesse todas as opções em aberto.

2. A Fase de "Decisão" (Camadas Finais)

É aqui que o robô deve escolher a resposta final.

  • A Analogia: O detetive agora precisa fechar o caso. Ele olha para suas anotações. Em vez de seguir a maioria (7 testemunhas dizendo "vermelho"), ele acaba sendo convencido pela única testemunha que disse "azul".
  • O que o artigo descobriu: Nas camadas finais, o robô perde a confiança na regra correta e ganha uma confiança falsa na regra errada. Ele toma uma decisão errada, mesmo tendo a maioria dos dados corretos.

Os "Vilões" Internos: Duas Tipos de Peças Especiais

Os pesquisadores usaram uma espécie de "raio-X" para ver quais peças do cérebro do robô estavam causando esse problema. Eles encontraram dois tipos de "cérebros" (chamados de Heads ou cabeças de atenção) que agem como vilões:

  1. Os "Vulneráveis" (Vulnerability Heads):

    • Onde estão: No início e meio do processo.
    • O que fazem: Eles são como um ímã desequilibrado. Eles prestam muita atenção em certas posições dos exemplos (como se olhassem mais para o último exemplo do que para os outros). Se o exemplo errado estiver naquela posição específica, eles ficam super sensíveis e começam a "gritar" que aquela regra errada é importante.
    • Metáfora: É como um funcionário de escritório que só presta atenção no que o chefe diz no último minuto, ignorando o que foi dito durante a semana toda.
  2. Os "Susceptíveis" (Susceptible Heads):

    • Onde estão: No final do processo, perto da decisão.
    • O que fazem: Eles são como um balanço instável. Quando o robô tenta decidir, essas peças são facilmente convencidas pela informação errada, mesmo que ela seja minoria. Elas "abandonam" a regra correta e abraçam a errada.
    • Metáfora: É como um juiz que, ao ouvir a última testemunha, muda completamente sua decisão, esquecendo de todas as provas anteriores.

A Solução Mágica

A parte mais legal da pesquisa é que os autores testaram uma "cirurgia" no cérebro do robô. Eles simplesmente desligaram (ablataram) essas poucas peças defeituosas que eles identificaram.

  • O Resultado: Ao remover apenas um punhado dessas peças específicas, a performance do robô melhorou em mais de 10%. Ele voltou a ignorar o exemplo errado e seguir a maioria correta.

Resumo em uma frase

O artigo mostra que, quando um robô vê um exemplo errado, ele primeiro guarda a informação errada junto com a certa (confusão), e depois, peças específicas do seu cérebro (que prestam atenção demais em lugares errados e são facilmente enganadas no final) o fazem escolher a resposta errada. Mas, se você identificar e desligar essas peças defeituosas, o robô volta a ser inteligente e resistente a erros.

Isso é crucial para o futuro, pois no mundo real, os dados sempre têm erros e ruídos. Entender como o robô lida com esses conflitos ajuda a criar máquinas mais confiáveis e seguras.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →