Lost in the Middle at Birth: An Exact Theory of Transformer Position Bias

Este artigo demonstra que o fenômeno "Lost in the Middle" em modelos de linguagem é uma propriedade geométrica intrínseca dos decodificadores causais com conexões residuais, presente já na inicialização do modelo antes de qualquer treinamento ou uso de codificações posicionais, criando uma zona de influência negligenciável no meio do contexto devido à divergência logarítmica no início e a um ancoragem isolada no final.

Borun D Chowdhury

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando contar uma história muito longa para um amigo, mas ele tem um problema estranho de memória: ele lembra perfeitamente do primeiro parágrafo que você disse e do último parágrafo, mas se você contar algo importante no meio da história, ele simplesmente esquece.

Isso é o que os cientistas chamam de "Perdido no Meio" (Lost in the Middle) em Inteligência Artificial. Até hoje, a gente achava que isso acontecia porque o modelo "aprendeu" a ignorar o meio ou porque a "régua" que ele usa para medir posições (chamada RoPE) estava defeituosa.

Mas este novo artigo diz: "Não, o problema é a estrutura do cérebro dele desde o dia em que ele nasceu."

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: A "Fenda Geométrica"

Pense na memória do modelo como um elevador em um arranha-céu com 24 andares (camadas).

  • O Andar 1 (Início): Se você estiver no primeiro andar, há um caminho mágico e superlotado que conecta você a todos os outros andares. É como se houvesse milhares de escadas e elevadores extras levando até lá. A informação chega lá com muita força.
  • O Último Andar (Fim): Se você estiver no topo, existe um tubo de correio direto (chamado "conexão residual") que permite que sua mensagem pule todos os andares e chegue direto na saída, sem passar por ninguém. É um atalho perfeito.
  • O Meio do Prédio: Se você estiver no 12º andar, você está preso. Você não tem o caminho superlotado do início, nem o tubo direto do fim. Você precisa subir e descer escadas que estão meio quebradas e cheias de buracos. A sua mensagem chega lá tão diluída, tão fraca, que é como se você estivesse gritando no meio de um furacão: ninguém te ouve.

O artigo prova que essa "fenda" no meio existe antes do modelo aprender qualquer coisa. É como se o prédio tivesse sido construído com um buraco no meio da fundação.

2. Por que a "Régua" (RoPE) não é a culpada?

Muitas pessoas achavam que o problema era a "régua" que o modelo usa para saber onde as palavras estão (chamada RoPE). Eles tentavam consertar essa régua para que o modelo prestasse mais atenção ao meio.

O artigo diz: "Esqueça a régua."
Imagine que você tem um mapa cego. Mesmo que você mude a régua de medição, se o prédio em si tiver um buraco no meio, você ainda vai cair. O modelo mostra que, mesmo sem usar nenhuma régua especial, o modelo ainda tem esse problema de memória no meio. O defeito é na arquitetura do prédio, não no mapa.

3. O Que Acontece Quando o Modelo "Estuda"?

Quando o modelo começa a treinar (aprender), ele tenta consertar isso. Ele tenta criar "atalhos" novos, como se o morador do 12º andar começasse a construir uma ponte improvisada.

  • O Resultado: O modelo consegue criar pequenos picos de atenção em lugares específicos (como quando há uma mudança de assunto no texto), mas ele não consegue preencher o buraco gigante no meio.
  • A Analogia: É como tentar encher um balde furado com um bico de água muito fraco. Você pode colocar um pouco de água aqui e ali, mas o buraco no fundo continua lá. O modelo acaba preferindo confiar apenas no começo e no fim da história, porque é mais fácil e seguro.

4. A Conclusão: O Que Fazer Agora?

O artigo não diz que é impossível consertar. Diz apenas que o problema é mais profundo do que pensávamos.

  • O que NÃO funciona: Apenas tentar ajustar a "régua" (RoPE) ou mudar levemente o código. Isso é como tentar pintar o buraco do prédio de outra cor; o buraco continua lá.
  • O que PODE funcionar: Precisamos mudar a forma como o modelo estuda. Em vez de apenas ler e repetir, precisamos criar exercícios que forcem o modelo a prestar atenção especificamente no meio da história, mesmo que seja difícil. É como treinar um atleta para pular um buraco que a natureza colocou no caminho dele, exigindo um esforço muito maior do que o normal.

Resumo em uma frase:

O modelo de IA tem um "defeito de nascença" que faz com que ele esqueça o meio das histórias porque a estrutura do seu cérebro favorece demais o começo e o fim; consertar isso exige mudar como ele aprende, não apenas como ele mede o tempo.