How Large Language Models Get Stuck: Early structure with persistent errors

Este artigo investiga como modelos de linguagem como o OPT podem desenvolver erros persistentes durante o treinamento ao estabelecerem cedo vieses estatísticos equivocados (especialmente baseados em bigramas) que se tornam difíceis de reverter, sugerindo que insights linguísticos são essenciais para otimizar esse processo.

Alokesh Manna, William Snyder, Whitney Tabor

Publicado 2026-03-12
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Como os "Cérebros Digitais" Aprendem (e Onde Eles Travam)

Imagine que você está ensinando uma criança a falar. Você lê histórias para ela, conversa e corrige seus erros. Com o tempo, ela aprende não apenas palavras, mas regras de como montar frases corretas.

Este artigo estuda um "cérebro digital" chamado Modelo de Linguagem de Grande Porte (LLM), especificamente o modelo OPT da Meta. Os pesquisadores treinaram esse modelo com uma quantidade de texto muito menor do que os gigantes atuais usam (como se fosse uma criança que aprendeu apenas com um livro de histórias, em vez de toda a internet).

O objetivo era descobrir: Onde esses modelos aprendem rápido e onde eles "travam" e aprendem errado para sempre?

1. O Experimento: O Teste de Gramática

Os pesquisadores usaram um teste chamado BLiMP, que é como um "simulador de direção" para gramática. Ele apresenta pares de frases:

  • A Frase Correta: "Qual papel o Jason arquivou antes de ler o relatório?" (Soa natural).
  • A Frase Errada: "Qual papel o Jason arquivou o relatório antes de ler?" (Soa estranho e errado).

O modelo precisa escolher qual frase é mais provável de estar certa. Se ele escolher a errada, ele está "alucinando" ou aprendendo mal.

2. A Grande Descoberta: O "Momento da Verdade"

O estudo descobriu algo fascinante sobre quando o modelo aprende:

  • A Fase Inicial (O "Bebê" Digital): No começo do treinamento, o modelo é como um bebê que só ouve sons. Ele não entende a estrutura da frase, apenas quais palavras costumam aparecer juntas.
  • A Janela Crítica (O "Ponto de Não Retorno"): Por volta de 15% a 20% do tempo total de treinamento, o modelo toma uma decisão. Ele começa a separar o que é "certo" do que é "errado".
    • Cenário A (Sucesso): Para muitas regras, ele acerta logo de cara e continua acertando.
    • Cenário B (O Travamento): Para cerca de um terço das regras (especialmente as mais complexas, como as chamadas "Restrições de Ilha" na linguística), o modelo decide que a frase errada é a correta. E o pior: ele nunca mais muda de ideia. Mesmo após milhares de horas de treino, ele continua achando que a frase errada é a certa.

A Analogia do Caminho na Floresta:
Imagine que o treinamento do modelo é uma caminhada por uma floresta.

  • No início, o modelo está perdido.
  • Em um certo ponto (o "Ponto de Mudança"), ele vê um caminho.
  • Se ele escolher o caminho certo, ele chega ao destino.
  • Se ele escolher o caminho errado (que parece mais fácil ou familiar no início), ele fica preso em um beco sem saída. Mesmo que o guia (os dados) tente mostrá-lo o caminho certo depois, ele já está tão "viciado" naquele caminho errado que não consegue sair.

3. Por que eles escolhem o caminho errado? (A Hipótese do Bigrama)

Aqui entra a parte mais interessante. Por que o modelo se enganou?

Os pesquisadores propõem a Hipótese do Bigrama.

  • O que é um Bigrama? É quando você olha apenas para duas palavras seguidas.
  • O Problema: No início do treinamento, o modelo é "preguiçoso". Ele não consegue olhar para a frase inteira e entender a lógica complexa. Ele só olha para as duas últimas palavras.

Exemplo Prático do Artigo:
Imagine a frase: "Patrick é irritante para conversar." (Correta) vs. "Patrick está prestes a conversar." (Errada).

  • Para entender a primeira, você precisa olhar para o final da frase e ver que falta um objeto (conversar com quem?).
  • Mas, se você olhar apenas para as duas palavras depois de "Patrick é", você vê "é irritante". Essa combinação é muito rara na vida real.
  • Já na frase errada, "é prestes" é uma combinação muito comum.

Como o modelo, no início, só olha para essas combinações de duas palavras (bigramas), ele pensa: "Ah, 'é prestes' é muito comum, então essa frase deve ser a certa!". Ele ignora a regra gramatical complexa do final da frase porque a "pista local" (as duas palavras) é muito forte e o atrai para o erro.

Uma vez que ele se "vicia" nessa lógica simples, é muito difícil ensiná-lo a olhar para a estrutura completa da frase depois.

4. O Que Isso Significa para o Futuro?

O artigo sugere que não adianta apenas jogar mais dados no modelo e esperar que ele acerte. Se ele aprender errado no "nascimento" (nas primeiras etapas do treino), ele carrega esse erro para sempre.

A Solução Proposta:
Os autores sugerem que, em vez de treinar o modelo de qualquer jeito, devemos focar em intervir exatamente nesse "Ponto de Mudança".

  • Imagine que você está ensinando uma criança a andar de bicicleta. Se ela cair e aprender a segurar o guidão errado nos primeiros 5 minutos, ela nunca vai andar direito.
  • Em vez de deixar ela cair e tentar aprender sozinha, você deve segurá-la e corrigir a postura antes que ela forme o hábito errado.

Se conseguirmos "empurrar" o modelo para o caminho certo durante essa janela crítica inicial (quando ele ainda está aprendendo a ver bigramas), ele poderá aprender as regras complexas da linguagem de forma muito mais eficiente e sem cometer esses erros persistentes.

Resumo em uma Frase:

Os modelos de linguagem muitas vezes "travam" em erros gramaticais porque, no início do aprendizado, eles confiam demais em combinações simples de duas palavras (que parecem certas localmente) e ignoram a lógica complexa da frase inteira; uma vez que aprendem errado, é quase impossível corrigi-los depois.