Unraveling Syntax: How Language Models Learn Context-Free Grammars

Este trabalho estabelece teoricamente e comprova empiricamente que modelos de linguagem aprendem subgramáticas de gramáticas livres de contexto em paralelo, demonstrando que a perda de modelagem recursa linearmente sobre essas estruturas e que o pré-treinamento em subgramáticas melhora as representações internas, embora os modelos continuem a enfrentar dificuldades com recursões profundas.

Laura Ying Schulz, Daniel Mitropolsky, Tomaso Poggio

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar um robô a falar ou a escrever código. A grande pergunta que os cientistas se fazem é: como esse robô realmente aprende? Será que ele aprende as regras mais simples primeiro (como "S + V" em uma frase) e só depois as mais complexas, como uma criança? Ou ele tenta aprender tudo de uma vez?

Este artigo, escrito por pesquisadores do MIT e da ETH Zurique, investiga essa questão usando uma ferramenta matemática chamada Gramática Livre de Contexto (CFG). Pense em uma CFG como o "manual de instruções" ou a "receita" que define como uma linguagem (seja português, Python ou matemática) é construída.

Aqui está a explicação do que eles descobriram, usando analogias do dia a dia:

1. O Conceito de "Subgramáticas" (As Peças do Quebra-Cabeça)

A ideia central do artigo é que qualquer linguagem complexa não é um bloco único e gigante. Ela é feita de pequenos blocos menores, que os autores chamam de "subgramáticas".

  • A Analogia: Imagine que a linguagem é uma casa.
    • A casa inteira é a linguagem completa.
    • As "subgramáticas" são os cômodos: a cozinha, o quarto, a sala.
    • Você pode estudar a cozinha isoladamente (como ela funciona, quais são as regras dela) sem precisar olhar para o telhado da casa inteira.
    • O artigo define dois tipos de "cômodos":
      1. Subgramáticas Internas: São como as peças que compõem um móvel (ex: as pernas de uma mesa). Elas estão dentro da estrutura.
      2. Subgramáticas Externas: São versões simplificadas da casa inteira (ex: uma planta baixa que mostra apenas a cozinha).

2. A Grande Descoberta: A "Fórmula da Soma"

Os pesquisadores provaram matematicamente algo muito importante: o erro do robô (quanto ele erra ao prever a próxima palavra) é apenas a soma dos erros em cada "cômodo" (subgramática).

  • A Analogia: Pense em um aluno fazendo uma prova de matemática.
    • Se ele erra na soma, na multiplicação e na divisão, a nota final dele é a soma desses erros.
    • O artigo diz que, para esses modelos, não importa a ordem. O modelo não precisa "dominar" a cozinha antes de aprender a sala. Ele pode aprender a cozinha, a sala e o quarto todos ao mesmo tempo, em paralelo.
    • Isso é diferente de como crianças aprendem. Crianças geralmente aprendem palavras simples antes de frases complexas. Os robôs (pequenos modelos de linguagem) parecem aprender tudo de uma vez só.

3. O Treino com "Pré-aulas" (Curriculum Learning)

Os autores testaram uma ideia: e se, em vez de jogar o robô direto na casa inteira, nós o fizéssemos treinar primeiro apenas na cozinha (uma subgramática simples) e só depois na casa completa?

  • O Resultado:
    • Para robôs pequenos e simples, essa "pré-aula" ajudou muito! Eles aprenderam melhor e mais rápido.
    • Para robôs grandes e complexos, a pré-aula não mudou muito a nota final, mas mudou como eles pensavam.
    • A Analogia da Organização Mental: Imagine que você tem duas caixas de brinquedos.
      • O robô que treinou só na casa inteira misturou tudo: carrinhos, bonecas e blocos.
      • O robô que fez a "pré-aula" na cozinha organizou os brinquedos: ele separou claramente o que é "cozinha" do que é "sala".
      • Isso significa que, mesmo que a nota final seja a mesma, o robô treinado primeiro entendeu a estrutura da linguagem de forma mais clara e organizada.

4. O Grande Problema: A "Torre de Blocos" (Recursão)

A parte mais interessante e preocupante do estudo é sobre a profundidade.

  • A Analogia: Imagine que você está empilhando blocos.
    • Se você empilha 3 blocos, o robô consegue prever o próximo.
    • Se você empilha 10 blocos, ele ainda vai bem.
    • Mas se você empilha 50 blocos (uma recursão profunda), o robô desiste. Ele começa a errar, mesmo que a regra seja a mesma.
  • O que isso significa: Os modelos de linguagem atuais (incluindo os gigantes como o GPT) são ótimos em entender frases longas, mas ruins em entender estruturas profundas e aninhadas. Eles confundem a "profundidade" da estrutura com a "quantidade" de palavras. É como se eles se perdessem no labirinto quando ele fica muito profundo, mesmo que o caminho seja reto.

Resumo em uma frase

Este artigo mostra que os robôs de linguagem aprendem as "peças" da linguagem todas ao mesmo tempo (não em etapas como crianças), que treinar primeiro nas peças simples ajuda a organizar a mente do robô, mas que eles ainda têm muita dificuldade em lidar com estruturas que se repetem muitas vezes dentro de si mesmas (recursão profunda).

É um passo importante para entendermos que, embora esses robôs sejam impressionantes, eles ainda têm "cegueiras" específicas sobre como a linguagem é construída.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →