How Transformers Learn to Plan via Multi-Token Prediction

Este artigo demonstra que a previsão multi-token (MTP) supera a previsão do próximo token (NTP) em tarefas de raciocínio e planejamento, provando teoricamente que o MTP induz um processo de raciocínio reverso de duas etapas graças a uma propriedade de desacoplamento de gradiente que fornece um sinal de treinamento mais limpo.

Autores originais: Jianhao Huang, Zhanpeng Zhou, Renqiu Xia, Baharan Mirzasoleiman, Weijie Su, Wei Huang

Publicado 2026-04-15
📖 4 min de leitura☕ Leitura rápida

Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está ensinando uma criança a resolver um labirinto complexo.

O Método Tradicional (NTP - Previsão do Próximo Token):
A maneira como a maioria das Inteligências Artificiais (LLMs) é treinada hoje é como se você mostrasse a criança o caminho correto passo a passo e dissesse: "Olhe para onde você está agora, qual é o próximo passo?".
O problema é que a criança aprende a "chutar" o próximo passo baseado apenas no que está logo à frente, sem olhar para o destino final. Ela pode até memorizar o caminho se o labirinto for sempre o mesmo, mas se você mudar o ponto de partida ou o destino, ela se perde. Ela não está planejando; ela está apenas seguindo o fluxo.

O Novo Método (MTP - Previsão de Múltiplos Tokens):
Os autores deste paper descobriram uma forma de ensinar a criança a pensar de verdade. Em vez de perguntar apenas "qual é o próximo passo?", eles dizem: "Olhe para o destino final e me diga os próximos 3 passos de uma vez só!".

Isso parece estranho à primeira vista, mas é como se você obrigasse a criança a olhar para o futuro antes de dar o primeiro passo.

A Grande Descoberta: O "Raciocínio Reverso"

A parte mais fascinante do estudo é o que acontece dentro da "mente" do modelo quando ele usa esse novo método.

  1. O Problema do Labirinto Estrela:
    Imagine um labirinto onde você começa no centro de uma estrela e há vários caminhos, mas apenas um leva à saída.

    • Com o método antigo, a IA tenta adivinhar o caminho olhando para trás (o que ela já fez). Ela falha porque não consegue ver o destino.
    • Com o novo método (MTP), a IA faz algo mágico: ela inverte o processo. Ela olha primeiro para o ponto de chegada (o destino) e, a partir dali, traça o caminho de volta até o início. É como se ela dissesse: "Ok, eu sei onde quero chegar. Agora, qual foi o último passo antes de chegar lá? E o passo antes desse?".
  2. Por que isso funciona? (O Segredo do Treinamento):
    O papel explica que o método antigo (NTP) cria um "ruído" na aprendizagem. É como se a criança recebesse dicas confusas de várias pessoas ao mesmo tempo, misturando o que ela já fez com o que precisa fazer.
    O novo método (MTP) separa essas dicas. Ele dá um sinal de treinamento "limpo" para a primeira camada do cérebro da IA, permitindo que ela foque apenas no destino. Depois, a segunda camada usa essa informação para reconstruir o caminho. É como se você tivesse dois professores: um que ensina a olhar para o mapa (o destino) e outro que ensina a andar pelas ruas (os passos intermediários), em vez de um único professor que tenta fazer as duas coisas ao mesmo tempo e se confunde.

Analogia do Quebra-Cabeça

Pense em montar um quebra-cabeça gigante de um castelo:

  • Método Antigo (NTP): Você pega uma peça e tenta encaixá-la olhando apenas para a peça vizinha que você já colocou. Se você errar no início, todo o resto fica torto. Você está apenas reagindo ao imediato.
  • Método Novo (MTP): Você olha para a foto na caixa (o destino final) e pensa: "Para que essa peça se encaixe perfeitamente no topo da torre, qual peça precisa estar logo abaixo dela?". Você está planejando a estrutura inteira antes de colocar a primeira peça.

O Resultado na Vida Real

Os autores testaram isso em tarefas difíceis, como:

  • Contagem (Countdown): Um jogo de matemática onde você precisa usar números para chegar a um alvo.
  • Problemas Lógicos (SAT): Quebrar códigos lógicos complexos.

Em todos esses testes, o modelo que aprendeu a "olhar para o futuro" (MTP) foi muito melhor do que o modelo tradicional. Ele não apenas acertou mais, mas mostrou que desenvolveu uma habilidade de planejamento global. Ele aprendeu a não se perder nos detalhes imediatos e a manter o objetivo final em mente.

Resumo Simples

Este paper nos diz que, para que as IAs se tornem verdadeiros "pensadores" e não apenas "imitadores", precisamos mudar a forma como as treinamos. Em vez de apenas pedir para elas preverem a próxima palavra, devemos pedir para elas preverem várias palavras à frente.

Isso força a IA a desenvolver um plano de fundo, uma estratégia de "raciocínio reverso" onde ela olha para o objetivo final e trabalha de trás para frente. É como ensinar um jogador de xadrez a não pensar apenas no próximo movimento, mas a visualizar o xeque-mate que ele quer alcançar daqui a 10 lances.

Em suma: O futuro não é apenas sobre prever o próximo passo, mas sobre entender o destino para saber como chegar lá.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →