Parallel Token Prediction for Language Models

O artigo apresenta o PTP (Parallel Token Prediction), um framework que acelera a geração de linguagem ao prever múltiplos tokens simultaneamente em uma única chamada de modelo, substituindo a amostragem pós-hoc por variáveis de entrada aleatórias e alcançando um speedup de 2,4x em benchmarks de decodificação especulativa.

Felix Draxler, Justus Will, Farrin Marouf Sofian, Theofanis Karaletsos, Sameer Singh, Stephan Mandt

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está escrevendo um livro, mas tem uma regra estrita: você só pode escrever uma palavra de cada vez. Depois de escrever "O", você precisa parar, pensar, escrever "gato", parar de novo, pensar, escrever "pulou", e assim por diante. Mesmo que você saiba exatamente o que vem a seguir, você é obrigado a esperar a próxima "volta" do seu cérebro para escrever a próxima palavra.

Isso é como os Modelos de Linguagem Atuais (como o ChatGPT) funcionam hoje. Eles são incríveis, mas lentos porque escrevem "palavra por palavra" (token por token).

O artigo que você enviou apresenta uma solução genial chamada Predição de Tokens Paralelos (PTP). Vamos explicar como funciona usando uma analogia simples:

1. O Problema: O Carro de Corrida que Só anda de 1 em 1

Hoje, para prever a próxima palavra, o modelo olha para todas as anteriores e diz: "Acho que a próxima é 'gato' com 80% de chance". Ele então "sorteia" a palavra (como se jogasse um dado) e escreve. Só depois disso ele pode tentar adivinhar a próxima. É como dirigir um carro de Fórmula 1, mas você só pode acelerar um metro, parar, olhar o espelho, acelerar mais um metro... O processo é sequencial e demorado.

2. A Solução Mágica: O "Mapa do Tesouro" (Variáveis Auxiliares)

A grande sacada dos autores é mudar a fonte do "azar" (aleatoriedade).

  • Como é hoje: O modelo pensa, dá uma probabilidade, e depois o computador sorteia a palavra.
  • Como é no PTP: Antes de o modelo começar a pensar, nós damos a ele um "número secreto" (uma variável aleatória) que já define qual palavra ele vai escolher.

A Analogia do Menu de Restaurante:
Imagine que você é o garçom (o modelo) e o cliente (o computador) já decidiu o que quer comer, mas não te disse.

  • Método Antigo: O garçom pergunta: "O que você quer?". O cliente pensa e diz: "Um hambúrguer". O garçom anota. Depois pergunta: "E para beber?". O cliente pensa: "Coca". O garçom anota. (Lento).
  • Método PTP: O cliente chega com um código secreto na mão. Ele diz: "Me dê o código 0,45 para o prato e 0,82 para a bebida". O garçom, que decorou um mapa onde "0,45 = Hambúrguer" e "0,82 = Coca", olha para o código e escreve tudo de uma vez: "Hambúrguer e Coca".

No PTP, o modelo aprende a "ler" esses códigos secretos (chamados de variáveis auxiliares) e, ao invés de adivinhar a próxima palavra, ele prevê várias palavras de uma só vez baseando-se nesses códigos.

3. O Resultado: De 1 para Várias Palavras

Com essa técnica, o modelo consegue gerar um parágrafo inteiro em uma única chamada, em vez de ter que fazer centenas de chamadas sequenciais.

  • Antes: O modelo levava 10 segundos para escrever um código de Python.
  • Com PTP: O modelo escreve o mesmo código em cerca de 4 segundos (uma aceleração de 2,4 vezes, segundo o paper).

4. Como eles ensinaram isso? (O "Mestre" e o "Estudante")

Para treinar esse novo modelo, eles usaram uma técnica de "distilação".
Imagine um Mestre (o modelo antigo, lento, mas inteligente) e um Estudante (o novo modelo, rápido).

  1. O Mestre gera um texto e, ao mesmo tempo, anota quais "códigos secretos" ele usou para escolher cada palavra.
  2. Eles mostram o texto e os códigos para o Estudante.
  3. O Estudante aprende: "Ah, quando eu vejo o código 0,45 aqui, a próxima palavra é 'def', e quando vejo 0,82 ali, a palavra é 'import'".
  4. O Estudante aprende a fazer tudo isso de uma vez só, sem precisar esperar o Mestre.

5. E se o Estudante errar? (O "Checador")

Como o modelo novo é mais rápido, ele pode às vezes alucinar (inventar uma palavra errada). Para resolver isso, o sistema usa uma técnica chamada Decodificação Parcial Quadrática.
É como se o Estudante escrevesse 5 palavras rápidas, e um Checador (o modelo original, mais lento mas preciso) verificasse rapidamente se elas estão certas.

  • Se as 5 estiverem certas, o sistema aceita todas e avança.
  • Se a 3ª estiver errada, ele descarta a 3ª, 4ª e 5ª, mas mantém as 2 primeiras corretas e continua.
    Isso garante que a velocidade aumente sem perder a qualidade do texto.

Resumo em uma frase

O Predição de Tokens Paralelos é como dar ao modelo de IA um "mapa do futuro" (os códigos secretos) antes de ele começar a escrever, permitindo que ele pule a etapa de "pensar e esperar" e escreva várias palavras de uma vez só, tornando a IA muito mais rápida e eficiente, sem perder a inteligência.

Por que isso importa?
Isso significa que no futuro, poderemos ter assistentes de IA que respondem instantaneamente, geram códigos longos em segundos e conversam conosco sem aquele atraso chato de "escrevendo...", tudo isso rodando em computadores comuns.