Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Este artigo apresenta a Otimização de Árvore de Grupo (GTO), um novo método que alinha o treinamento do modelo de rascunho com a política de decodificação em árvore do tempo de execução, resultando em um aumento significativo no comprimento de aceitação e na velocidade de inferência de modelos de linguagem grandes em comparação com o estado da arte.

Shijing Hu, Jingyang Li, Zhihui Lu, Pan Zhou

Publicado 2026-03-03
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando escrever um livro muito longo e complexo (como um romance de ficção científica) com a ajuda de um Escritor Principal (o modelo de IA grande e inteligente, mas lento). O Escritor Principal é brilhante, mas escreve uma palavra de cada vez, pensando muito antes de cada letra. Isso torna o processo lento.

Para acelerar as coisas, você contrata um Escritor Rápido (o "modelo de rascunho"). A ideia é simples: o Escritor Rápido tenta adivinhar as próximas 5 ou 10 palavras do livro e as escreve rapidamente. Depois, o Escritor Principal olha para essas palavras e diz: "Sim, isso faz sentido" ou "Não, isso está errado". Se estiver certo, o livro avança 10 palavras de uma vez! Se estiver errado, ele corrige e tenta de novo.

O Problema: O Treino vs. A Realidade

O artigo que você leu descobre um problema engraçado nesse sistema.

Até agora, os cientistas treinavam o Escritor Rápido de uma maneira muito específica: eles diziam a ele: "Tente adivinhar a próxima palavra com a maior chance de estar certa, como se fosse uma única linha reta."

Mas, na hora real de escrever o livro (durante a "decodificação"), o sistema não usa apenas uma linha reta. Ele cria uma árvore de possibilidades. Imagine que o Escritor Rápido não escreve apenas uma frase, mas cria 4 ou 5 versões diferentes da próxima frase ao mesmo tempo (como se ele estivesse explorando vários caminhos em um labirinto). Depois, o Escritor Principal escolhe qual desses caminhos é o melhor.

O conflito: O Escritor Rápido foi treinado para ser o melhor em uma única linha reta (o "caminho mais provável"), mas na hora da verdade, ele precisa ser bom em criar uma árvore inteira de opções para que o Escritor Principal possa escolher a melhor. É como treinar um jogador de futebol para chutar apenas para o canto esquerdo do gol, mas no jogo real, o goleiro se move e você precisa chutar para qualquer lugar que esteja livre. O treino não combinava com o jogo!

A Solução: GTO (Otimização em Árvore de Grupo)

Os autores criaram uma nova técnica chamada GTO (Group Tree Optimization) para consertar isso. Eles mudaram a forma de treinar o Escritor Rápido para que ele aprenda a criar "árvores" de palavras, não apenas linhas retas.

Aqui está como funciona, usando analogias simples:

1. A Recompensa da Árvore (Draft Tree Reward)

Antes, a pontuação do Escritor Rápido era baseada em quantas palavras ele acertou em uma única linha.
Com o GTO, a pontuação é baseada em quantas palavras da "árvore" inteira o Escritor Principal aceita.

  • Analogia: Imagine que você é um chef que prepara 5 pratos diferentes para um crítico. Antes, você era avaliado apenas se o prato que você achava que era o melhor estava bom. Agora, você é avaliado se pelo menos um dos 5 pratos que você preparou agradou o crítico. O objetivo é criar uma "cesta de opções" onde várias delas sejam boas, não apenas uma.

2. O Treino em Grupos (Group-Based Training)

Treinar para criar árvores é difícil porque às vezes o crítico (o modelo principal) é muito exigente e rejeita tudo, o que deixa o chef (o modelo de rascunho) confuso.
O GTO usa um truque inteligente: ele compara o trabalho do chef atual com o trabalho de um chef experiente e congelado (um modelo de referência que já foi treinado).

  • Analogia: Em vez de apenas dizer "este prato está ruim", o sistema compara: "Olhe, o Chef A (atual) fez 3 pratos bons nesta mesa, enquanto o Chef B (referência) fez apenas 1. O Chef A está melhorando!" Isso ajuda a dar uma nota justa, mesmo que o dia esteja difícil (o contexto seja complexo). Eles agrupam várias tentativas juntas para ver quem realmente se saiu melhor, reduzindo o "ruído" e a confusão.

Os Resultados: Mais Rápido e Inteligente

Quando eles testaram essa nova técnica em vários modelos de IA (como LLaMA, Vicuna, etc.) em tarefas de conversar, programar e resolver matemática, os resultados foram impressionantes:

  • Mais palavras aceitas: O sistema conseguiu aceitar, em média, 7,4% mais palavras de uma só vez do que os métodos anteriores.
  • Mais velocidade: Isso resultou em um aumento de 7,7% na velocidade de geração do texto.
  • Funciona em tudo: Funciona bem tanto para conversas casuais quanto para códigos de programação complexos e problemas de matemática.

Resumo Final

Pense no GTO como um treinador esportivo que percebeu que seus atletas estavam treinando para uma corrida em linha reta, mas a competição real era um obstáculo com curvas e saltos. O treinador mudou o treino: em vez de correr em linha reta, os atletas agora praticam saltando por várias trilhas ao mesmo tempo.

No final, o "Escritor Rápido" aprende a criar um leque de opções melhores, o "Escritor Principal" tem mais chances de aceitar essas opções, e o resultado final é que a IA escreve muito mais rápido, sem perder a qualidade. É uma solução prática para fazer as IAs atuais serem mais eficientes e rápidas.