O Grande Problema: O "Carro em Alta Velocidade" que Perde o Caminho

Imagine que você está tentando escrever uma história muito longa (como um romance) com um autor brilhante, mas de pensamento lento (o Modelo Alvo). Para economizar tempo, você contrata um estagiário rápido e energético (o Modelo de Rascunho) para adivinhar as próximas frases antes mesmo do autor as ler.

No mundo da IA, isso é chamado de Decodificação Especulativa. O estagiário adivinha um parágrafo, e o autor verifica rapidamente. Se o estagiário estiver certo, o autor apenas diz "Bom trabalho!" e segue em frente, pulando o trabalho árduo de escrever essas palavras do zero. Se o estagiário estiver errado, o autor precisa parar, corrigir o erro e começar de novo.

O Pulo do Gato:
O artigo descobriu uma falha grave na forma como esses "estagiários" são treinados.

O Treinamento: Os estagiários são treinados em histórias curtas (como tweets ou e-mails curtos). Eles são ótimos em adivinhar a próxima palavra em uma frase de 200 palavras.
A Realidade: No mundo real, as pessoas pedem à IA para escrever relatórios longos, códigos ou histórias que têm milhares de palavras.

À medida que a história fica mais longa, o estagiário começa a ficar confuso. Como eles só foram treinados em frases curtas, eles perdem o "fio da meada" conforme o texto cresce. Eles começam a adivinhar palavras que não se encaixam no contexto longo.

O Resultado: O autor tem que rejeitar quase todas as adivinhações do estagiário. Em vez de economizar tempo, o processo fica mais lento porque o autor está constantemente parando para corrigir o estagiário. O artigo chama isso de "Comprimento de Aceitação" caindo para quase 1 (o que significa que o estagiário é basicamente inútil).

A Solução: "Speculation em Tempo de Teste" (TTS)

Os autores propõem uma correção inteligente chamada Speculation em Tempo de Teste (TTS). Em vez de contratar um novo estagiário para cada trabalho, eles ensinam o mesmo estagiário a se adaptar enquanto trabalha.

A Analogia: A Sessão de Treinamento ao Vivo
Imagine que o estagiário está escrevendo a história e o autor está verificando.

Antigo Jeito: O estagiário adivinha 10 palavras. O autor as verifica. Se estiverem erradas, o autor as corrige e segue em frente. O estagiário não aprende nada com o erro porque nunca é dito por que ele errou de uma forma que o ajude na próxima frase.
O Jeito TTS: Toda vez que o autor verifica o trabalho do estagiário, o autor não diz apenas "Certo" ou "Errado". O autor usa esse momento para dar ao estagiário uma mini-aula.
- O autor diz: "Você adivinhou 'gato', mas nesta história longa específica, a palavra deveria ser 'cachorro'. Aqui está a distribuição de probabilidade exata que eu usei."
- O estagiário atualiza imediatamente seu cérebro (sua matemática interna) com base nesta lição específica.
- Agora, quando o estagiário adivinhar o próximo conjunto de palavras, ele estará ligeiramente mais inteligente e melhor alinhado com o humor atual do autor e a história longa da narrativa.

Por que isso é especial?
Geralmente, você precisa parar e retreinar um modelo por dias para torná-lo melhor. O TTS faz isso instantaneamente enquanto a história está sendo escrita. Ele usa o passo de "verificação" (que o autor tem que fazer de qualquer maneira) como um sinal de treinamento gratuito. É como um aluno aprendendo um novo idioma conversando com um professor, onde o professor o corrige em tempo real, tornando-o fluente ao final da conversa.

Os Resultados: Ficar Mais Rápido Quanto Mais Longo Você Vai

O artigo testou isso em vários tipos diferentes de "autores" (modelos de IA) e "estagiários" (especuladores) em tarefas difíceis como resolver problemas de matemática, escrever código e responder perguntas de ciências.

A Melhoria: Ao usar o TTS, os "estagiários" ficaram muito melhores em adivinhar as palavras certas à medida que a história ficava mais longa.
Os Números: Em média, o sistema aceitou 41% a mais das adivinhações do estagiário. Em alguns casos, foi até 72% melhor do que os melhores métodos anteriores.
A Tendência: Quanto mais longo o texto fica, melhor o TTS funciona. Enquanto outros métodos falham após algumas milhares de palavras, o TTS na verdade fica mais preciso à medida que a geração continua, porque o estagiário continua aprendendo e se adaptando sobre a marcha.

Resumo

Pense nos métodos anteriores como contratar um corredor rápido que só é bom para uma corrida de 100 metros. Quando você pede a ele para correr uma maratona, ele desmaia.

Speculation em Tempo de Teste é como dar a esse corredor um treinador que corre ao lado dele, sussurrando correções e ajustes de estratégia a cada passo. O corredor fica menos cansado, mantém-se no caminho certo e toda a equipe termina a maratona muito mais rápido.

O artigo prova que, ao permitir que a IA "aprenda no trabalho" durante o processo de geração, podemos manter a IA rápida e eficiente, mesmo ao escrever documentos muito longos.

Resumo Técnico: Especulação em Tempo de Teste (TTS)

1. Declaração do Problema

O artigo identifica uma limitação crítica nos métodos de decodificação especulativa mais avançados atuais (como DFlash, EAGLE-3 e PARD) quando aplicados a tarefas de resposta longa. Embora a decodificação especulativa acelere a inferência de Modelos de Linguagem Grandes (LLM) ao utilizar um modelo "rascunho" rápido para gerar tokens e um modelo "alvo" mais lento para verificá-los, sua eficiência depende fortemente do comprimento de aceitação—o número de tokens consecutivos do rascunho aceitos pelo modelo alvo por rodada.

Os autores observam que os comprimentos de aceitação dos especuladores existentes degradam-se significativamente à medida que o comprimento da geração aumenta. Dentro de apenas alguns milhares de tokens de saída, os comprimentos de aceitação frequentemente caem para valores próximos de 1 (por exemplo, 1,1), eliminando efetivamente quaisquer benefícios de aceleração. Essa degradação ocorre porque os especuladores mais avançados são treinados offline em sequências curtas (tipicamente $\le$ 2K tokens), criando uma incompatibilidade de distribuição quando são forçados a aproximar o modelo alvo em sequências muito mais longas (por exemplo, 20K–32K tokens) durante a inferência. À medida que a geração prossegue, as previsões do modelo rascunho divergem da distribuição cada vez mais confiante do alvo, levando a rejeições frequentes.

2. Metodologia: Especulação em Tempo de Teste (TTS)

Para abordar essa incompatibilidade de distribuição, os autores propõem a Especulação em Tempo de Teste (TTS), uma abordagem de destilação online que adapta o modelo rascunho em tempo real durante o processo de inferência.

Insight Central

A realização fundamental é que a etapa de verificação padrão da decodificação especulativa já gera o sinal de supervisão necessário para a adaptação sem custo adicional. Em cada rodada, o modelo alvo computa sua distribuição de probabilidade completa sobre os tokens do rascunho. O TTS aproveita isso tratando:

O Modelo Alvo como o "Professor".
O Modelo Rascunho como o "Aluno".
Os Tokens do Rascunho Verificados como a amostra de treinamento de destilação.

Algoritmo

O TTS intercala a geração com atualizações do modelo. O processo para cada rodada de especulação é o seguinte:

Rascunho: O modelo rascunho atual ( $q_t$ ) gera um conjunto de $C$ tokens.
Verificação: O modelo alvo ( $p$ ) avalia o conjunto em uma única passagem forward, determinando o comprimento de aceitação ( $\tau$ ) por meio de amostragem por rejeição padrão.
Função de Perda de Destilação: Antes da próxima rodada, o modelo rascunho é atualizado usando um único passo de gradiente em uma função de perda de destilação:
$L_t(q) = \tilde{KL}(p \parallel q) + \lambda \tilde{KL}(q_t \parallel q)$
- O primeiro termo aproxima a divergência de Kullback-Leibler (KL) entre a distribuição do alvo e a nova distribuição do rascunho sobre o conjunto.
- O segundo termo é um componente de regularização que impede que o rascunho se afaste demais de seu estado anterior ( $q_t$ ).
- Pesos dependentes da posição ( $w_k$ ) são aplicados, priorizando os tokens mais antigos no conjunto.
Atualização: Os parâmetros do modelo rascunho são atualizados ( $q_{t+\tau} \leftarrow q_t - \eta \nabla L_t$ ).

Otimizações de Sistema

Para gerenciar o compromisso entre o comprimento de aceitação aprimorado e a sobrecarga de latência das atualizações de gradiente, o TTS emprega:

Atualizações com Intervalo (Strided Updates): As atualizações de gradiente são realizadas a cada $S$ rodadas em vez de a cada rodada, amortizando o custo computacional.
Pipelining Assíncrono: As atualizações são descarregadas para um fluxo CUDA dedicado que roda em paralelo com as subsequentes $S-1$ rodadas de geração, ocultando a latência do caminho crítico.

3. Contribuições Principais

Diagnóstico da Degradação: Os autores demonstram que a eficácia dos especuladores atuais degrada-se com o comprimento da geração devido a uma incompatibilidade entre a distribuição de treinamento de sequências curtas do rascunho e a distribuição de inferência de sequências longas.
Estrutura TTS: Eles propõem a Especulação em Tempo de Teste, um método de destilação online que utiliza a etapa de verificação como sinal de supervisão para adaptar o modelo rascunho no momento da inferência, não exigindo retreinamento offline.
Avaliação Abrangente: O método é avaliado em cinco modelos mais avançados (famílias Qwen-3, Qwen-3.5, Llama3.1) e oito benchmarks diversos (incluindo AIME, LiveCodeBench e GPQA), mostrando melhorias consistentes.
Integração de Sistema: Os autores implementam o TTS dentro do framework de inferência SGLang, abordando desafios de nível de sistema, como diferenciação de kernel e sincronização de grafos CUDA.

4. Resultados Experimentais

Melhoria no Comprimento de Aceitação: O TTS melhora os comprimentos médios de aceitação em até 72% e uma média de 41% sobre o DFlash, e em até 67% (média de 34%) sobre o EAGLE-3.
Escalabilidade com o Comprimento: Os benefícios do TTS escalam com o comprimento da geração. Por exemplo, no conjunto de dados AIME 2024, a melhoria sobre o DFlash cresce de 15% nos primeiros 0–10K tokens para 183% na faixa de 20–30K tokens.
Vazão (Throughput): Embora atualizações frequentes (intervalo $S=1$ ) maximizem o comprimento de aceitação, um intervalo de $S=5$ alcança a melhor aceleração de vazão (até 1,71 $\times$ sobre o DFlash) ao equilibrar a frequência de adaptação com a sobrecarga de atualização.
Generalização: O TTS é eficaz em diferentes tamanhos de modelo (4B a 122B) e arquiteturas (Dense e MoE), compensando particularmente especuladores treinados em contextos curtos (por exemplo, EAGLE-3 com contexto de 2K) quando aplicados a alvos com janelas de contexto muito maiores.

5. Significado e Alegações

O artigo afirma que o TTS aborda fundamentalmente a limitação da decodificação especulativa em cenários do mundo real de resposta longa. Ao adaptar o modelo rascunho durante o processo de geração, o TTS fecha a lacuna entre as distribuições de treinamento e inferência, garantindo que a decodificação especulativa permaneça eficaz mesmo para saídas que abrangem dezenas de milhares de tokens.

Os autores enfatizam que o TTS não requer suposições sobre a estrutura do fluxo de solicitações (diferentemente de métodos online anteriores que dependem de buffers específicos de domínio) e opera diretamente sobre especuladores existentes, públicos e mais avançados. Isso torna o TTS uma solução prática para manter alta vazão de inferência em ambientes de produção onde a geração de longo formato (por exemplo, código, raciocínio, criação de conteúdo) é dominante. O trabalho é apresentado como uma evolução necessária para manter a decodificação especulativa viável à medida que as aplicações de LLM se deslocam para janelas de contexto mais longas.

Test-Time Speculation