Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

O artigo apresenta o agendador Longest Stable Prefix (LSP), uma abordagem de inferência sem treinamento que acelera a geração de texto em Modelos de Linguagem de Difusão (DLMs) em até 3,4 vezes ao substituir a aceitação fragmentada por uma absorção monolítica de prefixos, otimizando assim o uso da cache KV e melhorando a eficiência de hardware sem comprometer a qualidade do texto.

Pengxiang Li, Joey Tsai, Hongwei Xue, Kunyu Shi, Shilin Yan

Publicado 2026-03-06
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando escrever um livro inteiro, mas em vez de escrever uma palavra de cada vez (como fazemos normalmente), você tenta adivinhar todas as palavras do livro de uma só vez, mas com "rascunhos" e "borrões". É assim que funcionam os Modelos de Difusão de Linguagem (DLMs). Eles são incríveis porque podem pensar em várias partes do texto ao mesmo tempo, o que teoricamente deveria ser super rápido.

Mas, na prática, eles estão lentos. Por quê?

O Problema: "Aceitação Espalhada" (O Quebra-Cabeça Desmontado)

Imagine que você está montando um quebra-cabeça gigante. O método antigo (chamado de "aceitação espalhada") funcionava assim:

  1. Você olha para a mesa cheia de peças.
  2. Você pega uma peça aqui que parece certa, coloca no lugar.
  3. Olha lá em outro canto, pega outra peça, coloca.
  4. Pega mais uma peça no meio do caminho.

O resultado? Você tem várias peças fixas, mas elas estão espalhadas pela mesa, com buracos entre elas.

  • O caos mental: A cada nova tentativa de preencher os buracos, você precisa olhar para todas as peças espalhadas de novo para ver se elas ainda fazem sentido juntas.
  • O caos na memória: Para o computador, isso é como tentar ler um livro onde as páginas foram rasgadas e espalhadas pelo chão. Ele não consegue ler de forma fluida; tem que pular de um lugar para o outro, gastando muita energia e tempo.

Isso faz com que o modelo fique "consertando" as bordas entre as peças espalhadas o tempo todo, em vez de avançar.


A Solução: O "Prefixo Estável Mais Longo" (LSP)

Os autores deste paper criaram uma nova estratégia chamada LSP. Vamos usar uma analogia de construir uma estrada.

Em vez de colocar pedras soltas aqui e ali, o LSP diz:

"Vamos olhar para a frente. Onde a estrada está mais firme e segura? Vamos construir um bloco contínuo de asfalto desde o início até onde a confiança for alta."

Como funciona o LSP (Passo a Passo):

  1. Olhar para o Futuro (Bidirecional): O modelo olha para todo o texto que ainda precisa ser escrito. Ele não está "cegado" pelo que já escreveu; ele vê o todo.
  2. Medir a Confiança: Ele pergunta: "Quão seguro estou sobre as próximas palavras?"
  3. O Bloco Monolítico: Se ele está 90% seguro sobre as próximas 10 palavras, ele não as coloca uma por uma. Ele as coloca todas juntas, como um único bloco de concreto.
  4. O Truque do "Ponto de Parada" (Snapping): Aqui está a mágica. Se o modelo está seguro até a palavra "cachorro", mas a frase termina em "cachorro e gato", o LSP não para no meio da frase. Ele espera até o ponto final ou uma vírgula. Ele "gruda" a borda do bloco em um ponto natural da linguagem (como um ponto final).
    • Analogia: É como se você estivesse empurrando um trem. Em vez de empurrar vagões soltos, você empurra um trem inteiro até a próxima estação segura.

Por que isso é tão rápido?

  1. Memória Organizada (O Cache KV): Como o modelo escreve blocos contínuos (da esquerda para a direita), ele pode guardar a memória do computador de forma organizada, como uma fila de carros em uma estrada. Não precisa pular de um lugar para o outro. Isso é muito mais rápido para o hardware.
  2. Menos Consertos: Como o bloco é grande e termina em um ponto lógico (fim de frase), o modelo não precisa voltar atrás e corrigir o que já escreveu. Ele avança.
  3. Menos Passos: Em vez de precisar de 100 tentativas para escrever uma frase, o LSP pode fazer isso em 30, porque cada "tentativa" escreve um pedaço grande e seguro.

Os Resultados na Prática

Os autores testaram isso em modelos que escrevem código, resolvem matemática e criam histórias.

  • Velocidade: O sistema ficou até 3,4 vezes mais rápido.
  • Qualidade: O texto ficou tão bom quanto (ou até um pouco melhor), porque o modelo não comete erros bobos ao tentar adivinhar palavras soltas no meio do caminho.

Resumo em uma frase

O LSP transformou a maneira de escrever de "colocar pedras soltas e tentar encaixá-las depois" para "construir blocos sólidos e contínuos até chegar em um ponto seguro", economizando tempo, energia e evitando confusão.

É como a diferença entre tentar montar um quebra-cabeça pegando peças aleatórias da caixa versus montar linha por linha, de forma organizada, garantindo que cada fileira fique perfeita antes de passar para a próxima.