LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

O artigo propõe as "LK losses", um novo objetivo de treinamento que otimiza diretamente a taxa de aceitação em decodificação especulativa, superando as limitações da minimização de divergência KL e aumentando significativamente o comprimento médio de aceitação em diversos modelos e domínios.

Alexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev

Publicado 2026-03-02
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está dirigindo um carro de Fórmula 1 (o Modelo Grande, que é muito inteligente, mas lento porque é pesado e consome muita energia). O seu objetivo é chegar ao destino o mais rápido possível.

No mundo da Inteligência Artificial, esse carro lento é o modelo que gera texto. O problema é que ele precisa pensar em cada palavra uma por uma, como se fosse um motorista que só olha para a estrada a cada metro. Isso gasta muito tempo e combustível (memória do computador).

O Problema: O "Adivinhador" Imperfeito

Para resolver isso, os cientistas criaram uma técnica chamada Decodificação Especulativa. A ideia é simples:

  1. Você contrata um Ajudante (um modelo pequeno e rápido, como um carro de kart).
  2. O Ajudante tenta adivinhar as próximas 5 palavras que o carro de Fórmula 1 dirá.
  3. O carro de Fórmula 1 olha rapidamente para as previsões do Ajudante e diz: "Sim, isso está certo!" ou "Não, isso está errado".
  4. Se estiver certo, o carro de Fórmula 1 pula direto para a próxima parte, economizando tempo. Se estiver errado, ele corrige e o processo recomeça.

O segredo da velocidade aqui é a Taxa de Aceitação: quantas vezes o carro de Fórmula 1 diz "Sim, está certo!" para as previsões do Ajudante. Quanto mais "Sim", mais rápido o sistema funciona.

O Erro Antigo: Tentar ser um "Espelho Perfeito"

Até agora, os cientistas treinavam o Ajudante tentando fazê-lo ser um espelho perfeito do carro de Fórmula 1. Eles usavam uma régua matemática chamada "Divergência KL" para medir o quanto a previsão do Ajudante se parecia com a do carro grande.

O problema: O Ajudante é pequeno e limitado (como um kart). Ele nunca conseguirá ser um espelho perfeito de um carro de Fórmula 1.

  • Ao tentar ser um "espelho perfeito", o Ajudante acaba focando em detalhes que não importam para a velocidade.
  • Ele pode tentar adivinhar a palavra exata, mas errar a probabilidade de ser aceito.
  • É como treinar um corredor para correr exatamente igual a um atleta olímpico. Como o corredor comum não tem a mesma estrutura muscular, ele acaba correndo de um jeito que não é nem o mais rápido, nem o mais eficiente.

A Solução: O "Treino Direto" (LK Losses)

Os autores deste artigo propuseram uma nova forma de treinar o Ajudante, chamada LK Losses.

Em vez de dizer: "Tente parecer exatamente igual ao carro grande", eles dizem: "Tente apenas ser aceito pelo carro grande o máximo de vezes possível".

É como mudar o treino do corredor:

  • Antigo: "Corra com a mesma postura e estilo do olímpico." (Foco na semelhança).
  • Novo (LK): "Corra de qualquer jeito, desde que você consiga passar pela porta de saída sem ser barrado." (Foco no resultado final).

Como Funciona a Mágica?

O artigo descreve duas estratégias inteligentes para esse novo treino:

  1. O Treino Híbrido (O "Caminho Seguro"):
    No começo, o Ajudante é muito ruim e está longe do carro grande. Se tentarmos focar só em ser aceito, ele fica confuso e não aprende nada.

    • A analogia: Imagine um professor ensinando um aluno. No início, o professor dá instruções gerais e claras (o treino antigo) para o aluno entender o básico.
    • Conforme o aluno melhora, o professor muda o foco: "Esqueça a postura perfeita, agora foque apenas em cruzar a linha de chegada!" (o treino novo).
    • O método LK faz isso automaticamente: começa com o treino antigo e, aos poucos, muda para o treino direto de aceitação.
  2. O Treino de Probabilidade (O "Chute Certo"):
    Existe outra forma de pensar: em vez de tentar adivinhar a palavra exata, o Ajudante aprende a calcular a chance de ser aceito. É como um jogador de futebol que não tenta chutar no canto exato do gol, mas sim chuta onde o goleiro tem mais chance de errar. Isso maximiza a chance de o gol ser marcado (aceito).

Por que isso é importante?

Os autores testaram essa ideia em vários cenários (desde modelos pequenos até gigantes de 685 bilhões de parâmetros) e descobriram:

  • Mais Velocidade: O sistema aceita mais previsões do Ajudante. Em alguns casos, a velocidade aumentou em 8% a 10%.
  • Funciona para Todos: Funciona bem tanto para modelos pequenos quanto para os gigantes.
  • Fácil de Usar: Não precisa de computadores mais potentes para treinar. É apenas uma mudança na "receita" de como o modelo aprende.

Resumo em uma frase

Em vez de treinar o "ajudante" para ser uma cópia perfeita (e impossível) do "mestre", o método LK treina o ajudante especificamente para ser aceito pelo mestre, resultando em uma IA muito mais rápida e eficiente.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →