Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Este artigo apresenta o Cactus, um método de amostragem especulativa que acelera a decodificação de modelos de linguagem grandes ao garantir uma divergência controlada em relação à distribuição do modelo verificador, permitindo taxas de aceitação mais altas sem comprometer a qualidade da saída.

Yongchang Hao, Lili Mou

Publicado 2026-04-08
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um gênio matemático (o modelo de linguagem grande, ou "Verificador") que é incrivelmente inteligente, mas muito lento para pensar. Ele demora horas para resolver um problema porque precisa revisar cada passo com extremo cuidado.

Para acelerar as coisas, você contrata um estudante de faculdade (o "Modelo Rascunho") que é muito mais rápido, mas às vezes comete erros.

O método tradicional de "Amostragem Especulativa" funciona assim:

  1. O estudante escreve 10 frases rapidamente.
  2. O gênio lê cada frase. Se o estudante acertou, o gênio diz "Ok, vamos em frente". Se errou, o gênio joga fora tudo o que o estudante escreveu a partir daquele ponto e reescreve a frase correta do zero.
  3. O problema: O gênio é muito exigente. Mesmo que o estudante tenha escrito algo que faz sentido, mas que o gênio acha "menos provável" do que sua própria escolha, ele rejeita. Isso desperdiça tempo.

O método anterior para melhorar isso (chamado TAS) era: "Vamos aceitar mais coisas do estudante, mesmo que o gênio não esteja 100% de acordo, desde que pareça razoável."
O problema disso: O gênio às vezes guarda informações cruciais e sutis. Se você aceitar coisas "apenas porque parecem razoáveis", o estudante pode começar a alucinar ou mudar o sentido da história (como se o gênio estivesse sendo substituído por alguém menos inteligente).

A Solução: CACTUS (O "Acordador de Contratos")

A nova técnica chamada Cactus é como um mediador inteligente entre o gênio e o estudante.

Ela usa uma ideia simples, mas poderosa: "Vamos permitir que o estudante seja um pouco diferente do gênio, mas apenas até um limite seguro."

Pense no Cactus como um contrato de tolerância:

  • O gênio diz: "Eu tenho uma opinião muito forte sobre qual palavra usar (distribuição de probabilidade)."
  • O Cactus diz ao estudante: "Ok, você pode tentar usar uma palavra que o gênio acha menos provável, MAS só se a diferença entre a sua escolha e a do gênio for pequena o suficiente para não estragar o resultado final."

A Analogia da Cozinhando:
Imagine que o gênio é um Chef de Cozinha de 3 Estrelas Michelin e o estudante é um Estagiário.

  • Método Antigo: O Chef prova a sopa. Se o estagiário adicionou um pouco de sal a mais do que o Chef faria, o Chef joga a sopa fora e recomeça. (Lento).
  • Método TAS: O Chef diz: "Tudo bem, se o sal estiver num nível aceitável, a gente usa." O problema é que o estagiário pode começar a colocar sal demais e estragar o prato, porque o limite era muito solto.
  • Método CACTUS: O Chef dá ao estagiário uma régua de tolerância. "Você pode adicionar até 2 gramas a mais de sal do que eu faria. Se passar disso, eu paro. Se estiver dentro da régua, a gente aceita."
    • Isso permite que o estagiário trabalhe mais rápido (aceita mais palavras).
    • Mas garante que a sopa nunca fique com gosto estranho (a qualidade não cai).

Por que o Cactus é especial?

  1. Matemática Inteligente: O Cactus não é apenas "chutar" o limite. Ele usa uma fórmula matemática (otimização com restrição) para calcular exatamente o quanto pode "afastar" a escolha do estudante da do gênio sem causar estragos.
  2. Segurança: Ele garante que, mesmo aceitando mais palavras, a "distância" entre o que o estudante escreve e o que o gênio escreveria nunca ultrapasse um limite seguro. É como ter um freio de emergência que nunca falha.
  3. Resultados: Nos testes, o Cactus fez o gênio trabalhar mais rápido (aceitando mais frases do estagiário) sem perder a qualidade da resposta. Em alguns casos, até melhorou a precisão, porque permitiu que o estagiário trouxesse ideias boas que o gênio, por ser muito rígido, teria descartado.

Resumo em uma frase:
O Cactus é como um gerente de trânsito que deixa os carros (palavras) passarem mais rápido, mas garante que nenhum deles saia da pista (perca a qualidade), equilibrando velocidade e segurança de forma perfeita.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →