SSD: Spatially Speculative Decoding Accelerates Autoregressive Image Generation

O artigo apresenta o Spatially Speculative Decoding (SSD), um framework que aproveita as correlações espaciais 2D inerentes de imagens para prever múltiplos tokens simultaneamente, acelerando assim a geração de imagens autorregressiva em até 13,3x enquanto mantém alta fidelidade.

Autores originais: Shilong Xiang, Zirui Zhang, Lijun Yu, Chengzhi Mao

Publicado 2026-06-19
📖 4 min de leitura☕ Leitura rápida

Autores originais: Shilong Xiang, Zirui Zhang, Lijun Yu, Chengzhi Mao

Artigo original sob licença CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/). Esta é uma explicação gerada por IA do artigo abaixo. Não foi escrita nem endossada pelos autores. Para precisão técnica, consulte o artigo original. Ler aviso legal completo

Imagine que você está tentando pintar um mural enorme e de alta resolução, mas é forçado a seguir uma regra muito rígida e antiquada: você só pode pintar um único ponto de cada vez, e deve se mover em um padrão de "serpente" perfeito. Você termina a primeira linha da esquerda para a direita, depois pula para o final da segunda linha, vai para a esquerda, pula para o final da terceira, e assim por diante.

É assim que os geradores de imagem de IA atuais (chamados de "modelos autorregressivos") funcionam. Eles tratam uma imagem como uma lista longa e plana de palavras. Mesmo que uma imagem seja naturalmente uma grade 2D (cima/baixo, esquerda/direita), eles a achatam em uma linha 1D. Isso torna o processo incrivelmente lento porque a IA tem que carregar todo o seu "cérebro" (bilhões de parâmetros) apenas para decidir a cor do próximo único ponto, repetidamente. É como caminhar até o supermercado para comprar uma única maçã, depois caminhar de volta para casa, e depois caminhar até o supermercado novamente para a próxima maçã.

O Problema: A "Parede de Memória"

O artigo chama isso de "Parede de Memória" (Memory Wall). A IA passa a maior parte do tempo apenas carregando seu cérebro na memória para tomar uma decisão minúscula, em vez de realmente pensar. Como ela tem que fazer isso milhares de vezes para uma única imagem, gerar uma foto leva muito tempo.

A Solução: SSD (Decodificação Especulativa Espacial)

Os autores introduzem um novo método chamado SSD. Eles perceberam que as imagens não são, na verdade, listas 1D; elas são grades 2D. Se você sabe como um ponto se parece, você pode frequentemente adivinhar como o ponto diretamente abaixo dele se parecerá, da mesma forma que pode adivinhar o ponto à sua direita.

Aqui está como o SSD muda o jogo, usando algumas analogias:

1. A Analogia do "Jogo de Adivinhação"

  • Modo Antigo (1D): A IA adivinha o próximo ponto, verifica se está correto, então adivinha o próximo. É uma corrida de revezamento lenta, passo a passo.
  • Modo SSD (2D): A IA age como uma equipe de adivinhadores. Enquanto uma pessoa adivinha o próximo ponto à direita, outra pessoa simultaneamente adivinha o ponto diretamente abaixo. Eles não esperam a primeira adivinhação terminar para começar a segunda. Eles adivinham um bloco inteiro de pontos de uma só vez.

2. A Analogia do "Rascunho"
Pense na IA como um escritor.

  • IA Padrão: Escreve uma palavra, para, consulta um dicionário, escreve a próxima palavra.
  • SSD: Escreve uma frase inteira (ou até um parágrafo) de uma só vez como um "rascunho". Depois, ele lê rapidamente esse rascunho para ver se faz sentido. Se uma palavra estiver ligeiramente errada, ele corrige apenas essa palavra sem reescrever o parágrafo inteiro.

3. A Reviravolta do "Corretor Automático"
O artigo menciona um truque inteligente. Normalmente, se uma IA adivinha um bloco de tokens (pontos) e um deles está errado, ela descarta o bloco inteiro e começa de novo. O SSD é mais esperto. Ele trata as adivinhações "erradas" como rascunhos brutos. Ele executa uma verificação rápida (verificação) e corrige os erros específicos no lugar, sem jogar fora o bloco inteiro. É como um corretor ortográfico que corrige erros de digitação instantaneamente em vez de fazer você reescrever a página inteira.

Os Resultados: Acelerando o Mural

O artigo testou este método em três modelos de IA poderosos. Os resultados foram dramáticos:

  • Velocidade: Eles tornaram a geração de imagens até 13 vezes mais rápida.
    • Exemplo: Um modelo que levava 339 segundos (quase 6 minutos) para fazer uma imagem agora leva apenas 25 segundos.
  • Qualidade: Apesar de serem muito mais rápidos, as imagens parecem tão boas quanto as versões lentas. As "adivinhações" foram precisas o suficiente para que a imagem final não perdesse nenhum detalhe.
  • Plug-and-Play: Este método não requer a reconstrução do cérebro da IA. É como adicionar um turbocompressor a um motor de carro já existente. Você pode ligá-lo quando quiser velocidade, ou desligá-lo, e o carro funcionará exatamente como antes.

Resumo

O artigo argumenta que, ao respeitar a forma 2D natural das imagens (cima/baixo e esquerda/direita) em vez de forçá-las em uma linha 1D, podemos quebrar a "Parede de Memória". Ao adivinhar múltiplos pontos de uma vez e corrigir pequenos erros sobre a hora, o SSD transforma um processo lento, passo a passo, em um processo paralelo e rápido, tornando a geração de arte por IA de alta qualidade quase instantânea.

Afogado em artigos na sua área?

Receba digests diários dos artigos mais recentes que correspondam às suas palavras-chave de pesquisa — com resumos técnicos, no seu idioma.

Experimentar Digest →