Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

O artigo apresenta o AliTok, um novo tokenizador alinhado que resolve o descompasso entre as dependências bidirecionais de imagens e a natureza unidirecional dos modelos autoregressivos, permitindo que modelos leves alcancem desempenho superior ao estado da arte na geração de imagens com amostragem significativamente mais rápida.

Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, Jian Yang, Yansong Peng, Wei Zhai, Yang Cao, Zheng-Jun Zha

Publicado 2026-02-17
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando ensinar uma criança a desenhar um quadro inteiro, mas com uma regra muito estranha: ela só pode pintar um pincelada de cada vez, da esquerda para a direita e de cima para baixo, sem nunca olhar para o que já pintou à direita ou abaixo.

Isso é basicamente como funcionam os modelos de geração de imagem por "autoregressão" (o tipo de IA que cria imagens passo a passo, como o GPT cria texto). O problema é que imagens não são como frases. Em uma frase, a palavra "gato" depende do que veio antes. Em uma imagem, a cor de um pixel no canto superior direito depende de tudo ao redor, inclusive do que está "à frente" na ordem de pintura.

Aqui está a explicação simples do que os autores do paper AliTok descobriram e criaram:

1. O Problema: A "Batalha de Direções"

Pense no processo tradicional de criar imagens com IA como tentar montar um quebra-cabeça olhando apenas para a peça anterior.

  • O Modelo (o Pintor): Só quer olhar para trás (o que já foi feito).
  • O Tokenizador (o Tradutor): É a ferramenta que transforma a imagem em "peças" (tokens) para o pintor entender. O problema é que os tradutores antigos olhavam para a imagem inteira de uma vez (para frente e para trás) para criar as peças mais eficientes.
  • O Resultado: O pintor recebe peças que foram feitas pensando em algo que ele ainda não viu. É como se o pintor recebesse instruções que dizem "pinte o céu azul" baseadas em uma nuvem que ainda não existe no papel. Isso confunde a IA, deixa o aprendizado lento e as imagens ruins.

2. A Solução: O "AliTok" (O Tradutor Alinhado)

Os autores criaram um novo tradutor chamado AliTok. A ideia genial deles foi: "Se o pintor só pode olhar para trás, vamos forçar o tradutor a criar peças que só dependem do que já foi pintado."

Eles fizeram isso com uma técnica de "treinamento duplo":

  • Passo 1: O Treinamento com "Venda nos Olhos" (Decodificador Causal)
    Eles ensinaram o tradutor a criar as peças da imagem, mas com uma regra rígida: ao criar a peça número 10, ele só podia olhar para as peças de 1 a 9. Ele não podia "trapacear" olhando para a peça 11.

    • Analogia: É como se você estivesse escrevendo um livro, mas a cada capítulo, você é obrigado a terminar o capítulo atual sem ter lido o próximo. Isso força você a escrever de forma que o próximo capítulo faça sentido baseado apenas no que já foi escrito.
  • Passo 2: O "Amortecedor" (Prefix Tokens)
    O primeiro capítulo (a primeira linha da imagem) é difícil porque não tem nada antes dele. Para resolver isso, eles adicionaram "peças de apoio" (prefix tokens) que servem como uma base inicial, garantindo que a primeira linha não fique borrada.

  • Passo 3: O Polimento Final (Decodificador Bidirecional)
    Depois que o tradutor aprendeu a criar peças "leais" à ordem de pintura, eles congelaram essa parte e treinaram um segundo tradutor (o decodificador) para apenas reconstruir a imagem com perfeição, sem se preocupar com a ordem. Isso garante que a imagem final seja nítida e bonita, mesmo tendo sido gerada passo a passo.

3. O Resultado: Velocidade e Qualidade

O resultado dessa "dança alinhada" entre o tradutor e o pintor é impressionante:

  • Qualidade: A IA consegue gerar imagens incríveis, superando até mesmo os modelos de difusão (que são os atuais campeões de qualidade, como o DALL-E 3 ou Midjourney) em testes padrão.
  • Velocidade: Como a IA não precisa de truques complexos para adivinhar o futuro, ela é 10 vezes mais rápida para gerar uma imagem.
  • Eficiência: Eles conseguiram isso com modelos muito menores (menos "cérebro" necessário) do que os concorrentes.

Resumo em uma frase

O AliTok é como ensinar um pintor a desenhar uma paisagem inteira olhando apenas para o que já está no papel, criando um "guia de instruções" (o tokenizador) que foi feito especificamente para funcionar com essa regra, resultando em imagens lindas, geradas em segundos.

É uma prova de que, às vezes, em vez de mudar o pintor para se adaptar à tela, é melhor mudar a forma como a tela é preparada para o pintor.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →