Latent Denoising Makes Good Tokenizers

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um artista (uma Inteligência Artificial) a pintar quadros incríveis. Para fazer isso, você não pode entregar a ele a foto original inteira de uma vez; seria demais informação. Então, você precisa primeiro transformar a foto em um "resumo" ou um "esboço" compacto. É aqui que entra o Tokenizador.

O tokenizador é como um tradutor que pega uma imagem complexa e a transforma em uma lista de códigos simples que o artista consegue entender.

O Problema: O Tradutor "Perfeito" vs. O Tradutor "Robusto"

Até agora, os tradutores (tokenizadores) eram treinados para fazer uma única coisa: copiar a foto original perfeitamente. Eles eram treinados para olhar a foto e dizer: "Ok, este é o código exato para esta cor, este é o código exato para esta forma".

O problema é que os artistas modernos (os modelos de geração de imagem) não funcionam apenas copiando. Eles funcionam como detetives que limpam sujeira.

Se você tem um modelo de difusão, ele começa com uma imagem cheia de "ruído" (como uma TV com estática) e aprende a remover essa sujeira até ver a imagem clara.
Se você tem um modelo autoregressivo, ele vê partes da imagem escondidas (como um quebra-cabeça com peças faltando) e aprende a adivinhar o resto.

O artigo diz: "Por que estamos treinando o tradutor para apenas copiar a foto limpa, se o artista vai ter que limpar sujeira ou adivinhar partes faltantes?"

Se o tradutor só sabe lidar com imagens perfeitas, quando o artista recebe um código um pouco "sujo" ou incompleto, ele se confunde e o quadro sai ruim.

A Solução: O "Treinamento de Sobrevivência" (l-DeTok)

Os autores do paper criaram um novo tipo de tradutor chamado l-DeTok. A ideia genial é simples: treine o tradutor para ser resiliente.

Em vez de apenas mostrar a foto limpa, eles treinam o tradutor da seguinte maneira:

Pegam a foto.
Estragam o resumo: Eles misturam o código da imagem com "ruído" (como se jogassem areia no papel) ou escondem partes dele (como se rasgassem pedaços do papel).
Desafiam o tradutor: Eles pedem para o tradutor reconstruir a imagem original mesmo tendo recebido um código estragado.

A Analogia do Treinamento de Sobrevivência:
Imagine que você está treinando um marinheiro.

O método antigo: Você treina o marinheiro apenas em dias de sol, com mar calmo. Ele aprende a navegar perfeitamente nessas condições.
O método novo (l-DeTok): Você treina o marinheiro em tempestades, com ondas gigantes e neblina. Você o força a manter o barco no curso mesmo quando tudo está bagunçado.

Quando esse marinheiro treinado na tempestade finalmente vai para o mar calmo (ou para uma tempestade real), ele é muito mais capaz de navegar do que aquele treinado apenas no sol.

Por que isso funciona tão bem?

O artigo descobriu que, ao treinar o tradutor para lidar com "sujeira" (ruído) e "partes faltantes" (máscaras), ele cria códigos internos (latentes) que são mais fortes e mais fáceis de recuperar.

Quando o artista (o modelo de geração) recebe esses códigos, ele não precisa se esforçar tanto para "limpar" a mensagem. O caminho já está preparado para a tarefa de "desruído" (remover sujeira).

Os Resultados: O Tradutor que Funciona para Todos

O paper testou essa ideia em vários tipos de artistas (modelos de IA) e descobriu coisas incríveis:

Melhoria Universal: Funciona tanto para modelos que pintam de uma vez só (não-autoregressivos) quanto para os que pintam bloco por bloco (autoregressivos).
Sem "Cola" Externa: Muitos métodos anteriores tentavam melhorar os tradutores usando "cola" de outros modelos gigantes e caros (chamados de distilação de semântica). O l-DeTok não precisa disso. Ele aprende sozinho, apenas entendendo que precisa ser robusto.
Qualidade Superior: Os quadros gerados ficaram muito mais nítidos, com menos erros e mais detalhes, superando os melhores métodos atuais.

Resumo em uma Frase

O papel nos ensina que, para criar uma IA que gera imagens incríveis, não devemos treinar o tradutor para ser um fotógrafo perfeito, mas sim um detetive resiliente, capaz de reconstruir a verdade mesmo quando as informações chegam bagunçadas. Isso alinha perfeitamente o tradutor com a missão real do artista, resultando em obras de arte digitais muito melhores.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os modelos generativos visuais modernos (como Diffusion Models e modelos Autoregressivos) dependem fundamentalmente de tokenizadores para comprimir imagens em representações latentes compactas. Tradicionalmente, esses tokenizadores são treinados como Autoencoders Variacionais (VAEs) padrão, otimizando principalmente a reconstrução de pixels (reconstruir a imagem original a partir do latente com o mínimo de erro).

O artigo identifica uma lacuna crítica: não está claro quais propriedades tornam um tokenizador eficaz especificamente para a geração. A maioria dos tokenizadores atuais não é alinhada com o objetivo de treinamento dos modelos generativos downstream. Modelos como Diffusion e Autoregressivos aprendem a reconstruir sinais limpos a partir de entradas corrompidas (ruído ou máscaras). No entanto, os tokenizadores atuais são treinados para reconstruir imagens a partir de latentes "limpos", criando um desalinhamento entre a representação aprendida e a tarefa de geração.

2. Metodologia: l-DeTok

Os autores propõem o l-DeTok (Latent Denoising Tokenizer), um tokenizador treinado explicitamente para ser robusto à corrupção, alinhando-se ao objetivo de "denoising" (remoção de ruído) dos modelos generativos downstream.

Princípio Central

Em vez de treinar o decodificador apenas para reconstruir imagens a partir de latentes perfeitos, o l-DeTok é treinado para reconstruir imagens a partir de representações latentes altamente corrompidas. Isso força o encoder a produzir embeddings latentes que são inerentemente robustos e fáceis de recuperar, facilitando a tarefa do modelo generativo.

Mecanismos de "Desconstrução" (Deconstruction)

O treinamento do l-DeTok introduz dois tipos de ruído nos latentes antes da reconstrução:

Ruído Interpolativo Latente: Diferente do ruído aditivo tradicional ( $x' = x + \epsilon$ $x^{'} = x + ϵ$ ), o l-DeTok usa interpolação: $x' = (1-\tau)x + \tau\epsilon$ $x^{'} = (1 - τ) x + τ ϵ$ .
- Isso garante que, mesmo com altos níveis de ruído ( $\tau \approx 1$ ), o latente seja totalmente corrompido, evitando "atalhos" onde o sinal original ainda domina.
- O nível de ruído $\tau$ é amostrado aleatoriamente (ex: distribuição uniforme ou logit-normal) para garantir robustez em diversos níveis de corrupção.
Mascaramento Aleatório (Random Masking): Inspirado em MAEs (Masked Autoencoders), uma fração aleatória dos patches de imagem é mascarada antes do encoder, e o decodificador deve reconstruir a imagem completa usando tokens [MASK] nos locais ocultos.

Arquitetura e Treinamento

Arquitetura: Baseada em Vision Transformers (ViT) para encoder e decoder.
Objetivo de Perda: Combina erro quadrático médio (MSE) em pixels, regularização KL no espaço latente, perdas perceptuais (VGG/ConvNeXt) e um objetivo adversarial (GAN).
Inferência: Durante o uso em modelos generativos, o ruído e o mascaramento são desativados; o encoder produz latentes limpos que são então processados pelo modelo generativo.

3. Contribuições Chave

Alinhamento de Objetivo: Demonstra que alinhar o treinamento do tokenizador com o objetivo de denoising dos modelos generativos é um princípio de design fundamental e eficaz.
Generalização Universal: O l-DeTok melhora consistentemente a qualidade de geração em seis modelos representativos, cobrindo tanto modelos não-autoregressivos (DiT, SiT, LightningDiT) quanto autoregressivos (MAR, RandomAR, RasterAR).
Independência de Distilação Semântica: Ao contrário de abordagens recentes que dependem de distilar conhecimento de modelos de visão pré-treinados massivos (como DINOv2 ou CLIP), o l-DeTok aprende bons tokenizadores de forma autônoma, sem depender de "professores" externos. Isso é crucial para domínios onde tais encoders não existem (vídeo, áudio, 3D).
Descoberta de Limitações de Transferência: O trabalho revela que melhorias em tokenizadores para um paradigma (ex: Diffusion) não necessariamente se transferem para outro (ex: Autoregressivo), e o l-DeTok preenche essa lacuna.

4. Resultados Experimentais

Os experimentos foram realizados principalmente no ImageNet (256x256 e 512x512) e MSCOCO (geração texto-para-imagem).

Desempenho em ImageNet (MAR):
- Para o modelo MAR-B, o FID melhorou de 2.31 (com tokenizador padrão) para 1.55 (com l-DeTok), igualando o desempenho de versões "Huge" do MAR que usavam distilação semântica.
- Para o MAR-L, o FID caiu de 1.78 para 1.35.
Desempenho em Modelos Não-Autoregressivos:
- O l-DeTok superou tokenizadores padrão (SD-VAE) e competiu ou superou tokenizadores com distilação semântica (VA-VAE, MAETok) em modelos como SiT e DiT.
Robustez Arquitetural:
- Funciona bem em tokenizadores baseados em CNN e Transformers.
- Funciona em tokenizadores 1D e quantizados vetorialmente (VQ).
Geração Texto-para-Imagem (COCO):
- Reduziu significativamente o FID (melhorando a diversidade) e aumentou a pontuação CLIP (melhorando o alinhamento texto-imagem).
- Qualitativamente: Eliminou artefatos de "manchas" (spot artifacts) comuns em outros tokenizadores sob condições de geração condicional por texto.

5. Significado e Impacto

O trabalho propõe uma mudança de paradigma simples, mas poderosa: a qualidade de um tokenizador para geração não deve ser medida apenas pela fidelidade da reconstrução de pixels, mas pela sua capacidade de manter informações recuperáveis sob forte corrupção.

Simplicidade e Escalabilidade: O método adiciona quase nenhuma complexidade ao sistema, apenas alterando o objetivo de treinamento do tokenizador.
Futuro: Sugere que o futuro do design de tokenizadores deve focar em objetivos alinhados à tarefa (task-aligned) em vez de apenas reconstrução ou distilação de grandes modelos. Isso é particularmente relevante para a escalabilidade em grandes datasets e domínios multimodais onde encoders pré-treinados robustos podem não estar disponíveis.
Conclusão: O l-DeTok estabelece que o "denoising" é um princípio unificador para o desenvolvimento de representações latentes eficazes em modelos generativos modernos.