CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Each language version is independently generated for its own context, not a direct translation.

Imagine que você quer ensinar um computador a desenhar imagens incríveis, como se ele fosse um artista. Para fazer isso, o computador precisa "ler" a imagem e transformá-la em uma sequência de instruções, como se fosse uma receita de bolo.

O problema é que a maioria dos métodos atuais para fazer isso é um pouco bagunçada. Eles pegam a imagem, cortam em pedaços e jogam tudo numa pilha sem uma ordem clara, ou então forçam uma ordem que não faz sentido natural. É como tentar ler um livro onde as páginas estão embaralhadas ou onde você precisa pular de um capítulo para outro sem lógica.

Aqui entra o CaTok, a nova solução apresentada neste artigo. Vamos explicar como ele funciona usando algumas analogias simples:

1. O Problema: A Pilha de Legos Desorganizada

As técnicas antigas de "tokenização" (transformar imagem em dados) tratavam a imagem como uma pilha de blocos de Lego soltos. Para o computador entender, ele tinha que adivinhar como montar tudo de novo.

O erro: Às vezes, eles tentavam montar tudo de uma vez (o que confunde o computador sobre o que vem antes do quê).
O outro erro: Às vezes, eles tentavam montar apenas as peças iniciais e esperavam que o resto se encaixasse magicamente, o que deixava a imagem final meio "meia-boca" ou desequilibrada.

2. A Solução: O Filme de Cinema (Causalidade)

O CaTok muda a regra do jogo. Em vez de uma pilha de peças, ele trata a imagem como um filme de cinema.

Ordem Natural: Assim como um filme tem um começo, meio e fim, o CaTok organiza a imagem em uma sequência de 1D (uma linha única) que segue uma lógica causal. O "passado" (o início da linha) influencia o "futuro" (o final da linha).
A Analogia do Rio: Imagine que a imagem é um rio. O CaTok não olha para a água parada; ele olha para a correnteza. Ele entende que a água que passa agora (o início da imagem) carrega a energia que vai formar a água lá na frente (o final da imagem).

3. A Mágica: O "Motor de Fluxo Médio" (MeanFlow)

A parte mais genial do CaTok é como ele aprende a desenhar essa imagem.

O Velho Jeito (Degraus): Métodos antigos tentavam subir uma escada degrau por degrau. Se você quisesse ir rápido (um passo só), você caía. Se quisesse ir devagar (muitos passos), demorava muito.
O Jeito CaTok (O Elevador de Fluxo): O CaTok usa algo chamado "MeanFlow". Pense nisso como um elevador inteligente que sabe exatamente a velocidade média para ir do chão (o nada) até o topo (a imagem pronta).
- Ele pode pular direto para o topo em um único passo (super rápido!).
- Ou pode fazer uma viagem mais detalhada em vários passos (super qualidade).
- O segredo é que ele aprendeu a "média" do caminho, então não precisa adivinhar cada degrau.

4. O Treinamento: O Professor Sábio (REPA-A)

Para treinar esse computador, os autores usaram uma técnica chamada REPA-A.

A Analogia: Imagine que você está aprendendo a desenhar. Você tem um caderno de rascunho (o modelo do CaTok) e um livro de arte de um mestre (um modelo de IA já treinado e muito inteligente, chamado VFM).
Em vez de tentar adivinhar sozinho, o CaTok olha para o livro do mestre e diz: "Ei, essa parte do meu desenho parece com a do mestre? Vamos ajustar para ficar mais parecido".
Isso acelera muito o aprendizado e faz com que o desenho final fique muito mais bonito e estável.

5. O Resultado: O Que Acontece na Prática?

O CaTok consegue fazer duas coisas incríveis ao mesmo tempo:

Velocidade: Ele gera imagens em um único clique (um passo), o que é um recorde de velocidade para essa qualidade.
Qualidade: Se você quiser, ele pode fazer uma versão mais detalhada em vários passos, e a imagem fica linda, com cores vivas e detalhes nítidos.

Além disso, como ele entende a "causalidade" (a ordem lógica), ele consegue criar imagens onde os conceitos visuais (como "olhos", "nariz", "fundo") estão bem separados e organizados. É como se ele tivesse aprendido a pintar o céu antes de pintar a grama, e não o contrário.

Resumo em Uma Frase

O CaTok é como um novo tipo de "tradutor" que ensina computadores a verem imagens como uma história com começo, meio e fim, permitindo que eles criem fotos incríveis em segundos, com a mesma facilidade de um humano que sabe exatamente o que está fazendo.

É um passo gigante para que a Inteligência Artificial visualize o mundo da mesma forma que nós: de forma organizada, lógica e rápida.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

O paradigma de modelos de linguagem autoregressivos (AR) tem sido extremamente bem-sucedido na geração de texto, baseando-se na previsão do próximo token em uma sequência causal. No entanto, estender essa abordagem para a geração de imagens (visão computacional) permanece um desafio significativo.

Falta de Causalidade Natural: Diferente do texto, que possui uma ordem natural de leitura, as imagens não têm uma ordem intrínseca.
Limitações dos Tokenizadores Atuais:
- Tokenizadores 2D (ex: VQGAN): Planificam patches 2D em sequências 1D (em ordem raster ou aleatória), o que quebra a causalidade entre tokens anteriores e posteriores, dificultando o aprendizado autoregressivo.
- Tokenizadores Multi-escala (ex: VAR): Garantem causalidade via previsão de escala, mas comprometem o padrão de "previsão do próximo token" puro dos LLMs.
- Autoencoders de Difusão (ex: FlowMo, Consistency Decoders):
  - Decodificadores de fluxo "ingênuos" condicionam-se a todos os tokens simultaneamente, eliminando a causalidade.
  - Decodificadores de consistência usam nested dropout (condicionando apenas nos primeiros $k$ tokens), o que introduz um desequilíbrio (bias) em direção aos tokens iniciais, prejudicando a geração autoregressiva.

2. Metodologia: CaTok

Os autores propõem o CaTok, um tokenizador de imagem causal 1D baseado em autoencoders de difusão, equipado com um decodificador MeanFlow.

Arquitetura

Encoder: Um Vision Transformer (ViT) causal que extrai informações visuais ricas e as comprime em tokens 1D, utilizando "registers" (registradores) para capturar conteúdo.
Decoder: Um Diffusion Transformer (DiT) baseado no objetivo MeanFlow.
Mecanismo de Seleção de Tokens (Causalidade e Equilíbrio):
- Em vez de usar todos os tokens ou apenas os primeiros $k$ , o CaTok seleciona tokens dentro de um intervalo de tempo amostrado $[r, t]$ .
- O decodificador é condicionado aos tokens correspondentes a esse intervalo temporal e prevê o campo de velocidade médio ( $u$ ) ao longo desse subcaminho.
- Isso permite que os tokens modelam a causalidade no processo de geração (do ruído à imagem) de forma equilibrada, evitando o viés dos tokens iniciais.

Objetivos de Treinamento

O modelo é otimizado simultaneamente com quatro objetivos:

Objetivo MeanFlow ( $L_{MF}$ ): Aprende o campo de velocidade média sobre o intervalo $[r, t]$ , permitindo amostragem de um único passo (one-step) e mantendo a causalidade.
Objetivo Rectified Flow ( $L_{RF}$ ): Aprende o campo de velocidade instantânea para estabilizar o treinamento.
REPA (Representation Alignment): Alinha as representações do decodificador com um Modelo de Fundação Visual (VFM) pré-treinado.
REPA-A (Novo): Uma técnica de regularização proposta que alinha diretamente as características do Encoder com as representações do VFM. Isso estabiliza o treinamento, acelera a convergência e garante que os tokens 1D capturem conteúdo visual mais discriminativo e informativo.

Geração Autoregressiva

Após o treinamento, o encoder é congelado para extrair tokens 1D. Um modelo AR padrão (como LlamaGen) é treinado para prever a sequência de tokens. Durante a inferência, o modelo AR gera os tokens, que são então condicionados ao decodificador MeanFlow para realizar a reconstrução da imagem, suportando tanto amostragem rápida de um passo quanto amostragem multi-passo de alta fidelidade.

3. Principais Contribuições

Arquitetura Inovadora: Propõe a primeira arquitetura de tokenização causal 1D baseada em autoencoders de difusão com objetivo MeanFlow, unindo a eficiência da amostragem de um passo com a causalidade necessária para AR.
Solução para Desequilíbrio: Resolve o problema de desequilíbrio em decodificadores de consistência ao selecionar tokens em intervalos de tempo $[r, t]$ em vez de prefixos fixos, mantendo a causalidade sem prejudicar tokens tardios.
REPA-A: Introduz uma nova técnica de regularização que alinha o encoder com VFMs, acelerando e estabilizando o treinamento de autoencoders condicionais.
Flexibilidade: O modelo suporta nativamente tanto a geração rápida (1 passo) quanto a geração de alta qualidade (25 passos), além de demonstrar uma tendência clara de "fino para grosso" (fine-to-coarse) ao reduzir o número de tokens.

4. Resultados Experimentais

Os experimentos foram conduzidos no conjunto de dados ImageNet-1K (256x256).

Reconstrução (ImageNet):
- O CaTok-L-256 alcançou resultados state-of-the-art (SOTA) entre tokenizadores de difusão, com 0.75 rFID, 22.53 PSNR e 0.674 SSIM.
- Superou significativamente o Semanticist-L-256 em eficiência, atingindo resultados comparáveis com menos da metade das épocas de treinamento (160 vs 400+).
- O modelo de tamanho menor (CaTok-B-256) atingiu resultados competitivos em apenas 80 épocas.
Geração Autoregressiva:
- O modelo AR acoplado ao CaTok-L-128 alcançou um gFID de 2.95, desempenho comparável às melhores abordagens atuais (como Semanticist e VAR), demonstrando que os tokens aprendidos são altamente adequados para modelagem autoregressiva.
Análises de Ablação:
- Confirmou-se que a seleção de tokens no intervalo $[r, t]$ é crucial para o desempenho AR, superando a seleção de "todos os tokens" ou "primeiros $k$ tokens".
- A adição de REPA-A melhorou significativamente a qualidade das características do encoder e estabilizou a curva de perda durante a introdução do objetivo MeanFlow.

5. Significado e Impacto

O CaTok representa um passo importante para unificar os paradigmas de linguagem e visão. Ao criar tokens 1D que são verdadeiramente causais e equilibrados, o trabalho permite que modelos de visão aproveitem a escalabilidade e a generalização dos modelos autoregressivos (como os LLMs), superando as limitações dos métodos baseados em difusão pura ou tokenização 2D.

A capacidade de realizar amostragem de um único passo sem sacrificar a qualidade, combinada com a eficiência no treinamento, torna o CaTok uma solução prática e robusta para a próxima geração de modelos generativos de imagem, facilitando a transição de modelos de difusão para arquiteturas puramente autoregressivas.