Revisiting Autoregressive Models for Generative Image Classification

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está tentando adivinhar qual é o objeto em uma foto. Existem duas formas principais de fazer isso no mundo da Inteligência Artificial:

O "Detetive Discriminativo" (Modelos Clássicos): Ele olha para a foto e diz: "Isso é um gato porque tem bigodes e orelhas pontudas". Ele foca apenas nas características que diferenciam um gato de um cachorro.
O "Artista Generativo" (Modelos de Geração): Em vez de apenas olhar, ele tenta desenhar a foto do zero, pixel por pixel, imaginando como seria um "gato". Se ele consegue desenhar um gato muito bem, ele conclui que a foto original é, de fato, um gato.

Por muito tempo, os "Artistas" (modelos generativos) eram vistos como ótimos para criar imagens bonitas, mas ruins para classificar coisas. Além disso, eles eram lentos.

O Problema: A "Receita de Bolo" Fixa

Os autores deste artigo olharam para um tipo específico de artista generativo chamado Modelo Autoregressivo (AR). Pense nele como alguém escrevendo uma história ou desenhando uma imagem palavra por palavra (ou pixel por pixel), seguindo uma ordem rígida.

O problema é que a maioria desses modelos segue uma ordem fixa, como se estivessem lendo um livro da esquerda para a direita e de cima para baixo (como nós lemos).

A Metáfora: Imagine que você está tentando adivinhar o que é um objeto olhando apenas para a parte de trás dele, porque foi a primeira coisa que você viu. Se o objeto for um "carro conversível", você pode pensar que é um "barco" se só olhar a parte de trás primeiro. A ordem em que você vê as partes da imagem muda o que você acha que é o todo.

O artigo mostra que, se o modelo for forçado a seguir sempre a mesma ordem (da esquerda para a direita), ele fica "viciado" em ver apenas certas partes da imagem primeiro, o que o torna menos inteligente e mais propenso a erros.

A Solução: O "Comitê de Especialistas"

Os pesquisadores tiveram uma ideia brilhante: E se o modelo pudesse olhar para a imagem em ordens diferentes?

Em vez de apenas ler a imagem da esquerda para a direita, eles pediram para o modelo:

Ler de cima para baixo.
Ler em ordem aleatória (começando pelo meio, depois pelos cantos).
Ler de trás para frente.

A Analogia do Jogo de Detetive:
Imagine que você tem um quebra-cabeça de 256 peças.

O modelo antigo tentava montar o quebra-cabeça sempre começando pela peça do canto superior esquerdo. Se essa peça fosse enganosa, ele errava o resto.
O novo modelo (proposto no artigo) pega 20 pessoas diferentes. Cada uma começa a montar o quebra-cabeça de um lugar diferente e em uma ordem diferente. No final, eles juntam suas conclusões.

Ao fazer isso, o modelo não depende de apenas uma "pista" (uma parte da imagem). Ele vê a imagem inteira de vários ângulos e combina todas essas visões para tomar uma decisão mais segura. Isso é chamado de marginalização de ordem.

Por que isso é incrível?

Mais Preciso: Ao ver a imagem de várias formas, o modelo entende melhor o contexto. Ele não se confunde com truques visuais.
Muito Mais Rápido: Os modelos concorrentes (chamados de "Modelos de Difusão", que funcionam como um desfoque que vai ficando nítido) precisam fazer o mesmo processo de "desenhar" a imagem centenas de vezes para chegar a uma resposta. O novo modelo AR consegue fazer isso em uma única passada (ou poucas), sendo até 25 vezes mais rápido.
Concorrendo com os Melhores: Antes, os modelos generativos eram inferiores aos modelos discriminativos (os "detetives" clássicos) em tarefas de classificação. Agora, com essa técnica de "olhar em várias ordens", eles não só empatam, mas em muitos casos, superam os melhores modelos de aprendizado não supervisionado do mundo (como o DINOv2), especialmente em imagens estranhas ou distorcidas.

Resumo em uma frase

Os autores pegaram um modelo de IA que desenha imagens, perceberam que ele era "teimoso" por seguir sempre a mesma ordem de leitura, e ensinaram ele a olhar para as imagens de várias formas aleatórias ao mesmo tempo. O resultado? Um classificador de imagens que é mais inteligente, mais rápido e mais robusto do que os melhores concorrentes atuais.

É como se, em vez de ler um livro apenas uma vez da capa até a última página, você lesse o mesmo livro começando pelo meio, depois pelo final, e depois aleatoriamente, para entender a história com muito mais profundidade.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Motivação

O artigo aborda o uso de Modelos Generativos (GMs) para tarefas de classificação de imagens. Embora modelos discriminativos (como ViTs e DINOv2) sejam o padrão-ouro, os GMs (especificamente modelos de Difusão e Autoregressivos) têm ganhado destaque por sua robustez e capacidade de evitar "atalhos" (shortcut solutions) e viés de textura, focando mais em formas e estruturas.

No entanto, os modelos de difusão (DMs) superaram os modelos autoregressivos (AR) na classificação generativa, principalmente devido à sua capacidade de capturar melhor a estrutura hierárquica das imagens. O trabalho identifica uma limitação crítica nos modelos AR anteriores: a dependência de uma ordem fixa de tokens (geralmente raster, da esquerda para a direita e de cima para baixo). Essa ordem fixa impõe um viés indutivo restritivo, fazendo com que o modelo dependa excessivamente de pistas discriminativas parciais, resultando em classificações que variam drasticamente dependendo da ordem de geração.

2. Metodologia

Os autores propõem uma nova abordagem para classificadores generativos baseada em Modelos Autoregressivos de Qualquer Ordem (Any-Order AR), especificamente utilizando o modelo RandAR. A metodologia central consiste em:

Marginalização de Ordem (Order-Marginalization): Em vez de confiar em uma única ordem de tokens, o método estima a verossimilhança marginal da classe $p(x|c)$ integrando (marginalizando) sobre múltiplas permutações aleatórias da ordem dos tokens.
Estimativa de Limite Inferior: Para calcular a probabilidade de uma imagem pertencer a uma classe, o modelo gera a imagem sob $K$ ordens de tokens diferentes. A probabilidade final é estimada utilizando o limite inferior de Jensen sobre o logaritmo da verossimilhança:
$\log p(x|c) \geq \mathbb{E}_{\pi} [\log p(x|\pi, c)] \approx \frac{1}{K} \sum_{k=1}^{K} \log p(x|\pi_k, c)$
Onde $\pi$ representa uma permutação aleatória da ordem dos tokens.
Eficiência Computacional: Diferente dos modelos de difusão, que exigem centenas de passadas (NFEs) para estimar uma única verossimilhança, os modelos AR podem calcular a verossimilhança condicional em uma única passada. Mesmo com a margem sobre $K$ ordens (ex: $K=20$ ), o método permanece significativamente mais eficiente que os classificadores baseados em difusão.
Aumento de Ruído (Noise Augmentation): Para melhorar a robustez, os autores aplicam uma técnica de aumento de dados no espaço latente do VQ-VAE (tokenizador), corrompendo levemente os tokens antes da quantização, tornando o modelo mais invariante a pequenas perturbações.

3. Principais Contribuições

Identificação do Viés de Ordem: Demonstração empírica de que a ordem dos tokens afeta drasticamente a classificação em modelos AR e que a média sobre múltiplas ordens fornece um sinal mais discriminativo e abrangente.
Classificador Generativo Baseado em AR Marginalizado: Proposição de um framework que utiliza modelos any-order (RandAR) para estimar a verossimilhança marginalizada, superando as limitações de modelos AR de ordem fixa.
Eficiência Superior: O método alcança desempenho superior aos classificadores baseados em difusão com até 25x mais eficiência em tempo de inferência.
Competitividade com Modelos Discriminativos SOTA: Pela primeira vez, um classificador generativo (sem ajuste fino discriminativo) compete diretamente com modelos de aprendizado auto-supervisionado (SSL) de última geração, como o DINOv2, em benchmarks de distribuição fora do domínio (OOD).

4. Resultados Experimentais

Os experimentos foram conduzidos no ImageNet-1K e em vários benchmarks de distribuição fora do domínio (ImageNet-R, ImageNet-Sketch, ImageNet-A, ImageNet-C).

Desempenho no ImageNet: O modelo RandAR (XL/16) com marginalização de ordem ( $K=20$ ) atingiu 81.3% de acurácia no ImageNet-Val, superando significativamente modelos AR anteriores (LlamaGen, VAR) e classificadores baseados em difusão (DiT, SiT).
Robustez (OOD): O método demonstrou superioridade consistente em benchmarks OOD. Por exemplo, no ImageNet-Sketch, alcançou 45.9% de acurácia, superando o DiT (36.7%) e o SiT (22.3%).
Comparação com DINOv2: O RandAR-XL superou o DINOv2 (o modelo discriminativo SOTA) em 3 dos 5 benchmarks OOD (IN-R, IN-S, IN-C Gauss) e foi competitivo nos demais, fechando a lacuna de desempenho entre classificadores generativos e discriminativos.
Eficiência: A inferência do RandAR é até 25 vezes mais rápida que a dos classificadores baseados em difusão para atingir níveis comparáveis ou superiores de acurácia.
Análise de Tokens: A análise mostrou que a marginalização de ordem permite que o modelo capture informações contextuais de múltiplas regiões da imagem, tornando os tokens centrais e de prefixo mais discriminativos.

5. Significado e Impacto

Este trabalho reabilita os modelos autoregressivos como uma alternativa viável e superior aos modelos de difusão para classificação generativa. Ao demonstrar que a marginalização de ordem é a chave para desbloquear o potencial dos modelos AR, os autores mostram que é possível obter a robustez e a qualidade de representação dos modelos generativos com uma eficiência computacional muito maior.

O resultado é um novo estado da arte em classificação generativa, que não apenas compete, mas em muitos aspectos supera os melhores modelos discriminativos supervisionados e auto-supervisionados, sugerindo que a abordagem generativa pura é uma direção promissora para a compreensão visual robusta, especialmente em cenários com mudanças de distribuição. O código e os modelos foram disponibilizados publicamente, facilitando a reprodução e o avanço futuro nesta área.