Revisiting Autoregressive Models for Generative Image Classification

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover riconoscere un oggetto in una foto, come un "granchio roccioso" o una "macchina sportiva". Fino a poco tempo fa, i computer facevano questo in due modi principali:

Il Metodo "Discriminativo" (come un detective): Guardano la foto e cercano subito i dettagli specifici (le ruote, le pinze) per dire "È una macchina!". È veloce, ma a volte si fida troppo di scorciatoie (es. "se c'è sabbia, è una spiaggia").
Il Metodo "Generativo" (come un pittore): Il computer prova a disegnare l'immagine partendo dal nulla, chiedendosi: "Se dovessi disegnare un granchio, come verrebbe?". Se il disegno finale assomiglia molto alla foto originale, allora la foto è probabilmente un granchio.

Fino a oggi, i "pittori" (chiamati Modelli Diffusione) erano i migliori, ma erano lenti come chi dipinge un quadro a olio: ci vogliono centinaia di passaggi per finire l'opera. I vecchi "pittori" basati su sequenze (chiamati Modelli Autoregressivi o AR) erano più veloci, ma tendevano a fare errori perché dipingevano l'immagine in un ordine fisso e rigido, come se dovessero leggere un libro da sinistra a destra, riga per riga, senza mai saltare una parola.

La Scoperta: "Non esiste un solo modo di leggere"

Gli autori di questo studio hanno notato una cosa curiosa (vedi la Figura 1 del paper): se chiedi a un modello AR di guardare un'immagine seguendo un ordine fisso (es. dall'alto in basso), potrebbe riconoscere un "sesto" (binocolo) perché vede prima le lenti. Ma se lo costringi a guardare l'immagine partendo dal basso o dal centro, potrebbe confondersi e pensare che sia un "tripode".

È come se tu dovessi riconoscere un amico guardando solo i suoi piedi. Se vedi solo le scarpe, pensi sia lui. Se guardi il viso, sei sicuro. Ma se guardi solo i piedi in un modo sbagliato, potresti sbagliare.

La Soluzione: Il "Cantiere di Architetti"

L'idea geniale di questo paper è: Perché fermarsi a un solo ordine di lettura?

Invece di far dipingere l'immagine al computer seguendo una sola riga (come un lettore che legge un libro), hanno usato un modello speciale (chiamato RandAR) che è capace di "leggere" l'immagine in qualsiasi ordine.

Immagina di avere un'immagine e di chiamare 20 architetti diversi:

L'Architetto A guarda prima il centro, poi i bordi.
L'Architetto B guarda prima in alto a destra, poi in basso a sinistra.
L'Architetto C guarda a caso.

Ognuno di loro "immagina" la classe dell'oggetto (es. "È un granchio?") basandosi sul suo ordine di lettura. Poi, invece di scegliere la risposta di uno solo, fai la media di tutte le loro risposte.

Questo processo si chiama "Marginalizzazione dell'ordine". È come se invece di ascoltare una sola persona che descrive un oggetto, ascoltassi una folla di persone che lo descrivono da angolazioni diverse. Il risultato è una comprensione molto più completa e robusta.

Perché è una rivoluzione?

Velocità fulminea: I vecchi "pittori lenti" (Diffusion) devono fare centinaia di passaggi per ogni immagine. Il nuovo metodo AR fa tutto in un solo passaggio (o al massimo 20 passaggi rapidi). È fino a 25 volte più veloce. È come passare da un'auto che fa 20 km/h a un'auto di Formula 1.
Precisione: Grazie a questa "folla di architetti", il modello non si fida più delle scorciatoie. Capisce meglio la forma globale dell'oggetto, non solo i dettagli locali.
Competizione: Fino a ieri, i modelli generativi (i pittori) erano meno bravi dei modelli discriminativi (i detective) più avanzati. Oggi, questo nuovo metodo AR è così bravo che vince contro i detective più forti (come DINOv2) in molte situazioni, specialmente quando le immagini sono "strane" o disturbate (come foto sgranate o con rumore).

In sintesi

Gli autori hanno preso un vecchio metodo di intelligenza artificiale (i modelli autoregressivi), che era considerato un po' "rigido" e lento nel riconoscere le immagini, e gli hanno dato una nuova libertà: guardare le immagini in modo casuale e da diverse angolazioni.

Hanno scoperto che, facendo la media di queste diverse "letture", il computer diventa un detective molto più intelligente e veloce, capace di battere i metodi più lenti e complessi usati finora. È come se avessimo insegnato al computer a non leggere mai solo da sinistra a destra, ma a saltare avanti e indietro per cogliere il senso completo della storia.

Il risultato? Un sistema che riconosce le immagini con una precisione da record, ma che è così veloce da poter essere usato in tempo reale, aprendo la strada a nuove applicazioni pratiche.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

I modelli generativi condizionali per classe (Generative Classifiers - GC) hanno dimostrato di essere classificatori accurati e robusti, spesso evitando le "scorciatoie" (shortcut solutions) tipiche dei modelli discriminatori. Sebbene i modelli di diffusione (Diffusion Models - DM) abbiano recentemente superato i modelli autoregressivi (AR) nella generazione di immagini e siano diventati lo standard per i GC, i modelli AR sono rimasti relativamente poco esplorati in questo contesto.

Il limite principale dei precedenti approcci basati su AR è la loro dipendenza da un ordine fisso dei token (tipicamente raster-scan, da sinistra a destra e dall'alto in basso). Questa scelta impone un pregiudizio induttivo (inductive bias) restrittivo per la comprensione delle immagini. Gli autori osservano che le previsioni basate su un singolo ordine si affidano eccessivamente a segnali discriminatori parziali, mentre l'ordine fisso non cattura la struttura gerarchica naturale delle immagini quanto bene farebbe un approccio più flessibile.

2. Metodologia

Gli autori propongono un nuovo framework per la classificazione generativa basato su modelli AR che supportano la generazione in ordine arbitrario (any-order AR), specificamente utilizzando il modello RandAR.

Marginalizzazione dell'Ordine (Order-Marginalization): Invece di affidarsi a un'unica sequenza di token, il metodo stima la probabilità condizionata della classe $p(x|c)$ marginalizzando su molteplici ordini di token possibili.
Stima del Lower Bound: Poiché calcolare l'aspettativa esatta su tutti i permutazioni è computazionalmente proibitivo, gli autori utilizzano un'approssimazione Monte Carlo. Invece di stimare direttamente la likelihood $p(x|c)$ , massimizzano il limite inferiore (lower bound) del log-likelihood incondizionato all'ordine, derivato tramite la disuguaglianza di Jensen:
$\log p(x|c) \geq \mathbb{E}_{\pi} [\log p(x|\pi, c)] \approx \frac{1}{K} \sum_{k=1}^{K} \log p(x|\pi_k, c)$
Dove $\pi$ rappresenta una permutazione casuale degli indici dei token e $K$ è il numero di ordini campionati.
Architettura: Il modello RandAR utilizza token di istruzione di posizione ( $P$ ) insieme ai token dell'immagine ( $X$ ). Durante la classificazione, vengono generate $K$ sequenze permutate casualmente per ogni classe, e le likelihoods logaritmiche vengono aggregate per ottenere il punteggio finale di classificazione.
Efficienza: A differenza dei Diffusion Models che richiedono centinaia di passaggi (timesteps) per una singola stima della likelihood, i modelli AR possono valutare le likelihoods condizionate all'ordine in un singolo passaggio in avanti (forward pass). Anche dopo aver mediato su $K$ ordini, i modelli AR rimangono significativamente più veloci.

3. Contributi Chiave

Identificazione del Limite degli Ordini Fissi: Dimostrano empiricamente che l'ordine fisso dei token è un collo di bottiglia per i classificatori AR, limitando la capacità del modello di cogliere informazioni contestuali globali.
Framework Order-Marginalized: Introducono un metodo per sfruttare modelli AR "any-order" (come RandAR) per la classificazione, ottenendo una stima più robusta della probabilità della classe attraverso la media su molteplici ordini di token.
Superiorità rispetto ai Diffusion Models: Dimostrano che i classificatori AR marginalizzati superano i classificatori basati su diffusione (come DiT e SiT) sia in termini di accuratezza che di robustezza agli shift di distribuzione, con un'efficienza computazionale fino a 25 volte superiore.
Competitività con Modelli Discriminatori SOTA: Il metodo proposto raggiunge prestazioni competitive rispetto ai migliori modelli discriminatori auto-supervisionati (come DINOv2), un risultato senza precedenti per i classificatori generativi.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su diversi benchmark, tra cui ImageNet-1K, ImageNet-R, ImageNet-Sketch, ImageNet-A e ImageNet-C (corruzioni).

Accuratezza: Il modello RandAR (con $K=20$ ) ottiene un'accuratezza Top-1 del 78.0% su ImageNet-Val (versione L/16) e dell'81.3% (versione XL/16), superando significativamente i modelli AR a ordine fisso (es. LlamaGen, VAR) e i classificatori basati su diffusione (DiT, SiT).
Robustezza (OOD): Il metodo mostra una robustezza superiore agli shift di distribuzione (Out-of-Distribution), superando i modelli discriminatori su benchmark come ImageNet-R e ImageNet-Sketch.
Efficienza: Mentre i Diffusion Models richiedono 100-250 passaggi per immagine, RandAR con $K=20$ richiede solo 20 passaggi (uno per ordine), risultando fino a 25 volte più veloce a parità di accuratezza o superiore in termini di trade-off accuratezza/velocità.
Analisi dei Token: L'analisi mostra che la marginalizzazione su più ordini ( $K>1$ ) permette al modello di focalizzarsi su forme e attributi di classe più ampi, riducendo la dipendenza da dettagli locali specifici che possono essere fuorvianti in un singolo ordine.

5. Significato e Implicazioni

Questo lavoro ribalta la percezione corrente secondo cui i modelli autoregressivi sono inferiori ai modelli di diffusione per la classificazione visiva. Dimostra che il problema non risiede nell'architettura AR in sé, ma nell'uso di un ordine di generazione rigido.

Nuovo Paradigma: L'introduzione della "marginalizzazione dell'ordine" sblocca il potenziale nascosto dei modelli AR, rendendoli non solo competitivi ma superiori ai DM per compiti di classificazione.
Efficienza Pratica: La capacità di ottenere prestazioni SOTA con un'efficienza computazionale drasticamente superiore rende i classificatori generativi basati su AR una soluzione praticabile per applicazioni reali, superando l'ostacolo principale (costo computazionale) che ha finora limitato l'adozione dei GC.
Futuri Sviluppi: Il paper suggerisce che l'integrazione di tecniche di apprendimento auto-supervisionato (SSL) e predittori adattivi di ordine basati sull'immagine potrebbe ulteriormente migliorare queste prestazioni, aprendo la strada a una nuova generazione di modelli generativi per la visione artificiale.

In sintesi, gli autori riescono a colmare il divario tra modelli generativi e discriminatori, dimostrando che i modelli AR, se utilizzati correttamente (con ordini casuali e marginalizzati), rappresentano lo stato dell'arte per la classificazione generativa.