Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a disegnare un quadro, ma c'è un piccolo problema: il robot è un po' "testardo" e ha un modo di lavorare molto specifico.

Ecco la storia di AliTok, la nuova soluzione presentata in questo documento, spiegata come se fosse una favola tecnologica.

Il Problema: Il Pittore che guarda solo avanti

Immagina un artista robotico (il Modello Autoregressivo) che deve dipingere un'immagine quadrato per quadrato, partendo dall'angolo in alto a sinistra e andando verso destra e in basso, come se stesse leggendo un libro. Questo robot è bravissimo a prevedere cosa viene dopo basandosi su ciò che ha già visto. È come un narratore che conosce la storia solo fino alla pagina corrente.

Il problema sorge con il "traduttore" che gli dà le istruzioni (il Tokenizer).
Nella vecchia scuola, il traduttore guardava l'intero quadro prima di scrivere le istruzioni. Se doveva descrivere un quadrato in basso a destra, guardava anche i quadrati in alto a sinistra e quelli vicini per capire il contesto.

Il conflitto: Il robot pittore deve dipingere solo guardando il passato, ma le istruzioni che riceve sono piene di informazioni sul futuro (ciò che non ha ancora dipinto). È come se il traduttore dicesse: "Dipingi un albero qui", ma l'albero fosse disegnato basandosi su un cielo che il robot non ha ancora visto. Il robot si confonde, sbaglia e il quadro viene brutto.

La Soluzione: AliTok (Il Traduttore "Causale")

Gli autori hanno creato AliTok, un nuovo traduttore che risolve questo malinteso fondamentale. Ecco come funziona, passo dopo passo:

1. Il "Filtro Magico" (Il Decoder Causale)

Invece di lasciare che il traduttore guardi tutto il quadro liberamente, AliTok gli mette degli occhiali speciali. Questi occhiali permettono al traduttore di vedere l'immagine intera per capire il significato (come un pittore esperto che osserva il soggetto), ma quando scrive le istruzioni per il robot, gli obbliga a guardare solo ciò che è già stato scritto.

L'analogia: È come se un insegnante di scrittura (il traduttore) scrivesse un libro. Può leggere tutto il manoscritto per assicurarsi che la trama sia coerente, ma quando insegna a uno studente a scrivere il prossimo capitolo, gli dice: "Non guardare le pagine future! Devi scrivere questo capitolo basandoti solo su quello che è successo prima".
Questo forza il traduttore a organizzare le informazioni in modo che ogni pezzo di immagine contenga tutto ciò che serve per prevedere il pezzo successivo.

2. I "Pacchi di Aiuto" (Prefix Tokens)

C'è un piccolo difetto: quando si inizia a dipingere la prima riga dell'immagine, il robot non ha nulla davanti a sé. È come iniziare a scrivere un libro senza un titolo o una premessa.
AliTok risolve questo problema aggiungendo dei "pacchi di aiuto" (chiamati prefix tokens) all'inizio della riga. Sono come un piccolo riassunto o un'atmosfera che prepara il robot a iniziare il lavoro, così non si blocca all'inizio.

3. La Doppia Fase di Allenamento

Per rendere tutto perfetto, AliTok usa un metodo di allenamento in due tempi:

Fase 1: Si allena il traduttore a essere "obbediente" (guardando solo il passato) per insegnare al robot a dipingere velocemente e bene.
Fase 2: Si congela il traduttore e si allena un nuovo "disegnatore" (un decoder bidirezionale) solo per assicurarsi che il quadro finale sia bellissimo e dettagliato, senza preoccuparsi di come il robot lo dipingerà.

I Risultati: Velocità e Qualità

Grazie a questo trucco, il robot pittore (il modello generativo) diventa incredibilmente efficiente:

Velocità: Mentre i metodi precedenti (come la diffusione, che è come spruzzare vernice e aspettare che si asciughi più volte) sono lenti, AliTok è come un treno ad alta velocità. È 10 volte più veloce nel creare immagini.
Qualità: Nonostante sia veloce, i quadri sono stupendi. Su un test famoso (ImageNet), il loro modello ha battuto i migliori metodi di "diffusione" esistenti, pur usando meno parametri (cioè un cervello più piccolo e leggero).

In Sintesi

Il documento ci dice che non serve complicare il robot con metodi strani. Basta cambiare il modo in cui gli diamo le istruzioni (il tokenizer). Se allineiamo il modo in cui l'immagine è "tradotta" con il modo in cui il robot "pensa" (guardando solo avanti), otteniamo risultati miracolosi: immagini di alta qualità create in una frazione del tempo.

È come se avessimo scoperto che per guidare una macchina veloce, non serve un motore più potente, ma basta allineare meglio la strada con la direzione in cui il guidatore sta guardando.

Each language version is independently generated for its own context, not a direct translation.

Titolo: Verso l'allineamento della modellazione sequenziale tra Tokenizer e Modello Autoregressivo

Autore: Pingyu Wu, Kai Zhu, Yu Liu, Longxiang Tang, et al. (USTC e Tongyi Lab)

1. Il Problema: Disallineamento Fondamentale

Il lavoro identifica un conflitto strutturale fondamentale nell'uso di modelli autoregressivi (AR) puri (decoder-only, stile GPT) per la generazione di immagini.

Natura dei Dati vs. Modello: I modelli AR operano su una dipendenza unidirezionale (prevedono il token $i$ basandosi solo sui token precedenti $1 \dots i-1$ ). Tuttavia, le immagini possiedono una continuità spaziale intrinsecamente bidirezionale.
Il Fallimento dei Tokenizer Tradizionali: I tokenizer convenzionali (es. VQ-VAE, VQ-GAN) sono ottimizzati per la massima fedeltà di ricostruzione. Per eliminare la ridondanza, incentivano un'encoding collaborativo globale dove ogni token dipende dal contesto completo (incluso il futuro, $x_{>i}$ ).
Conseguenza: Quando un modello AR tenta di prevedere un token che ha una rappresentazione dipendente da informazioni future "invisibili", la distribuzione di probabilità condizionata diventa ad alta entropia (incerta). Questo rende l'addestramento instabile e limita drasticamente la qualità generativa, costringendo le ricerche recenti a modificare l'architettura del modello (es. Masked AR, Next-Scale Prediction) invece di adattare i dati al modello.

2. Metodologia: AliTok (Aligned Tokenizer)

Gli autori propongono AliTok, un nuovo tokenizer progettato specificamente per instillare una dipendenza causale nella sequenza di token, allineandola alla natura dei modelli AR.

Architettura e Principi Chiave:

Encoder Bidirezionale + Decoder Causale (Stage 1):
- AliTok utilizza un encoder bidirezionale (per mantenere la capacità di compressione globale) ma lo vincola con un decoder causale durante l'addestramento.
- Il decoder ricostruisce l'immagine in ordine di scansione raster (da sinistra a destra, dall'alto in basso), vedendo solo il contesto passato.
- Effetto: Questo agisce come un regolarizzatore implicito potente. Costringe l'encoder a organizzare le informazioni contestuali necessarie per la ricostruzione all'interno della storia causale di ogni token, sopprimendo le dipendenze non causali. Il risultato è una sequenza di token semanticamente ricca ma altamente prevedibile.
Token Prefix e Loss Ausiliaria:
- La scansione causale causa una scarsa ricostruzione della prima riga dell'immagine (mancanza di contesto precedente).
- Soluzione: Vengono introdotti 16 token prefix specifici per la prima riga. Questi sono ottimizzati tramite una loss ausiliaria ( $L_{aux}$ ) che combina MSE e loss percettiva, permettendo al modello di apprendere i "priors" contestuali necessari senza compromettere la causalità dei token successivi.
Strategia di Addestramento in Due Fasi:
- Fase 1: Addestramento dell'encoder e del codebook con il decoder causale. L'obiettivo è creare un encoder "friendly" per la generazione AR.
- Fase 2: L'encoder e il codebook vengono congelati. Si addestra un decoder bidirezionale (più potente) per migliorare la fedeltà di ricostruzione e la coerenza dei dettagli, senza alterare la struttura causale appresa dai token.
Modello Autoregressivo:
- Viene utilizzato un modello decoder-only standard (basato su LlamaGen) con embedding posizionali 2D RoPE (adattati per includere i token prefix). Non vengono modificate le architetture AR complesse; il miglioramento deriva interamente dal tokenizer.

3. Risultati Sperimentali

Gli esperimenti sono stati condotti su ImageNet-256 e ImageNet-512.

Performance su ImageNet-256:
- Il modello AliTok-XL (662M parametri) raggiunge un gFID di 1.28 (con CFG) e un IS di 306.3.
- Superamento degli SOTA: Questi risultati superano i migliori metodi di diffusione (es. LightningDiT, gFID 1.35) e i modelli AR mascherati (es. RAR-XXL con 1.5B parametri).
- Efficienza: Grazie all'uso della KV-cache, AliTok-XL è 10 volte più veloce nel campionamento rispetto ai metodi di diffusione con prestazioni simili.
- Scalabilità: Anche il modello più piccolo (AliTok-B, 177M) supera i modelli AR precedenti molto più grandi (es. LlamaGen-3B).
Performance su ImageNet-512:
- Il modello AliTok-L (318M) ottiene un gFID di 1.39, stabilendo un nuovo stato dell'arte per la generazione ad alta risoluzione con modelli AR.
Analisi Ablativa:
- L'uso del decoder causale da solo aumenta l'accuratezza di training AR dal 5.4% al 10.7%, ma peggiora la ricostruzione.
- L'aggiunta dei token prefix e della loss ausiliaria ripristina la qualità della prima riga.
- La fase 2 (decoder bidirezionale) migliora ulteriormente la fedeltà (rFID scende a 0.86) mantenendo le prestazioni generative.

4. Contributi Chiave

Identificazione del Collo di Bottiglia: Dimostrazione empirica che la dipendenza bidirezionale nei tokenizer tradizionali è il fattore limitante principale per i modelli AR visivi.
Design del Tokenizer: Proposta di AliTok, che disaccoppia la costruzione semantica globale (encoder) dai vincoli causali (decoder), creando token che sono sia ricostruibili che prevedibili.
Rivalutazione dell'AR: Dimostrazione che un modello autoregressivo standard, se alimentato con dati allineati, può superare i modelli di diffusione SOTA in qualità e velocità, senza bisogno di architetture di generazione complesse (come masking o predizione multi-scala).

5. Significato e Impatto

Questo lavoro rappresenta un cambio di paradigma: invece di adattare il modello ai dati (rendendo l'AR più complesso), si adattano i dati (il tokenizer) al modello.

Unificazione Multimodale: Poiché AliTok permette l'uso di architetture AR standard (simili a quelle usate per il linguaggio), facilita l'integrazione di generazione di immagini e comprensione del linguaggio in un unico framework unificato.
Efficienza Computazionale: La capacità di generare immagini di alta qualità con modelli più piccoli e 10x più velocemente rispetto alla diffusione rende la generazione di immagini più accessibile e scalabile.
Validazione Teorica: Conferma che l'allineamento tra la struttura dei dati e il paradigma di apprendimento è cruciale per massimizzare le prestazioni dei modelli generativi.

In sintesi, AliTok risolve il conflitto tra la natura bidirezionale delle immagini e la natura unidirezionale dell'AR, permettendo ai modelli "decoder-only" di raggiungere prestazioni superiori allo stato dell'arte con un'efficienza senza precedenti.