CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover insegnare a un robot a disegnare un quadro, ma c'è un grosso problema: il robot non sa da dove iniziare. Se gli dai tutti i pezzi del puzzle insieme, si confonde. Se glieli dai in ordine sbagliato, il quadro viene storto.

Questo è il problema che risolve CaTok, un nuovo metodo presentato in questo paper per insegnare alle intelligenze artificiali a "pensare" come gli artisti umani: un passo alla volta, dall'inizio alla fine.

Ecco come funziona, spiegato con parole semplici e qualche metafora divertente.

1. Il Problema: L'Alfabeto delle Immagini

Fino a poco tempo fa, le AI che generano immagini (come DALL-E o Midjourney) funzionavano un po' come un bambino che guarda un intero libro di fumetti tutto insieme e cerca di ricopiarlo. Non c'era un vero "ordine di lettura".
Altre AI, invece, usavano un approccio "caotico": prendevano un'immagine, la spezzavano in tanti quadratini (token) e li mescolavano. Quando dovevano ricrearla, dovevano indovinare tutto insieme. Risultato? Spesso venivano fuori immagini sfocate o con dettagli strani.

L'obiettivo degli scienziati era creare un "alfabeto visivo" (i token) che avesse un senso logico, proprio come le parole in una frase: prima il soggetto, poi il verbo, poi l'oggetto.

2. La Soluzione: CaTok (Il Regista Ordinato)

CaTok è come un regista cinematografico molto organizzato. Invece di dare all'AI l'intero film da guardare in un secondo, gli mostra la scena frame per frame, in ordine cronologico.

L'Encoder (Il Fotografo): Prima, CaTok guarda l'immagine originale e la trasforma in una lista di 256 "biglietti" (token). Ma non sono biglietti a caso! Sono organizzati in una catena logica.
Il Decoder (Il Pittore): Qui sta la magia. CaTok usa un nuovo tipo di "pennello" chiamato MeanFlow.

3. La Magia del "MeanFlow": Il Viaggio in Auto

Immagina di dover guidare da Roma a Milano.

I vecchi metodi (Naïve Flow): Ti danno la mappa di tutta la strada e ti dicono: "Arriva a Milano". Ma non sai come guidare, devi indovinare ogni curva.
I metodi precedenti (Consistency Decoder): Ti dicono: "Guarda solo i primi 10 km, poi indovina il resto". Il problema è che ti concentri troppo sull'inizio e dimentichi la fine.
Il metodo CaTok (MeanFlow): Ti dà un'auto che viaggia in modo intelligente. Invece di guardare solo un istante o tutto il viaggio insieme, CaTok guarda un tratto di strada (un intervallo di tempo) e calcola la velocità media necessaria per attraversarlo.

Perché è geniale?
Perché permette all'AI di fare due cose incredibili:

Velocità lampo: Può disegnare l'immagine intera in un solo passo (come se l'auto saltasse direttamente a destinazione, ma con la mappa giusta).
Qualità alta: Se vuoi, può fermarsi e controllare ogni curva, disegnando l'immagine passo dopo passo per renderla perfetta.

4. L'Equilibrio Perfetto (Niente sbilanciamenti)

Un vecchio problema era che le AI tendevano a prestare troppa attenzione ai primi "token" (i primi pezzi dell'immagine) e ignoravano gli ultimi. Era come se un scrittore scrivesse una storia bellissima ma finisse con "e poi sono morti tutti" senza spiegazione.
CaTok risolve questo con una tecnica chiamata REPA-A. Immagina che CaTok abbia un tutor esperto (un modello di intelligenza artificiale già molto intelligente) che guarda il lavoro dell'AI mentre disegna e le dice: "Ehi, guarda qui, questo pezzo assomiglia a un occhio, assicurati che sia chiaro". Questo aiuta l'AI a imparare più velocemente e a non sbilanciarsi.

5. I Risultati: Cosa abbiamo guadagnato?

Grazie a CaTok, l'AI è diventata:

Più veloce: Può generare immagini in un solo istante (uno step) senza perdere qualità.
Più intelligente: Capisce la "causalità", cioè il rapporto di causa-effetto nell'immagine (se c'è un cielo, sotto deve esserci l'erba, non il contrario).
Più versatile: Funziona bene sia che tu voglia un disegno veloce, sia che tu voglia un capolavoro dettagliato.

In Sintesi

CaTok è come aver dato all'intelligenza artificiale un libro di istruzioni invece di un mucchio di fogli sparsi. Invece di indovinare tutto insieme, l'AI ora sa che per disegnare un volto deve prima fare la testa, poi gli occhi, poi la bocca, in un ordine logico e naturale.

Il risultato? Immagini più belle, generate più velocemente, e un passo enorme verso rendere le macchine capaci di "immaginare" come facciamo noi umani.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Il paradigma dei modelli linguistici autoregressivi (AR) ha rivoluzionato la generazione di testo grazie alla tokenizzazione causale e alla previsione del "prossimo token". Tuttavia, estendere questo approccio alla visione artificiale rimane una sfida significativa a causa della natura intrinsecamente non sequenziale delle immagini.

I metodi attuali presentano diverse limitazioni:

Tokenizzatori 2D (es. VQGAN, VAR): Trasformano le immagini in griglie di token 2D e le appiattiscono in sequenze 1D. Questo processo spesso manca di vera causalità tra i token o impone un ordine euristico (es. raster) che non si allinea bene con il pattern di previsione del prossimo token.
Autoencoder Diffusivi (es. FlowMo, Consistency Decoders):
- I decoder "naïve" condizionano su tutti i token simultaneamente, eliminando la struttura causale necessaria per l'apprendimento AR.
- I decoder basati su "consistency" o "nested dropout" condizionano solo sui primi $k$ token (scelti casualmente o tramite binding temporale). Questo introduce uno squilibrio (imbalance), dove i token iniziali sono sovrarappresentati, danneggiando la qualità della generazione autoregressiva.

L'obiettivo è creare un tokenizzatore di immagini 1D che sia causale, bilanciato e capace di supportare sia la generazione rapida in un singolo passo (one-step) che quella ad alta fedeltà in più passi.

2. Metodologia: CaTok

CaTok è un autoencoder diffusivo progettato specificamente per la tokenizzazione causale 1D. L'architettura combina un encoder Vision Transformer (ViT) causale con un decoder MeanFlow.

Architettura Chiave

Encoder Causale ViT: Utilizza "register" (variabili latenti apprendibili) per estrarre informazioni visive ricche in token 1D. Viene applicata una maschera di attenzione causale: i token 1D possono guardare tutte le feature dell'immagine ma solo i token 1D precedenti, garantendo la causalità.
Decoder MeanFlow DiT: A differenza dei decoder standard che stimano la velocità istantanea, il decoder di CaTok è addestrato per modellare il campo di velocità media ( $u$ $u$ ) lungo un intervallo di tempo $[r, t]$ $[r, t]$ .
- Selezione Temporale: Durante l'addestramento, vengono campionati due timestep $r$ e $t$ ( $r < t$ ). Il decoder viene condizionato solo sui token 1D corrispondenti all'intervallo $[r \cdot K, t \cdot K]$ .
- Obiettivo: Il modello impara a prevedere la velocità media lungo il sottopercorso dal rumore all'immagine. Questo approccio risolve il problema dello squilibrio: ogni token contribuisce in modo uniforme alla definizione della traiettoria di generazione, preservando la causalità senza penalizzare i token successivi.

Obiettivi di Addestramento

Il modello è ottimizzato tramite quattro obiettivi combinati:

Obiettivo MeanFlow ( $L_{MF}$ ): Minimizza l'errore tra la velocità media prevista e quella reale sull'intervallo $[r, t]$ .
Obiettivo Rectified Flow ( $L_{RF}$ ): Modella la velocità istantanea (caso limite dove $r=t$ ) per stabilizzare l'addestramento.
REPA (Representation Alignment): Allinea le feature del decoder con quelle di un modello fondazionale visivo (VFM, es. DINOv2) per accelerare la convergenza.
REPA-A (Proposta Novità): Una regolarizzazione specifica per autoencoder condizionati che allinea direttamente le feature dell'encoder con le rappresentazioni del VFM. Questo migliora la qualità semantica dei token 1D estratti, rendendoli più informativi e discriminativi.

Modellazione Autoregressiva

Una volta addestrato, l'encoder è congelato. Un modello AR standard (basato su LlamaGen con perdita diffusiva) viene addestrato per prevedere la sequenza di token 1D causali. Durante la generazione, il modello AR produce i token, che vengono poi decodificati in un'immagine tramite il decoder MeanFlow in un singolo passo (o multi-step).

3. Contributi Chiave

Nuova Architettura 1D Causale: Introduzione di CaTok, il primo tokenizzatore 1D basato su autoencoder diffusivi che integra l'obiettivo MeanFlow per apprendere rappresentazioni visive causalmente ordinate.
Decodifica Bilanciata e Causale: La selezione dei token basata su intervalli temporali $[r, t]$ risolve il problema dello squilibrio dei token presenti nei metodi precedenti (come Consistency Decoders), permettendo una generazione AR di alta qualità.
Supporto Nativo al One-Step Sampling: Grazie alla natura dell'obiettivo MeanFlow, il decoder supporta la generazione di immagini di alta qualità in un singolo passo, offrendo un compromesso flessibile tra efficienza e fedeltà.
TECNICA REPA-A: Un metodo di regolarizzazione innovativo che allinea le feature dell'encoder con modelli fondazionali, stabilizzando l'addestramento e accelerando la convergenza.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su ImageNet-1K a risoluzione 256x256.

Ricostruzione:
- CaTok-L-256 raggiunge risultati state-of-the-art tra i tokenizzatori 1D, con un rFID di 0.75, PSNR di 22.53 e SSIM di 0.674.
- Supera significativamente altri metodi come Semanticist e FlowMo, raggiungendo questi risultati con meno epoche di addestramento (160 epoche contro 400+).
- Dimostra una chiara tendenza "da fine a grezzo" (fine-to-coarse) quando il numero di token viene ridotto, confermando la causalità appresa.
Generazione Autoregressiva:
- Il modello AR basato su CaTok ottiene un gFID di 2.95, performance paragonabili ai migliori approcci attuali (come Semanticist e VAR), ma con un addestramento del tokenizzatore molto più efficiente.
- Le visualizzazioni qualitative mostrano immagini nitide e semanticamente coerenti.
Ablation Study:
- L'uso della selezione temporale $[r, t]$ è cruciale: la rimozione di questa (usando tutti i token o solo i primi $k$ ) degrada drasticamente le performance AR (gFID sale da 4.91 a 13.54 o 9.21).
- REPA-A migliora la convergenza e riduce i picchi di perdita durante l'addestramento.

5. Significato e Impatto

CaTok rappresenta un passo fondamentale verso la chiusura del divario tra i modelli linguistici autoregressivi e la generazione visiva.

Unificazione dei Paradigmi: Dimostra che è possibile applicare il paradigma "next-token prediction" alle immagini mantenendo una struttura causale rigorosa e bilanciata.
Efficienza: La capacità di generare immagini in un singolo passo (one-step) senza sacrificare la qualità apre la strada a applicazioni in tempo reale.
Qualità delle Rappresentazioni: L'introduzione di REPA-A suggerisce che l'allineamento con modelli fondazionali visivi è una strategia potente per migliorare l'addestramento di autoencoder diffusivi, non solo per la generazione ma anche per la comprensione delle rappresentazioni latenti.

In sintesi, CaTok risolve i problemi di causalità e squilibrio dei tokenizzatori visivi esistenti, fornendo una base solida per futuri modelli di generazione visiva scalabili e ad alte prestazioni.