UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover costruire un cervello digitale capace non solo di "vedere" e "capire" un'immagine, ma anche di "disegnarla" e "modificarla" con la stessa facilità con cui un umano parla. Questo è l'obiettivo dei modelli linguistici multimodali (MLLM). Tuttavia, c'è un grosso problema: come si fa a comprimere un'immagine complessa (piena di dettagli, colori e significati) in una serie di "parole" che il computer possa leggere e scrivere?

Fino a poco tempo fa, era come cercare di descrivere un'opera d'arte usando solo 10 parole: o perdevi i dettagli (l'immagine veniva sgranata) o perdevi il significato (il computer non capiva cosa stava guardando).

Ecco come UniWeTok risolve questo problema, spiegato in modo semplice:

1. Il Problema: La "Valigia" Troppo Piccola

Immagina che un'immagine sia un viaggio in un paese esotico.

I vecchi metodi erano come cercare di portare tutto il viaggio in una valigetta da 10 litri: o lasciavi a casa i vestiti (perdi i dettagli dell'immagine) o non riuscivi a chiudere la valigia (il computer non riesce a generare l'immagine di nuovo).
Inoltre, c'era un conflitto: se volevi che il computer capisse l'immagine (semantica), dovevi usare parole diverse rispetto a quando volevi che la disegnasse (generazione). Era come se dovessi usare due lingue diverse per leggere e scrivere.

2. La Soluzione: UniWeTok, il "Super-Compressore"

Gli autori di questo paper hanno creato UniWeTok, che possiamo immaginare come un super-organizzatore di valigie con una capacità incredibile.

Il Codice Segreto (Il Codebook): Immagina di avere un dizionario con 4 trilioni di parole (il codice è $2^{128}$). È un numero così grande che ogni singola "parola" (o token) può contenere un'infinità di informazioni.
La Compressione: UniWeTok prende un'immagine e la riduce a solo 64 di queste parole. È come comprimere un'intera enciclopedia in un singolo foglio di carta, ma mantenendo intatto tutto il contenuto.
Il Risultato: Il computer non solo vede l'immagine, ma la "sente" e la "ricorda" perfettamente, permettendogli sia di descriverla che di ricrearla da zero.

3. Come Funziona: I Tre Trucchi Magici

Per far funzionare questo sistema, gli scienziati hanno usato tre trucchi intelligenti:

A. Il "Doppio Insegnante" (Pre-Post Distillation)

Immagina di voler insegnare a un bambino a disegnare e a capire le emozioni.

Prima (Pre): Il bambino guarda un maestro esperto (un'intelligenza artificiale già addestrata) che gli spiega cosa sta guardando (es. "è un gatto che dorme").
Dopo (Post): Il bambino prova a disegnare e il maestro controlla se il disegno cattura l'essenza del gatto.
Il trucco: UniWeTok usa questo metodo per assicurarsi che le sue "parole" contengano sia i dettagli visivi (i peli del gatto) sia il significato (è un gatto felice).

B. L'Attenzione al "Futuro" (Generative-Aware Prior)

Spesso, quando si comprime un'immagine per farla capire, si perde la capacità di ricrearla.

L'analogia: È come se un architetto disegnasse una casa perfetta su carta, ma quando provava a costruirla, i mattoni non si incastravano.
La soluzione: UniWeTok, mentre impara a "leggere" l'immagine, si allena anche a "immaginare" come sarà l'immagine successiva. Si allena a prevedere il futuro. Questo assicura che le sue "parole" siano facili da usare per ridisegnare l'immagine in seguito.

C. L'Architettura Ibrida (CNN + Trasformatori)

UniWeTok non usa un solo tipo di "cervello", ma un ibrido:

Usa i convoluzioni (come un microscopio) per vedere i dettagli piccoli (la texture di una stoffa, i bordi).
Usa i trasformatori (come un telescopio) per capire il contesto globale (dove si trova l'oggetto, come si relaziona con gli altri).
Insieme, creano una visione perfetta: dettagli nitidi e comprensione profonda.

4. Perché è una Rivoluzione?

Fino ad ora, per avere un'immagine di alta qualità, servivano computer enormi e tempi di addestramento lunghissimi (come costruire un grattacielo).

UniWeTok è efficiente: Ha raggiunto risultati migliori di modelli molto più grandi usando meno di un decimo delle risorse di calcolo. È come costruire un grattacielo usando mattoni leggeri e intelligenti invece di cemento pesante.
È versatile: Funziona bene con immagini di qualsiasi dimensione, con volti umani, con testo scritto e persino con disegni scientifici.

In Sintesi

UniWeTok è come un traduttore universale che ha imparato a parlare la lingua delle immagini.
Non importa se vuoi che un computer legga un'immagine, la descriva, la modifichi o ne crei una nuova: UniWeTok fornisce il "vocabolario" perfetto per farlo, rendendo tutto più veloce, più chiaro e più intelligente. È il primo passo verso un'intelligenza artificiale che vede, capisce e crea con la stessa fluidità con cui noi umani pensiamo.

Each language version is independently generated for its own context, not a direct translation.

Ecco un riassunto tecnico dettagliato del paper UniWeTok in italiano.

Titolo

UniWeTok: Un Tokenizzatore Binario Unificato con Codebook di Dimensione $2^{128}$ per Modelli Linguistici Multimodali Unificati (MLLM)

1. Il Problema

I Modelli Linguistici Multimodali Unificati (Unified MLLM) richiedono una rappresentazione visiva che soddisfi contemporaneamente tre obiettivi spesso conflittuali:

Ricostruzione ad alta fedeltà: Mantenere dettagli fini e texture.
Estrazione semantica complessa: Capacità di comprendere il contenuto dell'immagine per compiti di comprensione.
Idoneità generativa: Essere adatti alla generazione autoregressiva di nuove immagini.

I tokenizzatori visivi esistenti falliscono nel soddisfare questi obiettivi in un singolo framework:

I tokenizzatori continui soffrono di accumulo di errori e collasso delle modalità durante la generazione autoregressiva.
I tokenizzatori discreti tradizionali (basati su VQ) hanno spesso capacità di ricostruzione limitate e perdono informazioni semantiche.
Le recenti soluzioni con codebook enormi (es. $2^{128}$) migliorano la ricostruzione ma introducono complessità per la generazione a valle e non sono state estese efficacemente alla comprensione multimodale o all'addestramento di MLLM unificati.

2. Metodologia

UniWeTok è un tokenizzatore visivo discreto progettato per colmare questo divario, unificando compressione robusta, estrazione semantica e prior generativi.

A. Architettura del Modello

Backbone Ibrido: Combina blocchi convoluzionali (per induttivi locali e texture) e blocchi Transformer (per il campo ricettivo globale e la semantica). Questo supera i limiti delle architetture puramente CNN o puramente Transformer.
Funzione di Attivazione SigLu: È stata proposta una nuova funzione di attivazione, SigLu ( $SigLu(x) = \frac{1-e^x}{1+e^x}$ $S i g Lu (x) = \frac{1 - e ^{x}}{1 + e ^{x}}$ ), integrata come ultimo strato dell'encoder.
- Funzione: Vincola l'output dell'encoder nell'intervallo $[-1, 1]$ .
- Vantaggio: Risolve il conflitto di ottimizzazione tra la commitment loss (che spinge i valori verso -1 o 1) e la token entropy loss (che spinge verso l'infinito). Questo permette una distillazione semantica stabile e rende le due loss equivalenti, semplificando l'addestramento.
Codebook Binario Massivo: Utilizza un codebook di dimensione $2^{128}$ tramite Group-Wise Lookup-Free Quantization (GQ), permettendo a ogni token di encapsulare una quantità enorme di informazioni con un downsampling spaziale di 32x.

B. Framework di Addestramento

Il paper introduce due nuove componenti loss per migliorare le capacità del tokenizzatore:

Pre-Post Distillation (PPD):
- Utilizza un encoder semantico pre-addestrato (teacher) per allineare sia le rappresentazioni latenti continue ( $U_G$ ) che quelle discrete ( $U_Q$ ) con i feature semantici del teacher.
- Questo garantisce che i token discreti catturino efficacemente il significato semantico sottostante, non solo i pixel.
Generative-Aware Prior (GAP):
- Introduce un modello generativo leggero (un piccolo modello BitDance) durante l'addestramento.
- Il tokenizzatore viene addestrato a prevedere il prossimo token in una sequenza (task di diffusione next-token), fornendo un "prior" che rende lo spazio latente più amichevole per la generazione downstream.

C. Pipeline di Addestramento a Tre Stadi

Per garantire l'adattabilità a diverse risoluzioni e scenari sensibili (come volti umani e testo), viene adottata una strategia curricolare:

Stage 1: Pre-addestramento su larga scala a risoluzione fissa (256x256) su dataset generali (ImageNet).
Stage 2: Addestramento continuo su multi-risoluzione per gestire immagini di dimensioni variabili.
Stage 3: Annealing su domini sensibili alla percezione (volti, testo) per migliorare la qualità in scenari specifici.

3. Contributi Chiave

Unificazione di Obiettivi Conflittuali: Dimostra che è possibile costruire un MLLM unificato basato su un codebook discreto massivo ($2^{128}$) che eccelle sia nella comprensione che nella generazione.
Innovazioni Architetturali: Introduzione della funzione SigLu e dell'architettura ibrida CNN-Transformer, che risolvono problemi di stabilità nell'addestramento e migliorano la qualità della ricostruzione.
Efficienza Computazionale: Rispetto ai metodi precedenti (es. REPA), UniWeTok raggiunge prestazioni superiori con un costo di addestramento drasticamente inferiore (33B token contro 262B token).
Riduzione dei Token: Grazie al downsampling 32x e al codebook enorme, riduce il numero di token visivi del 75% mantenendo alta la qualità, il che accelera l'addestramento e l'inferenza degli MLLM.

4. Risultati Sperimentali

I risultati sono stati valutati su ImageNet e dataset di dominio generale (DataComp-1B, MS-COCO).

Generazione di Immagini (ImageNet):
- FID: UniWeTok ottiene 1.38, superando lo stato dell'arte (REPA: 1.42).
- Efficienza: Addestrato su soli 33B token rispetto ai 262B di REPA.
Comprensione Multimodale (MLLM):
- Il modello unificato basato su UniWeTok mostra capacità competitive su benchmark come SEEDB, POPE, VQAv2 e MMMU.
Generazione da Testo a Immagine:
- DPG Score: 86.63 (vs FLUX.1 [Dev]: 83.84), dimostrando una qualità di generazione superiore rispetto a modelli diffusion open-source avanzati.
Modifica di Immagini (Editing):
- GEdit Overall Score: 5.09 (vs OmniGen: 5.06), superando modelli basati su diffusion e autoregressivi esistenti.
Ricostruzione:
- Supera la maggior parte dei tokenizzatori generalisti mantenendo solo il 25% del numero di token visivi rispetto ad altri metodi.

5. Significato e Impatto

UniWeTok rappresenta un passo fondamentale verso la realizzazione di MLLM unificati veri e propri.

Superamento dei Compromessi: Dimostra che non è necessario scegliere tra un tokenizzatore ottimizzato per la ricostruzione (come nei VQGAN) e uno per la generazione (come nei modelli autoregressivi). Un singolo tokenizzatore ben ottimizzato può gestire entrambi i compiti.
Scalabilità: L'uso di un codebook binario massivo ($2^{128}$) apre la strada a una maggiore densità di informazioni per token, riducendo la lunghezza delle sequenze e migliorando l'efficienza dei modelli linguistici su larga scala.
Riproducibilità: Il codice e i modelli sono stati rilasciati pubblicamente, facilitando l'esplorazione della comunità scientifica su tokenizzatori unificati e MLLM.

In sintesi, UniWeTok stabilisce un nuovo baseline robusto ed efficiente, suggerendo che un unico tokenizzatore visivo può essere sufficiente per affrontare le sfide complesse dei futuri modelli multimodali unificati.

UniWeTok: An Unified Binary Tokenizer with Codebook Size 2128\mathit{2^{128}}2128 for Unified Multimodal Large Language Model