BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un orchestra gigante (i nostri modelli di Intelligenza Artificiale come Qwen) che suona musica complessa. Per farla suonare su un dispositivo piccolo e veloce (come uno smartphone o un chip speciale), dobbiamo "comprimere" la musica.

Il problema è che la musica ha dei solisti straordinari (chiamati "outlier" o valori anomali): sono note così alte o così basse che, se provi a comprimere l'intera orchestra in un formato piccolo (4-bit), questi solisti "esplodono" e rovinano tutto il brano.

Il Problema: La "Trasformazione Globale" va in tilt

Fino a poco tempo fa, per risolvere questo problema, gli scienziati usavano una tecnica chiamata "rotazione". Immagina di prendere l'orchestra e farla ruotare di 90 gradi nello spazio per nascondere i solisti problematici.

Funziona bene per i formati vecchi (interi): Come se ruotassi un puzzle di legno, i pezzi si incastrano bene.
Fallisce per i nuovi formati (MXFP4): I nuovi chip usano un formato chiamato MXFP4. È come se avessimo un puzzle fatto di piccoli blocchi indipendenti (ogni blocco ha il suo volume).
La catastrofe: Quando ruoti l'orchestra globalmente (tutta insieme), l'energia del solista che era nel blocco 1 finisce nel blocco 295. Il blocco 295, che prima era tranquillo, ora ha un solista che urla e non sa come gestirlo. Risultato? Il suono diventa un caos (perdita di prestazioni). Inoltre, la rotazione crea una distribuzione "a due picchi" (bimodale), come se avessi solo note altissime e bassissime, ma nessuna nota di mezzo, sprecando spazio prezioso.

La Soluzione: BATQuant (Il "Trucco del Blocco")

Gli autori di questo paper, BATQuant, hanno detto: "Basta ruotare tutto insieme! Agiamo pezzo per pezzo".

Ecco come funziona, con le sue tre armi segrete:

1. La Trasformazione Affine a Blocchi (BAT)

Invece di ruotare l'orchestra intera, BATQuant prende un solo blocco alla volta (32 musicisti alla volta) e li "aggiusta" localmente.

L'analogia: Immagina di avere 100 scatole di matite. Se una scatola ha una matita gigante che non entra, non mescoli tutte le matite di tutte le scatole. Prendi solo quella scatola, piega leggermente la matita gigante o sposta le altre matite dentro quella scatola per farle entrare tutte.
Il risultato: L'energia dei "solisti problematici" rimane confinata nel loro blocco e non infetta gli altri. Ogni blocco mantiene il suo equilibrio perfetto.

2. La Decomposizione "GPK" (Il Trucco del Riciclo)

C'era un problema: creare un "aggiustatore" per ogni singolo blocco richiedeva troppa memoria (come avere un manuale di istruzioni diverso per ogni singola matita).

La soluzione GPK: Hanno inventato un sistema intelligente. Immagina di avere un manuale base globale (che tutti condividono) e poi piccoli foglietti personalizzati per ogni blocco.
L'analogia: È come se avessi un kit di costruzione LEGO. Tutti i blocchi usano lo stesso "manuale base" (il blocco globale), ma ogni blocco ha un piccolo "adesivo" (il blocco privato) che dice come modificarlo leggermente. Questo riduce enormemente lo spazio necessario, rendendo il tutto veloce ed economico.

3. Il "Taglio Apprendibile" (Clipping)

A volte, anche dopo l'aggiustamento, rimangono ancora note troppo alte che potrebbero rompere il formato.

La soluzione: BATQuant ha un "guardiano" che impara a tagliare le note troppo alte in modo intelligente, adattandosi a ogni singolo blocco. Non taglia a caso, ma impara esattamente quanto tagliare per quel specifico gruppo di musicisti.

I Risultati: Perché è un miracolo?

Hanno testato questo metodo su modelli molto potenti (come Qwen3) che devono capire immagini, leggere documenti e risolvere problemi di matematica complessa.

Prima: Con i metodi vecchi, quando si provava a usare il formato 4-bit (molto compresso), il modello diventava stupido, allucinava (inventava cose) e falliva nei compiti di ragionamento.
Con BATQuant: Il modello mantiene quasi la stessa intelligenza del modello originale (non compresso).
- Su compiti visivi complessi, recupera il 96,43% della performance originale.
- Su compiti di ragionamento matematico, dove gli altri fallivano miseramente, BATQuant ha mantenuto la lucidità.

In Sintesi

BATQuant è come un regista intelligente che, invece di mescolare tutto il cast di un film per nascondere un attore troppo alto, lo sistema singolarmente nel suo angolo, usa un copione condiviso per risparmiare carta e taglia le scene troppo lunghe solo dove serve.

Grazie a questo, possiamo finalmente far girare modelli di Intelligenza Artificiale super-potenti su chip piccoli ed economici, senza che perdano la loro "magia" di ragionamento. È un passo enorme per portare l'AI avanzata direttamente nei nostri dispositivi quotidiani.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Sfide della Quantizzazione MXFP4

I modelli linguistici su larga scala (LLM) e i modelli linguistici multimodali (MLLM) richiedono sempre più risorse computazionali e di memoria. La Quantizzazione Post-Training (PTQ) è una soluzione chiave, ma l'emergere dei formati in virgola mobile micro-scala (MXFP, come MXFP4) presenta sfide specifiche che i metodi esistenti non riescono a gestire.

Fallimento delle tecniche basate su rotazione: I metodi all'avanguardia per la quantizzazione a 4-bit interi (INT4), come QuaRot e SpinQuant, utilizzano trasformazioni ortogonali globali per distribuire gli "outlier" (valori anomali). Tuttavia, quando applicati a MXFP4, questi metodi causano un crollo delle prestazioni.
Causa del fallimento: Le rotazioni globali trasferiscono l'energia degli outlier tra i diversi blocchi di quantizzazione. Poiché MXFP utilizza una scalatura locale per blocco (block-wise scaling), questo trasferimento crea nuovi outlier all'interno di blocchi che ne erano privi, disturbando la scalatura locale.
Distribuzione bimodale: Le trasformazioni globali (es. Hadamard) tendono a creare distribuzioni bimodali delle attivazioni, che non sfruttano efficientemente il limitato intervallo di quantizzazione del formato MXFP4, portando a errori di quantizzazione elevati.

2. Metodologia: BATQuant

Il paper propone BATQuant (Block-wise Affine Transformation), un framework progettato specificamente per essere resiliente agli outlier nel formato MXFP4. L'approccio si basa su tre pilastri fondamentali:

A. Trasformazione Affine a Blocchi (Block-wise Affine Transformation - BAT)

A differenza delle rotazioni globali, BATQuant vincola le trasformazioni per allinearle strettamente alla granularità di quantizzazione MXFP (tipicamente 32 elementi per blocco).

Meccanismo: La matrice di trasformazione è una matrice diagonale a blocchi, dove ogni blocco $P_i$ è una trasformazione affine indipendente appresa per il proprio gruppo di 32 elementi.
Vantaggio: Questo impedisce il trasferimento di energia degli outlier tra i blocchi, preservando l'indipendenza statistica di ciascun blocco e permettendo ai fattori di scala locali di catturare accuratamente la dinamica del range. Inoltre, rilassando il vincolo di ortogonalità, la trasformazione può modellare la distribuzione per minimizzare l'errore di quantizzazione senza creare distribuzioni bimodali.

B. Decomposizione Kronecker Globale e Privata (GPK)

L'apprendimento di una matrice affine indipendente per ogni blocco introdurrebbe un sovraccarico di parametri significativo. Per risolvere ciò, gli autori introducono la GPK (Global and Private Kronecker):

Struttura: Ogni matrice di blocco $P_i$ viene decomposta nel prodotto di una matrice globale condivisa $A$ e di una matrice privata specifica per il blocco $B_i$ : $P_i = B_i \otimes A$ .
Efficienza: Questo riduce drasticamente il numero di parametri (fino al 79% in meno rispetto ai metodi naive) mantenendo la capacità di adattamento locale. Durante l'inferenza, la trasformazione viene eseguita in modo efficiente sfruttando le proprietà del prodotto di Kronecker senza materializzare la matrice densa completa.

C. Clipping Apprendibile a Blocchi (Block-wise Learnable Clipping)

Anche dopo la trasformazione affine, possono persistere outlier residui che dominano l'intervallo di quantizzazione.

Soluzione: Viene introdotto un meccanismo di clipping dinamico per ogni blocco, dove i limiti minimo e massimo ( $\beta^{min}, \beta^{max}$ ) sono parametri apprendibili adattati alle statistiche locali del blocco. Questo sopprime gli outlier residui senza alterare la distribuzione globale.

3. Contributi Chiave

BATQuant: Un nuovo framework di quantizzazione che utilizza trasformazioni affini a blocchi allineate alla granularità hardware MXFP, risolvendo il problema del trasferimento di energia degli outlier e delle distribuzioni bimodali.
GPK: Una tecnica di decomposizione innovativa che garantisce l'efficienza dei parametri e del runtime, rendendo fattibile l'uso di trasformazioni apprendibili su modelli di grandi dimensioni.
Risultati SOTA: Dimostrazione che BATQuant stabilisce nuovi record di stato dell'arte (SOTA) per la quantizzazione aggressiva W4A4KV16 (pesi a 4 bit, attivazioni a 4 bit, cache KV a 16 bit) su modelli sia LLM che MLLM.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su Qwen3-8B (LLM) e Qwen3-VL-8B-Instruct (MLLM) confrontando BATQuant con metodi come RTN, QuaRot, SpinQuant, BRQ, FlatQuant e GPTQ.

Prestazioni Multimodali (W4A4KV16): BATQuant recupera fino al 96.43% delle prestazioni del modello in precisione piena (BF16) sui benchmark multimodali, superando di 1.64 punti percentuali il miglior metodo esistente (FlatQuant).
Prestazioni LLM (W4A4KV16): Su compiti di ragionamento e non ragionamento, BATQuant mantiene un'alta stabilità. Ad esempio, su compiti di ragionamento complessi (GSM8K, MATH-500), dove altri metodi collassano, BATQuant recupera il 92.45% delle prestazioni.
Robustezza: Il metodo dimostra una superiorità consistente anche in configurazioni meno aggressive (W4A8KV16), raggiungendo un recupero del 99.29% (quasi senza perdita).
Visualizzazione: Le analisi delle distribuzioni di attivazione confermano che BATQuant elimina le distribuzioni bimodali e mantiene una distribuzione unimodale compatta, a differenza delle tecniche basate su rotazione.

5. Significato e Impatto

BATQuant rappresenta un passo fondamentale per il deployment efficiente di modelli di grandi dimensioni su hardware di nuova generazione che supporta i formati MXFP (come le GPU NVIDIA Hopper/Blackwell e le NPU Ascend).

Superamento dei limiti attuali: Risolve il problema fondamentale dell'incompatibilità tra le tecniche di rotazione globale e la quantizzazione fine-granulare a blocchi.
Efficienza: Permette di utilizzare configurazioni di quantizzazione estremamente aggressive (4-bit per pesi e attivazioni) senza sacrificare significativamente l'accuratezza, riducendo drasticamente l'uso di memoria e la larghezza di banda.
Generalizzazione: La metodologia si dimostra efficace sia per la comprensione linguistica pura che per il ragionamento visivo e multimodale, offrendo una soluzione pratica per l'ottimizzazione di modelli su dispositivi edge e server con risorse limitate.