BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

BATQuant è un metodo di quantizzazione MXFP4 resiliente agli outlier che utilizza trasformazioni affini a blocchi, decomposizione Kronecker e clipping apprendibile per ripristinare le prestazioni dei modelli linguistici e multimodali, superando i limiti delle tecniche di rotazione esistenti.

Ji-Fu Li, Manyi Zhang, Xiaobo Xia, Han Bao, Haoli Bai, Zhenhua Dong, Xianzhi Yu

Pubblicato 2026-03-18
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di avere un orchestra gigante (i nostri modelli di Intelligenza Artificiale come Qwen) che suona musica complessa. Per farla suonare su un dispositivo piccolo e veloce (come uno smartphone o un chip speciale), dobbiamo "comprimere" la musica.

Il problema è che la musica ha dei solisti straordinari (chiamati "outlier" o valori anomali): sono note così alte o così basse che, se provi a comprimere l'intera orchestra in un formato piccolo (4-bit), questi solisti "esplodono" e rovinano tutto il brano.

Il Problema: La "Trasformazione Globale" va in tilt

Fino a poco tempo fa, per risolvere questo problema, gli scienziati usavano una tecnica chiamata "rotazione". Immagina di prendere l'orchestra e farla ruotare di 90 gradi nello spazio per nascondere i solisti problematici.

  • Funziona bene per i formati vecchi (interi): Come se ruotassi un puzzle di legno, i pezzi si incastrano bene.
  • Fallisce per i nuovi formati (MXFP4): I nuovi chip usano un formato chiamato MXFP4. È come se avessimo un puzzle fatto di piccoli blocchi indipendenti (ogni blocco ha il suo volume).
  • La catastrofe: Quando ruoti l'orchestra globalmente (tutta insieme), l'energia del solista che era nel blocco 1 finisce nel blocco 295. Il blocco 295, che prima era tranquillo, ora ha un solista che urla e non sa come gestirlo. Risultato? Il suono diventa un caos (perdita di prestazioni). Inoltre, la rotazione crea una distribuzione "a due picchi" (bimodale), come se avessi solo note altissime e bassissime, ma nessuna nota di mezzo, sprecando spazio prezioso.

La Soluzione: BATQuant (Il "Trucco del Blocco")

Gli autori di questo paper, BATQuant, hanno detto: "Basta ruotare tutto insieme! Agiamo pezzo per pezzo".

Ecco come funziona, con le sue tre armi segrete:

1. La Trasformazione Affine a Blocchi (BAT)

Invece di ruotare l'orchestra intera, BATQuant prende un solo blocco alla volta (32 musicisti alla volta) e li "aggiusta" localmente.

  • L'analogia: Immagina di avere 100 scatole di matite. Se una scatola ha una matita gigante che non entra, non mescoli tutte le matite di tutte le scatole. Prendi solo quella scatola, piega leggermente la matita gigante o sposta le altre matite dentro quella scatola per farle entrare tutte.
  • Il risultato: L'energia dei "solisti problematici" rimane confinata nel loro blocco e non infetta gli altri. Ogni blocco mantiene il suo equilibrio perfetto.

2. La Decomposizione "GPK" (Il Trucco del Riciclo)

C'era un problema: creare un "aggiustatore" per ogni singolo blocco richiedeva troppa memoria (come avere un manuale di istruzioni diverso per ogni singola matita).

  • La soluzione GPK: Hanno inventato un sistema intelligente. Immagina di avere un manuale base globale (che tutti condividono) e poi piccoli foglietti personalizzati per ogni blocco.
  • L'analogia: È come se avessi un kit di costruzione LEGO. Tutti i blocchi usano lo stesso "manuale base" (il blocco globale), ma ogni blocco ha un piccolo "adesivo" (il blocco privato) che dice come modificarlo leggermente. Questo riduce enormemente lo spazio necessario, rendendo il tutto veloce ed economico.

3. Il "Taglio Apprendibile" (Clipping)

A volte, anche dopo l'aggiustamento, rimangono ancora note troppo alte che potrebbero rompere il formato.

  • La soluzione: BATQuant ha un "guardiano" che impara a tagliare le note troppo alte in modo intelligente, adattandosi a ogni singolo blocco. Non taglia a caso, ma impara esattamente quanto tagliare per quel specifico gruppo di musicisti.

I Risultati: Perché è un miracolo?

Hanno testato questo metodo su modelli molto potenti (come Qwen3) che devono capire immagini, leggere documenti e risolvere problemi di matematica complessa.

  • Prima: Con i metodi vecchi, quando si provava a usare il formato 4-bit (molto compresso), il modello diventava stupido, allucinava (inventava cose) e falliva nei compiti di ragionamento.
  • Con BATQuant: Il modello mantiene quasi la stessa intelligenza del modello originale (non compresso).
    • Su compiti visivi complessi, recupera il 96,43% della performance originale.
    • Su compiti di ragionamento matematico, dove gli altri fallivano miseramente, BATQuant ha mantenuto la lucidità.

In Sintesi

BATQuant è come un regista intelligente che, invece di mescolare tutto il cast di un film per nascondere un attore troppo alto, lo sistema singolarmente nel suo angolo, usa un copione condiviso per risparmiare carta e taglia le scene troppo lunghe solo dove serve.

Grazie a questo, possiamo finalmente far girare modelli di Intelligenza Artificiale super-potenti su chip piccoli ed economici, senza che perdano la loro "magia" di ragionamento. È un passo enorme per portare l'AI avanzata direttamente nei nostri dispositivi quotidiani.

Sommerso dagli articoli nel tuo campo?

Ricevi digest giornalieri degli articoli più recenti corrispondenti alle tue parole chiave di ricerca — con riassunti tecnici, nella tua lingua.

Prova Digest →