Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

Questo studio introduce MR-GPTQ, un algoritmo di quantizzazione specializzato che risolve le limitazioni di precisione dei formati FP4 micro-scala (MXFP4 e NVFP4) tramite trasformate di Hadamard e ottimizzazioni specifiche, ottenendo significativi miglioramenti sia nella velocità di esecuzione che nella precisione rispetto alle soluzioni attuali.

Vage Egiazarian, Roberto L. Castro, Denis Kuznedelev, Andrei Panferov, Eldar Kurtic, Shubhra Pandit, Alexandre Marques, Mark Kurtz, Saleh Ashkboos, Torsten Hoefler, Dan Alistarh

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🌉 Il Ponte tra la Promessa e la Realtà: La Storia di FP4

Immagina di avere un gigante digitale (un modello di intelligenza artificiale come Llama o Qwen) che è incredibilmente intelligente, ma anche enormemente pesante. Per farlo correre velocemente su un computer normale, gli ingegneri cercano di "dimagrirlo".

Fino a poco tempo fa, per dimagrire questi giganti, si usava un metodo semplice: trasformare i loro numeri complessi in numeri interi più piccoli (come passare da un'auto di lusso a una utilitaria). Ma ora, le aziende come NVIDIA e AMD hanno lanciato una nuova promessa: "FP4".

🚀 La Promessa: "Auto Volanti"

La promessa di FP4 (un formato di numeri a virgola mobile a 4 bit) è entusiasmante: è come promettere che queste "utilitarie" siano in realtà auto volanti. Dovrebbero essere:

  1. Leggerissime: Occupano pochissimo spazio.
  2. Velocissime: I computer le elaborano a velocità incredibili.
  3. Intelligenti: Dovrebbero mantenere la stessa intelligenza dell'auto di lusso originale.

🚧 Il Problema: L'Incidente sulla Strada

Il problema è che, quando gli scienziati hanno provato a guidare queste "auto volanti" nella realtà, si sono scontrati contro un muro.

  • Il formato NVFP4 (di NVIDIA) era un po' come un'auto che volava, ma con un motore un po' instabile: perdeva un po' di precisione.
  • Il formato MXFP4 (uno standard aperto) era peggio: era come un'auto che cercava di volare ma aveva le ruote quadrate. Perdeva troppa intelligenza (precisione) e il modello diventava confuso, facendo errori stupidi.

In sintesi: la tecnologia c'era, ma il metodo per usarla no. I vecchi trucchi per "dimagrire" i modelli non funzionavano bene con queste nuove forme di numeri.

🛠️ La Soluzione: MR-GPTQ (Il Meccanico Geniale)

Gli autori di questo paper hanno detto: "Non è colpa dell'auto, è colpa del meccanico che sta cercando di ripararla con gli attrezzi sbagliati".

Hanno creato un nuovo metodo chiamato MR-GPTQ (Micro-Rotated-GPTQ). Ecco come funziona, usando un'analogia:

Immagina che i numeri del modello siano un mucchio di mattoni di diverse forme e dimensioni (alcuni sono enormi, altri minuscoli).

  • Il vecchio metodo (RTN): Provava a mettere tutti i mattoni in scatole standard. I mattoni giganti (i "fuori norma" o outliers) rompevano le scatole o venivano schiacciati, rovinando tutto.
  • Il nuovo metodo (MR-GPTQ): Prima di mettere i mattoni nelle scatole, il meccanico prende un vortice magico (una rotazione di Hadamard).
    • Questo vortice mescola i mattoni in modo che quelli giganti si "spalmino" su tutti gli altri.
    • Invece di avere un mattone enorme che rompe la scatola, ora hai tanti mattoni normali che stanno tutti bene nelle scatole FP4.
    • Poi, usa una scatola speciale (il formato FP4) che è perfetta per questi mattoni mescolati.

⚡ I Risultati: Velocità e Intelligenza

Grazie a questo trucco, hanno costruito dei "motori" (chiamati QuTLASS) che fanno girare queste auto volanti senza perdere tempo.

I risultati sono stati sbalorditivi:

  1. Velocità: Su nuovi computer potenti (come la NVIDIA B200 o la RTX 5090), il modello gira fino a 4 volte più veloce rispetto alla versione originale, senza perdere quasi nulla di intelligenza.
  2. Precisione: Hanno recuperato quasi tutta l'intelligenza del modello originale. Il formato MXFP4, che prima era disastroso, ora funziona quasi quanto quello di NVIDIA.

🏁 Conclusione

In parole povere, questo paper ci dice:

"Le nuove tecnologie per rendere l'AI veloce (FP4) erano promesse vuote perché non sapevamo come usarle. Noi abbiamo inventato un nuovo metodo (MR-GPTQ) che 'mescola' i dati in modo intelligente prima di comprimerli. Risultato? Ora possiamo avere modelli di intelligenza artificiale super veloci e super leggeri, che pensano quasi quanto quelli pesanti e lenti."

È come se avessimo scoperto come trasformare una bicicletta in un jet, mantenendo la capacità di fare le curve perfette.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →