Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Questo lavoro valuta i formati HiFloat (HiF8 e HiF4) ottimizzati per gli NPU Ascend, dimostrando che la loro scalabilità gerarchica e la compatibilità con le tecniche di quantizzazione esistenti offrono una soluzione efficiente per l'inferenza di LLM, superando i limiti delle rappresentazioni intere a 4 bit.

Pengxiang Zhao, Hui-Ling Zhen, Xing Li, Han Bao, Weizhe Lin, Zhiyuan Yang, Manyi Zhang, Yuanyong Luo, Ziwei Yu, Xin Wang, Mingxuan Yuan, Xianzhi Yu, Zhenhua Dong

Pubblicato 2026-03-03
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina che le Intelligenze Artificiali (come i grandi modelli linguistici che scrivono testi o rispondono a domande) siano come enormi biblioteche digitali. Per funzionare, queste biblioteche devono leggere milioni di libri (i dati) e ricordare tutto ciò che hanno letto.

Il problema è che queste "biblioteche" sono diventate così grandi e pesanti che i computer faticano a gestirle: consumano troppa energia e sono lenti. Per risolvere questo, gli ingegneri usano una tecnica chiamata quantizzazione: è come prendere un libro scritto in caratteri giganti e ridurlo a caratteri minuscoli per risparmiare spazio, senza però perdere il senso della storia.

Fino a poco tempo fa, si usava una "scala" molto rigida (i numeri interi, come 1, 2, 3) per comprimere questi dati. Funzionava bene, ma quando si cercava di ridurre i caratteri ancora di più (da 8 a 4 "pixel" di dimensione), la storia diventava illeggibile: i dettagli importanti sparivano.

Ecco dove entra in gioco questo studio di Huawei sui processori Ascend. Hanno scoperto un nuovo modo di scrivere questi "libri digitali" usando un formato chiamato HiFloat (HiF8 e HiF4).

Ecco come funziona, spiegato con delle metafore semplici:

1. Il problema della "Scala Rigida" (I vecchi metodi)

Immagina di dover misurare le altezze di persone in una stanza.

  • Il metodo vecchio (INT8/INT4): Usi un righello con tacche fisse e uguali (1 cm, 2 cm, 3 cm...). Se hai una persona alta 173 cm, la misuri bene. Ma se hai un bambino di 50 cm e un gigante di 3 metri, il tuo righello è troppo "grezzo": o perdi i dettagli del bambino o non riesci a misurare il gigante senza sbagliare tutto.
  • Il problema: Quando i dati sono molto variabili (come le emozioni in una conversazione o le parole strane in una frase), questo righello rigido fa crollare la qualità.

2. La soluzione "HiFloat": Il Righello Intelligente

Gli autori di questo studio hanno creato un righello magico che si adatta da solo.

  • HiF8 (8 bit): È come un righello che ha una scala dinamica. Se misuri un oggetto piccolo, usa tacche molto vicine tra loro per essere precisissimo. Se misuri un oggetto enorme, allarga le tacche per coprire la distanza senza perdere il righello.

    • L'analogia: È come un elastico che si allunga o si restringe per adattarsi all'oggetto che stai misurando.
    • Risultato: Funziona benissimo per i dati "vivi" e variabili (come le risposte che l'AI sta generando in tempo reale), ma per i dati statici (come i libri già scritti nella biblioteca) un righello rigido classico è ancora meglio.
  • HiF4 (4 bit): Qui la sfida è enorme. Abbiamo solo 4 "pixel" di spazio. Usare un righello rigido qui è come cercare di disegnare un quadro complesso con solo 16 colori: il risultato è una macchia informe.

    • La magia di HiF4: Invece di un solo righello, usa una scala a tre livelli (come una mappa geografica).
      1. Guarda l'intera regione (il blocco grande).
      2. Guarda il quartiere (il sottoblocco).
      3. Guarda la singola casa (il micro-blocco).
    • L'analogia: Immagina di dover descrivere una folla. Invece di dire "tutti sono alti 170cm" (errore), HiF4 dice: "In generale la folla è alta, ma in questo gruppo c'è un bambino, in quell'altro un giocatore di basket". Questo permette di salvare i dettagli importanti (i "bambini" e i "giganti") anche con pochissimo spazio.

3. Cosa hanno scoperto?

Hanno testato questo nuovo formato su due modelli AI famosi (Qwen e openPangu) e hanno visto che:

  1. Per i dati statici (i pesi del modello): A volte il vecchio metodo rigido (INT8) è ancora il migliore, perché i dati sono ordinati e non hanno sorprese.
  2. Per i dati dinamici (le risposte in tempo reale): HiFloat vince perché si adatta alle "sorprese" (i dati strani o estremi) senza rompersi.
  3. Il vero trionfo (4 bit): Quando hanno provato a comprimere tutto al minimo (4 bit), i vecchi metodi hanno fallito miseramente (l'AI diventava stupida). HiF4, invece, ha mantenuto l'AI quasi intelligente come prima, grazie alla sua struttura a "scala a tre livelli" che protegge i dettagli importanti.

In sintesi

Questo studio ci dice che per far correre le Intelligenze Artificiali veloci ed efficienti sui computer cinesi (Ascend), non serve solo schiacciarle di più (ridurre i bit). Serve cambiare come le misuriamo.

HiFloat è come passare da un righello di legno rigido a un elastico intelligente che sa quando stringersi e quando allungarsi. Questo permette di avere AI potenti che consumano meno energia e funzionano anche su dispositivi più piccoli, senza perdere la loro "intelligenza".

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →