Pretraining Large Language Models with NVFP4

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

Pubblicato 2026-03-06

📖 5 min di lettura🧠 Approfondimento

Vedi su arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🚀 Il Segreto per Costruire Cervelli Artificiali più Veloci (e meno affamati)

Immagina di voler costruire un cervello artificiale (un modello linguistico come quelli che usi ogni giorno) che sia così intelligente da risolvere problemi complessi. Per farlo, oggi servono computer enormi che consumano tanta energia e tempo, come se stessi cercando di accendere un intero quartiere solo per accendere una lampadina.

NVIDIA ha scoperto un nuovo modo per farlo: NVFP4. Ma cos'è? È come passare da un camioncino pieno di merci a una moto sportiva: molto più veloce, occupa meno spazio, ma deve essere guidata con una tecnica speciale per non cadere.

Ecco come funziona, spiegato con delle metafore quotidiane.

1. Il Problema: Troppa "Precisione" Spreca Energia

Fino a poco tempo fa, questi cervelli artificiali venivano addestrati usando numeri molto precisi (come se scrivessi una ricetta con grammi e milligrammi). Questo è preciso, ma richiede enormi quantità di energia e memoria.
NVIDIA ha già provato a usare numeri meno precisi (8-bit, come usare "un cucchiaio" invece dei grammi), ma ora vogliono fare un salto di qualità: usare numeri 4-bit (come usare "un pizzico" o "un dito").

Il vantaggio: Velocità doppia o tripla e metà della memoria necessaria.
Il rischio: Se usi "un pizzico" per misurare ingredienti delicati, rischi di rovinare la torta. I numeri troppo piccoli si perdono, quelli troppo grandi "esplodono" (diventano infiniti).

2. La Soluzione: NVFP4 (Il "Sistema di Misurazione Intelligente")

NVIDIA ha creato un nuovo formato chiamato NVFP4. Non è solo un modo per scrivere numeri più piccoli, è un sistema intelligente per gestire le eccezioni.

Immagina di dover misurare l'altezza di una folla di persone:

Il vecchio metodo (MXFP4): Prendi un metro rigido e lo applichi a gruppi di 32 persone. Se c'è un gigante (un "outlier") in mezzo, il metro si piega e non riesci a misurare bene nessuno.
Il nuovo metodo (NVFP4):
1. Gruppi più piccoli: Invece di misurare 32 persone insieme, ne misuri solo 16. È più facile gestire le differenze di altezza.
2. Due livelli di scala: Immagina di avere un righello gigante (livello del gruppo) e un righello piccolo (livello della singola persona). Se c'è un gigante, il righello piccolo si adatta a lui, mentre il righello gigante si assicura che il gruppo non esca dai limiti.
3. Risultato: Riesci a misurare sia i nani che i giganti senza perdere precisione.

3. I 4 Trucchi del Mago (La Metodologia)

Usare solo il nuovo righello non basta. Per addestrare un modello enorme (12 miliardi di parametri) su 10 trilioni di parole senza impazzire, NVIDIA ha usato quattro trucchi magici:

🛡️ I "Guardiani" ad Alta Precisione (Mixed Precision):
Immagina che il cervello artificiale sia una catena di montaggio. La maggior parte dei lavoratori usa gli attrezzi veloci ma economici (4-bit). Ma NVIDIA ha lasciato alcuni lavoratori chiave (i primi e gli ultimi passaggi) con gli attrezzi di lusso (alta precisione). Se questi "guardiani" fanno un errore, tutta la catena si blocca. Tenerli precisi assicura che il lavoro finisca bene.
🌪️ Il Mescolatore di Caos (Random Hadamard Transforms):
A volte, nei dati, ci sono numeri "strani" e molto grandi (come un picco improvviso) che confondono il sistema. Immagina di avere un mazzo di carte dove un Asso di Picche è enorme e le altre carte sono piccole. Se le mescoli in modo casuale (usando una trasformazione matematica speciale), quell'Asso si "nasconde" tra le altre carte e diventa meno pericoloso. Questo rende i dati più uniformi e facili da gestire.
🔄 La Regola del "Specchio Perfetto" (2D Scaling):
Quando un modello impara, guarda i dati in avanti (come leggere un libro) e poi all'indietro (come correggere gli errori). Il problema è che se usi due righelli diversi per leggere e correggere, ti sbagli. NVIDIA ha creato un sistema che assicura che il righello usato per leggere sia identico a quello usato per correggere, anche se il libro viene girato. Questo evita che il modello si confonda su se stesso.
🎲 Il Lancio della Moneta (Stochastic Rounding):
Quando arrotondi un numero (es. 3.4 diventa 3), spesso lo fai sempre nello stesso modo. Questo crea un "bias" (un pregiudizio) che si accumula. NVIDIA ha detto: "Facciamo un lancio di moneta!". A volte arrotondiamo per eccesso, a volte per difetto, in modo casuale. Questo fa sì che gli errori si cancellino a vicenda nel lungo periodo, invece di accumularsi.

4. Il Risultato: Una Rivoluzione

Hanno provato questo metodo su un modello gigante (12 miliardi di parametri) addestrato su 10 trilioni di parole (una quantità di dati enorme, come leggere tutti i libri del mondo mille volte).

Il confronto: Hanno messo a confronto il modello addestrato con il nuovo metodo (NVFP4) e uno addestrato con il metodo vecchio (FP8).
La sorpresa: I risultati sono quasi identici. Il modello NVFP4 ha ottenuto lo stesso punteggio di intelligenza (ad esempio, nel rispondere a domande di cultura generale o matematica) del modello più lento e pesante.
Il vantaggio: È stato fatto con metà della memoria e molta più velocità.

In Sintesi

NVIDIA ha dimostrato che possiamo costruire i cervelli artificiali del futuro usando "strumenti più leggeri" (4-bit), a patto di usare un sistema di guida molto intelligente (i 4 trucchi descritti).

È come se avessimo scoperto che per guidare una Formula 1 su una pista difficile non serve un motore enorme, ma basta un motore più piccolo se sai esattamente come sterzare, frenare e accelerare. Questo apre la porta a modelli più potenti, più veloci ed economici, che potranno girare anche su computer meno costosi in futuro.

Pretraining Large Language Models with NVFP4

🚀 Il Segreto per Costruire Cervelli Artificiali più Veloci (e meno affamati)

1. Il Problema: Troppa "Precisione" Spreca Energia

2. La Soluzione: NVFP4 (Il "Sistema di Misurazione Intelligente")

3. I 4 Trucchi del Mago (La Metodologia)

4. Il Risultato: Una Rivoluzione

In Sintesi

Titolo: Pretraining di Large Language Models con NVFP4

1. Il Problema

2. Metodologia Proposta

3. Risultati Sperimentali

4. Contributi Chiave

5. Significato e Impatto

Pretraining Large Language Models with NVFP4

🚀 Il Segreto per Costruire Cervelli Artificiali più Veloci (e meno affamati)

1. Il Problema: Troppa "Precisione" Spreca Energia

2. La Soluzione: NVFP4 (Il "Sistema di Misurazione Intelligente")

3. I 4 Trucchi del Mago (La Metodologia)

4. Il Risultato: Una Rivoluzione

In Sintesi

Titolo: Pretraining di Large Language Models con NVFP4

1. Il Problema

2. Metodologia Proposta

3. Risultati Sperimentali

4. Contributi Chiave

5. Significato e Impatto

Articoli simili

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers