Pretraining Large Language Models with NVFP4

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

Publié 2026-03-06

📖 5 min de lecture🧠 Analyse approfondie

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de construire une ville entière (un modèle d'intelligence artificielle) avec des briques.

Jusqu'à présent, les architectes utilisaient des briques en pierre massive (la précision 8 bits, ou FP8). C'est solide, précis, mais très lourd. Pour construire les plus grandes villes, il faut des camions gigantesques, beaucoup de carburant et cela prend énormément de temps.

NVIDIA vient de publier une étude révolutionnaire qui dit : « Et si on utilisait des briques en mousse ultra-légères (la précision 4 bits, ou NVFP4) ? »

Le problème ? La mousse est fragile. Si vous l'utilisez mal, la ville s'effondre avant même d'être finie.

Ce rapport explique comment NVIDIA a réussi à construire une ville de 12 milliards de paramètres (une ville immense !) en utilisant presque exclusivement ces briques en mousse, sans qu'elle ne s'effondre. Voici comment ils ont fait, expliqué simplement.

1. Le nouveau format : NVFP4 (La brique intelligente)

Il existait déjà des briques en mousse (appelées MXFP4), mais elles avaient un défaut : elles étaient trop grossières. Imaginez que vous deviez mesurer la hauteur d'une montagne, mais votre règle ne fait que des sauts de 10 mètres. Vous allez rater les détails importants.

NVIDIA a créé NVFP4. C'est comme une règle en mousse qui a été retravaillée :

Plus de détails locaux : Au lieu de mesurer toute la ville avec une seule règle, NVFP4 utilise de petites règles locales pour chaque quartier. Cela permet de mieux capturer les variations subtiles.
Une échelle double : Ils utilisent une "super-échelle" (en précision normale) pour ajuster les règles locales. C'est comme avoir un chef d'orchestre qui ajuste le volume de chaque musicien individuellement pour que l'ensemble reste harmonieux.

2. Les 4 astuces pour ne pas faire s'effondrer la ville

Utiliser des briques légères est risqué. Pour que tout tienne, l'équipe a appliqué quatre règles d'or, comme des techniques de construction secrètes :

A. Les "Piliers de Béton" (Précision mixte)

Même si on veut utiliser de la mousse partout, certains endroits sont trop critiques.

L'analogie : Imaginez que vous construisez un gratte-ciel en mousse. Vous ne pouvez pas mettre de mousse dans les fondations ou au dernier étage où le vent souffle le plus fort.
La solution : NVIDIA garde les tout premiers et les tout derniers étages de leur modèle en "béton" (précision normale, BF16). Cela représente seulement 15% du travail, mais cela stabilise toute la structure.

B. Le "Bouleversement Aléatoire" (Transformations Hadamard)

Parfois, dans les données, il y a des valeurs extrêmes (des "outliers"). C'est comme un géant qui essaie de passer dans une porte faite pour des nains. Il va bloquer tout le système.

L'analogie : Imaginez que vous avez un tas de sable avec quelques gros cailloux. Si vous essayez de les passer dans un tamis fin, ça bloque. Mais si vous secouez le tas de sable violemment dans toutes les directions (le "Bouleversement"), les gros cailloux se dispersent et se mélangent au sable. Plus personne ne fait de blocage.
La solution : Ils appliquent une transformation mathématique qui "secoue" les données avant de les mettre dans les briques en mousse, pour éviter les blocages.

C. La "Carte Identique" (Mise à l'échelle 2D)

Quand on apprend, le modèle regarde les données dans un sens (vers l'avant) et vérifie ses erreurs dans l'autre sens (vers l'arrière).

Le problème : Avec les briques en mousse, si on regarde une image de face et de profil, elle peut sembler différente à cause de la compression. C'est comme si le modèle se souvenait d'une chose, mais vérifiait une autre chose. Ça crée de la confusion.
La solution : Ils utilisent une méthode de "mise à l'échelle 2D" (comme une grille de 16x16) pour s'assurer que la brique ressemble exactement à la même chose, que vous la regardiez de face ou de dos. C'est crucial pour que l'apprentissage reste cohérent.

D. Le "Jeu de Dés" (Arrondi Stochastique)

Quand on réduit une précision, on doit arrondir. Si on arrondit toujours vers le haut ou toujours vers le bas, on crée un biais (une erreur systématique).

L'analogie : Imaginez que vous devez payer 1,50 € avec des pièces de 1 €. Si vous donnez toujours 2 €, vous payez trop. Si vous donnez toujours 1 €, vous payez trop peu.
La solution : Au lieu de décider, on lance une pièce de monnaie (un dé). Parfois on arrondit à 1, parfois à 2, selon la probabilité. Sur le long terme, l'erreur moyenne est nulle. C'est ce qu'ils font pour les gradients (les corrections d'erreurs), ce qui permet au modèle de ne pas "tourner en rond".

3. Le résultat : Une ville aussi belle, mais 2 fois plus rapide

Ils ont testé cette méthode en construisant une ville de 12 milliards de "briques" (paramètres) en utilisant 10 trillions de mots (tokens) pour l'entraînement.

Résultat : La ville construite en mousse (NVFP4) est aussi solide et intelligente que celle construite en pierre (FP8).
Le gain : Comme les briques sont deux fois plus petites, on a besoin de deux fois moins de mémoire et le calcul est beaucoup plus rapide (jusqu'à 3 fois plus rapide sur les nouveaux puces NVIDIA Blackwell).

En résumé

Ce papier nous dit que l'avenir de l'IA ne sera pas seulement d'avoir des modèles plus gros, mais d'être plus intelligents sur la façon de les construire.

En passant de la "pierre" à la "mousse intelligente" (NVFP4), en utilisant des astuces de construction (les 4 techniques ci-dessus), NVIDIA montre qu'on peut entraîner les géants de demain beaucoup plus vite, avec moins d'énergie, sans sacrifier la qualité. C'est comme passer d'un camion de déménagement à un vélo électrique pour transporter le même poids : plus léger, plus rapide, et tout aussi efficace.

Pretraining Large Language Models with NVFP4

1. Le nouveau format : NVFP4 (La brique intelligente)

2. Les 4 astuces pour ne pas faire s'effondrer la ville

A. Les "Piliers de Béton" (Précision mixte)

B. Le "Bouleversement Aléatoire" (Transformations Hadamard)

C. La "Carte Identique" (Mise à l'échelle 2D)

D. Le "Jeu de Dés" (Arrondi Stochastique)

3. Le résultat : Une ville aussi belle, mais 2 fois plus rapide

En résumé

Résumé Technique : Préentraînement de Modèles de Langage à Grande Échelle avec NVFP4

1. Problématique

2. Méthodologie et Approche Proposée

3. Résultats Expérimentaux

4. Contributions Clés

5. Signification et Impact

Pretraining Large Language Models with NVFP4

1. Le nouveau format : NVFP4 (La brique intelligente)

2. Les 4 astuces pour ne pas faire s'effondrer la ville

A. Les "Piliers de Béton" (Précision mixte)

B. Le "Bouleversement Aléatoire" (Transformations Hadamard)

C. La "Carte Identique" (Mise à l'échelle 2D)

D. Le "Jeu de Dés" (Arrondi Stochastique)

3. Le résultat : Une ville aussi belle, mais 2 fois plus rapide

En résumé

Résumé Technique : Préentraînement de Modèles de Langage à Grande Échelle avec NVFP4

1. Problématique

2. Méthodologie et Approche Proposée

3. Résultats Expérimentaux

4. Contributions Clés

5. Signification et Impact

Articles similaires

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers