Pretraining Large Language Models with NVFP4

Dit paper introduceert een stabiele NVFP4-pretraining-methode voor grote taalmodellen die, na het trainen van een 12 miljard parameter tellend model op 10 biljoen tokens, prestaties bereikt die vergelijkbaar zijn met een FP8-basislijn.

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

Gepubliceerd 2026-03-06
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische, superintelligente robot wilt bouwen die alles over de wereld weet. Om dit te doen, moet je hem laten "leren" door hem miljarden boeken, websites en gesprekken te laten lezen. Dit proces heet pretraining.

Het probleem? Deze robots zijn zo groot dat ze enorme hoeveelheden energie en computerkracht nodig hebben. Het is alsof je een hele stad probeert te verlichten met één kaarsje: het kost te veel tijd en geld.

NVIDIA heeft een nieuwe oplossing bedacht, genaamd NVFP4. Hier is hoe het werkt, vertaald naar simpele taal:

1. Het probleem: De "Grote" Rekenmachine

Normaal gesproken gebruiken deze robots een heel nauwkeurige rekenmethode (zoals FP8 of BF16). Dit is alsof je een recept schrijft met exacte grammen en milliliters. Het resultaat is perfect, maar het kost veel tijd om alles af te wegen.

Om het sneller te maken, willen wetenschappers de robots laten werken met een "snellere, minder nauwkeurige" methode (FP4). Dit is alsof je recepten schrijft in "handvullingen" en "een beetje". Het is veel sneller en bespaart energie, maar het risico is dat je cake niet goed lukt omdat de maten te vaag zijn.

2. De Oplossing: NVFP4 (De Slimme Schaal)

NVFP4 is een nieuwe manier om die "handvullingen" te gebruiken, maar dan heel slim. In plaats van gewoon te schatten, gebruikt NVIDIA een slimme truc om de maten toch nauwkeurig te houden.

Stel je voor dat je een grote berg blokken hebt.

  • De oude manier (MXFP4): Je neemt een grote emmer en giet alle blokken erin. Als er één enorm groot blok in zit, moet je de hele emmer zo groot maken dat dat ene blok erin past. Hierdoor zijn de kleine blokjes in de emmer nu heel klein en moeilijk te zien.
  • De NVFP4 manier: Je maakt de emmers kleiner (kleinere groepjes). Als er een enorm groot blok in zit, past het precies in die kleine emmer. De kleine blokjes blijven daardoor goed zichtbaar. Dit zorgt ervoor dat de robot niet "verkeerd" gaat rekenen door de grote blokken.

3. De Vier Slimme Trucs (Het Recept)

Om ervoor te zorgen dat de robot niet gek wordt tijdens het leren met deze snelle methode, gebruiken ze vier specifieke technieken:

  • De "Veilige Zone" (Gemengde precisie):
    Stel je voor dat je een lange marathon loopt. Je rent de hele weg in lichte schoenen (FP4), maar op de lastigste stukken (de laatste kilometers) loop je even in stevige, zware laarzen (BF16). De robot doet hetzelfde: hij leert bijna alles in de snelle, lichte methode, maar houdt de allerbelangrijkste, meest gevoelige onderdelen (zoals de "hersenen" aan het einde van het netwerk) in de zware, nauwkeurige modus. Zo breekt hij niet.

  • De "Wervelwind" (Random Hadamard Transforms):
    Soms heeft de robot een heel groot, vreemd getal (een "uitbijter") dat de hele berekening verstoort. Het is alsof er één gigantische steen in een rivier ligt die het water laat overstromen.
    De oplossing? Ze gooien de stenen in de rivier door een wervelwind (een wiskundige draai). Hierdoor verspreiden die grote stenen zich over de hele rivier en worden ze kleine kiezelstenen. De rivier stroomt weer rustig door.

  • De "Spiegel" (2D Scaling):
    Als je een foto bekijkt en hem vervolgens spiegelt, moet het beeld hetzelfde blijven. Bij het leren van de robot gebeurt er soms dat de foto in de ene richting (voorwaarts) anders wordt afgerond dan in de andere richting (achterwaarts). Dat zorgt voor verwarring.
    NVFP4 zorgt ervoor dat de "spiegel" perfect is. Of je nu vooruit of achteruit kijkt, de afbeelding (de getallen) blijft exact hetzelfde. Dit voorkomt dat de robot zichzelf in de war brengt.

  • De "Gok" (Stochastic Rounding):
    Als je een getal moet afronden (bijvoorbeeld 3,4 naar 3 of 4), kun je altijd naar beneden afronden. Maar als je dat 100 keer doet, heb je een fout van 40.
    In plaats daarvan doet de robot een gok: 3,4 wordt 60% van de tijd 3 en 40% van de tijd 4. Over de lange termijn is dit gemiddeld perfect. Dit voorkomt dat de robot systematisch in één richting "op drift" raakt.

4. Het Resultaat: Sneller, Beter, Goedkoper

NVIDIA heeft deze methode getest met een robot van 12 miljard "neuronen" (een heel groot brein) die 10 biljoen woorden heeft gelezen.

Het resultaat?

  • De robot leerde even goed als de oude, trage methode.
  • Hij behaalde bijna exact dezelfde scores op testen (zoals wiskunde en logisch redeneren).
  • Maar hij deed het veel sneller en met minder energie.

Conclusie

Dit onderzoek is als het vinden van een nieuwe motor voor een auto. De oude motor (FP8) werkt goed, maar is zwaar en duur. De nieuwe motor (NVFP4) is lichter en sneller. Vroeger dachten we dat een lichte motor niet krachtig genoeg zou zijn voor een zware vrachtwagen, maar met deze slimme trucjes (de wervelwind, de spiegel en de veilige zone) blijkt dat de lichte motor net zo goed presteert.

Dit opent de deur voor een nieuwe generatie AI die we veel sneller en goedkoper kunnen trainen, zodat we binnenkort nog slimmere robots hebben die ons helpen.