Pretraining Large Language Models with NVFP4

NVIDIA, Felix Abecassis, Anjulie Agrusa, Dong Ahn, Jonah Alben, Stefania Alborghetti, Michael Andersch, Sivakumar Arayandi, Alexis Bjorlin, Aaron Blakeman, Evan Briones, Ian Buck, Bryan Catanzaro, Muya Chang, Jinhang Choi, Mike Chrzanowski, Eric Chung, Victor Cui, Steve Dai, Bita Darvish Rouhani, Carlo del Mundo, Deena Donia, Burc Eryilmaz, Henry Estela, Abhinav Goel, Oleg Goncharov, Yugi Guvvala, Robert Hesse, Russell Hewett, Herbert Hum, Ujval Kapasi, Brucek Khailany, Mikail Khona, Nick Knight, Alex Kondratenko, Ronny Krashinsky, Ben Lanir, Simon Layton, Michael Lightstone, Daniel Lo, Paulius Micikevicius, Asit Mishra, Tim Moon, Deepak Narayanan, Chao Ni, Abhijit Paithankar, Satish Pasumarthi, Ankit Patel, Mostofa Patwary, Ashwin Poojary, Gargi Prasad, Sweta Priyadarshi, Yigong Qin, Xiaowei Ren, Oleg Rybakov, Charbel Sakr, Sanjeev Satheesh, Stas Sergienko, Pasha Shamis, Kirthi Shankar, Nishant Sharma, Mohammad Shoeybi, Michael Siu, Misha Smelyanskiy, Darko Stosic, Dusan Stosic, Bor-Yiing Su, Frank Sun, Nima Tajbakhsh, Shelby Thomas, Przemek Tredak, Evgeny Tsykunov, Gandhi Vaithilingam, Aditya Vavre, Rangharajan Venkatesan, Roger Waleffe, Qiyu Wan, Hexin Wang, Mengdi Wang, Lizzie Wei, Hao Wu, Evan Wu, Keith Wyss, Ning Xu, Jinze Xue, Charlene Yang, Yujia Zhai, Ruoxi Zhang, Jingyang Zhu, Zhongbo Zhu

Veröffentlicht 2026-03-06

📖 5 Min. Lesezeit🧠 Tiefgang

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du möchtest einen riesigen, superintelligenten Roboter (einen sogenannten "Large Language Model" oder LLM) bauen, der alles auf der Welt weiß und lernen kann. Bis jetzt war dieser Prozess wie das Füttern eines Elefanten mit Goldmünzen: Es braucht unglaublich viel Rechenleistung, riesige Datenmengen und extrem viel Energie. Das macht die Ausbildung dieser KI sehr teuer und langsam.

NVIDIA hat jetzt eine neue Methode vorgestellt, die wie ein geniales Spar- und Beschleunigungssystem funktioniert. Sie nennen es NVFP4.

Hier ist die Erklärung in einfachen Worten, mit ein paar bildhaften Vergleichen:

1. Das Problem: Der "Goldmünzen"-Effekt

Stell dir vor, du hast einen riesigen Berg an Daten (Bücher, Code, Gespräche), den du deinem KI-Modell zeigen willst. Um das zu tun, musst du jede Zahl in diesem Berg mit einer sehr hohen Genauigkeit speichern (wie mit einer Waage, die auf Milligramm genau wiegt). Das nennt man "FP8" oder "FP32".

Das Problem: Diese hohe Genauigkeit braucht viel Platz (Speicher) und viel Zeit zum Rechnen. Es ist, als würdest du versuchen, einen Ozean mit einem Eimer zu leeren.

2. Die Lösung: NVFP4 – Der "Mini-Container"

NVIDIA hat einen neuen Format namens NVFP4 entwickelt.

Die Analogie: Stell dir vor, du hast einen riesigen Lagerhaus voller Kisten.
- Alte Methode (FP8): Du packst jeden Gegenstand in einen riesigen, schweren Holzkasten, der viel Platz wegnimmt.
- Neue Methode (NVFP4): Du erfindest einen neuen, winzigen, aber extrem cleveren Plastikbehälter. Er ist nur halb so groß und leicht wie der alte, aber er passt trotzdem fast alles hinein.
Der Vorteil: Da die Behälter so klein sind, passen doppelt so viele Daten in den Speicher, und der Computer kann sie doppelt so schnell verarbeiten. Das ist wie der Wechsel von einem Lastwagen zu einem schnellen Sportwagen für den gleichen Transport.

3. Die Herausforderung: Warum das nicht einfach ist

Wenn man die Kisten so stark verkleinert, gibt es ein Risiko: Die "Spitzen" brechen ab.

Das Problem: In den Daten gibt es manchmal extrem große oder extrem kleine Zahlen (sogenannte "Ausreißer"). Wenn man sie in den winzigen NVFP4-Behälter packt, passen sie nicht rein oder werden falsch abgeschnitten. Das wäre wie wenn man versucht, einen Elefanten in einen Minivan zu quetschen – er passt nicht, und das Auto geht kaputt (das Training bricht zusammen).

4. Die Tricks: Wie NVIDIA das Problem löst

Damit der "Minivan" (NVFP4) den "Elefanten" (die KI) sicher transportiert, haben die Forscher vier geniale Tricks angewendet:

Trick 1: Der "Hadamard-Zaubertrick" (Random Hadamard Transforms)
- Vergleich: Stell dir vor, du hast einen Stapel Karten, bei dem eine Karte riesig ist und den Rest verdeckt. Wenn du den Stapel einfach in den Koffer legst, passt er nicht.
- Die Lösung: Bevor du die Karten in den Koffer packst, wirfst du sie durch einen speziellen Mixer (den Hadamard-Transform). Dieser Mixer verteilt die riesige Karte so, dass sie sich in viele kleine, gleichmäßige Stücke auflöst. Jetzt passt alles perfekt in den kleinen Koffer, ohne dass etwas abgebrochen wird.
Trick 2: Der "Zwei-Ebenen-Skalen-Meister" (Two-Level Scaling)
- Vergleich: Stell dir vor, du hast eine ganze Bibliothek. Du brauchst einen großen Maßstab für das ganze Gebäude (Tensor-Ebene) und einen kleinen Maßstab für jedes einzelne Regal (Block-Ebene).
- Die Lösung: NVFP4 nutzt zwei Maßstäbe gleichzeitig. Ein grober Maßstab für den großen Bereich und ein sehr genauer Maßstab für die kleinen Details. So wird sichergestellt, dass auch die kleinsten Details nicht verloren gehen, während die großen Zahlen nicht platzen.
Trick 3: Der "Zufalls-Würfel" (Stochastic Rounding)
- Vergleich: Wenn du eine Zahl runden musst (z.B. 3,4 auf 3 oder 4), machst du das normalerweise immer gleich (immer runter). Das führt zu einem systematischen Fehler, wie ein Waage, die immer ein bisschen zu wenig anzeigt.
- Die Lösung: NVIDIA nutzt einen Zufallswürfel. Manchmal wird 3,4 auf 3 gerundet, manchmal auf 4. Über viele Millionen Berechnungen hinweg heben sich die Fehler gegenseitig auf. Das Training bleibt fair und genau.
Trick 4: Die "Schutzweste" für die wichtigsten Teile (Mixed Precision)
- Vergleich: Nicht alle Teile eines Autos müssen aus dem gleichen Material sein. Die Karosserie kann aus leichtem Plastik sein, aber die Bremsscheiben müssen aus hartem Stahl sein.
- Die Lösung: Die meisten Teile der KI werden in der kleinen NVFP4-Version trainiert. Aber die allerwichtigsten, empfindlichsten Teile (die letzten Schichten des Modells) bleiben in der großen, sicheren Version (BF16). Das schützt das Modell vor dem Zusammenbruch am Ende des Trainings.

5. Das Ergebnis: Ein riesiger Erfolg

Die Forscher haben einen 12-Milliarden-Parameter großen KI-Modell mit dieser Methode trainiert.

Das Ergebnis: Das Modell lernte genauso gut wie das Modell, das mit der alten, schweren Methode trainiert wurde. Es konnte genauso gut Mathe lösen, programmieren und Texte verstehen.
Der Vergleich: Sie haben NVFP4 mit einer anderen neuen Methode (MXFP4) verglichen. NVFP4 war wie ein Sprinter, der das Ziel schneller erreichte, während der andere Sprinter mehr Strecke laufen musste, um das gleiche Ergebnis zu erzielen.

Fazit

NVIDIA hat gezeigt, dass man KI-Modelle nicht nur mit "Goldmünzen" (teurem, hohem Rechenaufwand) trainieren muss. Mit dem NVFP4-Format und ihren cleveren Tricks (Mixer, Maßstäbe, Würfel und Schutzwesten) können wir KI-Modelle schneller, günstiger und energieeffizienter trainieren, ohne dass sie dümmer werden.

Das ist ein großer Schritt in Richtung einer Zukunft, in der noch leistungsfähigere KIs für alle verfügbar sind, ohne dass die Weltbrennstoffvorräte leerlaufen.

Pretraining Large Language Models with NVFP4

1. Das Problem: Der "Goldmünzen"-Effekt

2. Die Lösung: NVFP4 – Der "Mini-Container"

3. Die Herausforderung: Warum das nicht einfach ist

4. Die Tricks: Wie NVIDIA das Problem löst

5. Das Ergebnis: Ein riesiger Erfolg

Fazit

1. Problemstellung

2. Methodik: Der NVFP4-Ansatz

A. Das NVFP4-Format

B. Schlüsseltechniken für das Training

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Pretraining Large Language Models with NVFP4

1. Das Problem: Der "Goldmünzen"-Effekt

2. Die Lösung: NVFP4 – Der "Mini-Container"

3. Die Herausforderung: Warum das nicht einfach ist

4. Die Tricks: Wie NVIDIA das Problem löst

5. Das Ergebnis: Ein riesiger Erfolg

Fazit

1. Problemstellung

2. Methodik: Der NVFP4-Ansatz

A. Das NVFP4-Format

B. Schlüsseltechniken für das Training

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers