Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

Meng Xin, Sweta Priyadarshi, Jingyu Xin, Bilal Kartal, Aditya Vavre, Asma Kuriparambil Thekkumpate, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Ido Shahaf, Akhiad Bercovich, Kinjal Patel, Suguna Varshini Velury, Chenjie Luo, Zhiyu Cheng, Jenny Chen, Chen-Han Yu, Wei Ping, Oleg Rybakov, Nima Tajbakhsh, Oluwatobi Olabiyi, Dusan Stosic, Di Wu, Song Han, Eric Chung, Sharath Turuvekere Sreenivas, Bryan Catanzaro, Yoshi Suhara, Tijmen Blankevoort, Huizi Mao

Veröffentlicht 2026-03-04

📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Ansehen auf arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Das Problem: Der „Super-Auto"-Effekt

Stell dir vor, du hast einen extrem leistungsstarken Rennwagen (ein KI-Modell), der mit einem riesigen, schweren V8-Motor läuft (das Modell im vollen Präzisions-Format, BF16). Dieser Wagen ist schnell, präzise und kann alles. Aber er ist auch schwer, verbraucht viel Treibstoff und braucht eine spezielle Werkstatt, um zu fahren.

Die Welt will aber, dass dieser Wagen auch in kleinen, günstigen Autos (Handys, günstigere Server) fährt. Also versuchen die Ingenieure, den Motor zu verkleinern und den Wagen auf 4-Bit-Größe (NVFP4) zu schrumpfen. Das ist wie der Versuch, einen V8-Motor in die Karosserie eines Mini-Cooper zu zwängen.

Das Ergebnis? Der Wagen fährt noch, aber er stolpert. Er verliert an Kraft, macht Fehler bei Kurven und ist nicht mehr so klug wie vorher. Das nennt man im Papier „Genauigkeitsverlust".

Die alte Lösung: „Selbststudium" (QAT)

Früher haben Ingenieure versucht, dem verkleinerten Auto beizubringen, wie man fährt, indem sie es einfach wieder auf die Rennstrecke geschickt haben (das nennt man Quantization-Aware Training oder QAT).

Das Problem: Der ursprüngliche Rennwagen wurde in einer komplexen Serie von Trainingsphasen gebaut (zuerst hat er gelernt zu lesen, dann hat er durch Belohnungen gelernt zu logisch zu denken, dann wurde er mit anderen Autos verschmolzen).
Wenn man das verkleinerte Auto jetzt einfach wieder auf die Strecke schickt, um es neu zu trainieren, passiert oft ein Desaster: Es vergisst, was es gelernt hat, oder es lernt die falschen Tricks, weil es nicht mehr genau weiß, wie der ursprüngliche Lehrer (der große V8-Motor) gedacht hat. Besonders bei Modellen, die durch „Belohnungslernen" (Reinforcement Learning) trainiert wurden, geht das oft schief.

Die neue Lösung: „Der perfekte Schatten" (QAD)

Die NVIDIA-Forscher haben eine clevere neue Methode entwickelt: Quantization-Aware Distillation (QAD).

Stell dir vor, der große, volle V8-Motor (der Lehrer) steht neben dem kleinen, verkleinerten Motor (der Schüler).
Anstatt den Schüler auf die Rennstrecke zu schicken und zu sagen: „Fahr mal los!", setzen sie den Schüler direkt neben den Lehrer.

Der Lehrer fährt: Der große Motor fährt eine Runde und sagt: „Ich würde jetzt hier leicht nach links lenken, weil ich das Gefühl habe, dass dort eine Kurve kommt."
Der Schüler beobachtet: Der kleine Motor hört nicht auf die Straße, sondern nur auf den Lehrer. Er versucht nicht, die Straße selbst zu verstehen, sondern kopiert exakt die Gedanken und Entscheidungen des Lehrers.
Die Magie: Der Schüler lernt nicht aus den Daten (den Straßenverhältnissen), sondern aus dem Wissen des Lehrers. Er lernt: „Wenn der Lehrer so denkt, dann muss ich mich auch so verhalten."

Warum ist das so genial? (Die Vorteile)

Das Papier zeigt drei große Vorteile dieser Methode:

Es funktioniert auch bei schwierigen Schülern:
Viele moderne KI-Modelle haben eine komplexe Biografie (sie wurden erst feinjustiert, dann durch Belohnungen optimiert, dann gemischt). Wenn man versucht, diese Modelle neu zu trainieren (QAT), bricht oft alles zusammen. Aber mit der „Schatten-Methode" (QAD) bleibt der Schüler stabil. Er kopiert einfach den Lehrer, egal wie komplex dessen Geschichte war.
Es braucht keine perfekte Bibliothek:
Normalerweise braucht man riesige Mengen an Trainingsdaten, um ein KI-Modell zu verbessern. Bei QAD ist das egal.
- Die Analogie: Stell dir vor, du willst einen Kochlehrling ausbilden. Normalerweise brauchst du tausende Rezepte und Zutaten. Bei QAD reicht es, wenn der Meisterkoch (der Lehrer) einfach nur einen Salat macht und der Lehrling genau zusieht. Selbst wenn der Lehrling nur Zutaten für Suppe hat (falsche Daten), kann er durch das Beobachten des Meisters trotzdem lernen, wie man einen perfekten Salat macht. Das Papier zeigt, dass QAD sogar mit zufälligen Buchstaben oder nur einem Teil der Daten funktioniert!
Es rettet die „Künstliche Intelligenz":
Besonders bei Modellen, die durch Belohnungslernen (RL) trainiert wurden (wie ein Schachspieler, der durch tausende Siege lernt), war die alte Methode katastrophal. QAD hat diese Modelle gerettet und sie wieder fast so gut gemacht wie den riesigen V8-Motor, nur dass sie jetzt klein und schnell sind.

Zusammenfassung

Die Forscher sagen im Grunde:
„Statt den kleinen KI-Motor mühsam neu zu trainieren und dabei alles kaputtzumachen, lassen wir ihn einfach den großen, perfekten Motor kopieren. Der kleine Motor lernt nicht aus den Daten, sondern aus dem Gedanken des Lehrers."

Das Ergebnis: Wir können riesige, kluge KI-Modelle auf kleine, energieeffiziente Chips (NVFP4) packen, ohne dass sie dumm werden. Sie sind dann so schnell wie ein Sportwagen, aber so klein wie ein Smart.

Der Clou: Man braucht dafür kaum Daten und wenig Rechenleistung. Es ist wie ein „Kopier-Knopf" für Intelligenz, der die KI wieder auf den richtigen Weg bringt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Mit dem rasanten Wachstum von Large Language Models (LLMs) und Vision-Language Models (VLMs) steigt der Bedarf an effizienteren numerischen Formaten, um Rechenkosten, Speicherbedarf und Energieverbrauch zu senken. Während 8-Bit-Formate (FP8) bereits etabliert sind, stellt das 4-Bit-Float-Format NVFP4 (NVIDIA Floating Point 4) den nächsten logischen Schritt dar, der eine 2- bis 3-fache Steigerung der Rechenleistung und eine Halbierung des Speicherverbrauchs gegenüber FP8 bietet.

Das Hauptproblem liegt jedoch in der Genauigkeitsverlust bei der Quantisierung, insbesondere bei kleineren Modellen oder solchen, die komplexe Nachtrainings-Pipelines durchlaufen haben:

Post-Training Quantization (PTQ): Funktioniert bei sehr großen Modellen gut, führt aber bei kleineren Modellen und sensiblen Aufgaben zu signifikanten Genauigkeitsverlusten.
Quantization-Aware Training (QAT): Die traditionelle Methode zur Genauigkeitswiederherstellung stößt bei modernen LLMs an Grenzen. Diese Modelle durchlaufen oft mehrstufige Nachtrainings-Prozesse (Supervised Fine-Tuning, Reinforcement Learning, Model Merging). Eine Reproduktion dieser komplexen Pipelines für ein quantisiertes QAT ist oft technisch unmöglich oder zu aufwendig. Zudem kann QAT bei RL-trainierten Modellen die während des RL erlernten Fähigkeiten zerstören.

2. Methodik: Quantization-Aware Distillation (QAD)

Die Autoren schlagen Quantization-Aware Distillation (QAD) als effiziente Alternative vor. Im Gegensatz zum QAT, das den quantisierten Schüler mit derselben Aufgaben-Loss-Funktion (z. B. Cross-Entropy für Next-Token-Prediction) wie das Originalmodell trainiert, nutzt QAD Knowledge Distillation.

Lehrer-Schüler-Architektur: Das ursprüngliche Vollpräzisions-Modell (BF16) dient als „Lehrer", das quantisierte NVFP4-Modell als „Schüler".
Verlustfunktion: Statt der Cross-Entropy wird die Kullback-Leibler (KL) Divergenz zwischen der Ausgabe des Lehrers und des Schülers minimiert.
- Formel: $\mathcal{L}_{QAD} = D_{KL}(p_{teacher} \| p_{student})$
Ziel: Der Schüler lernt nicht nur die korrekten Labels, sondern passt seine gesamte Wahrscheinlichkeitsverteilung an die des Lehrers an. Dies bewahrt die feinen Nuancen und impliziten Wissen des Originalmodells, die durch die Quantisierung verloren gehen könnten.
Dateneffizienz: QAD benötigt deutlich weniger Trainingsdaten als das ursprüngliche Nachtraining und ist robust gegenüber unvollständiger Domänenabdeckung.

3. Wichtige Beiträge und Erkenntnisse

Der Bericht identifiziert drei Hauptvorteile von QAD im Vergleich zu QAT:

Überlegene Ausrichtung auf BF16: QAD führt zu einer fast perfekten Übereinstimmung der Ausgabeverteilung mit dem BF16-Baseline-Modell (nahezu Null KL-Divergenz), während QAT zwar die Validierungsverluste (Cross-Entropy) erreichen kann, aber die eigentliche Verteilung des Modells verändert.
Stabilität bei komplexen Pipelines: QAD funktioniert hervorragend für Modelle, die durch mehrstufige Prozesse (SFT, RL, Merging) entstanden sind. Es vermeidet die Notwendigkeit, diese komplexen Trainingsphasen für das quantisierte Modell neu zu simulieren.
Robustheit gegenüber Datenqualität und -abdeckung:
- QAD kann Genauigkeit auch mit teilweisen Domänendaten wiederherstellen (z. B. Training nur mit Mathematikdaten für ein Modell, das auch Code beherrscht). Dies ermöglicht einen effektiven domänenübergreifenden Wissenstransfer.
- Die Methode ist extrem robust gegenüber der Datenquelle: Sie funktioniert mit synthetischen Daten, RL-generierten Daten (auch mit falschen Lösungen) und sogar mit zufälligen Token-Sequenzen, ohne das Modell zu zerstören.

4. Ergebnisse

Die Evaluierung umfasste mehrere Modelle, darunter Nemotron Nano, Llama Nemotron Super und AceReason Nemotron, sowohl für reine LLMs als auch für VLMs.

Genauigkeitswiederherstellung: QAD konnte die NVFP4-Modelle konsistent auf ein Niveau nahe der BF16-Baseline zurückführen.
Vergleich QAT vs. QAD:
- Bei SFT-lastigen Modellen (z. B. Nemotron Nano 9B V2) übertraf QAT QAT deutlich, insbesondere bei Reasoning-Aufgaben wie AIME25 (+4,4 %) und GPQA-D (+5,8 %).
- Bei RL-lastigen Modellen (z. B. Nemotron 3 Nano, AceReason) führte QAT zu einem massiven Einbruch der Fähigkeiten (teilweise schlechter als reine PTQ), während QAD die BF16-Leistung erfolgreich wiederherstellte.
Hyperparameter-Empfehlungen:
- Lernrate: Für SFT-Modelle sollten niedrige Lernraten (ca. $10^{-6}$ ) verwendet werden. Für RL-Modelle sind höhere Lernraten ( $10^{-5}$ ) vorteilhaft, da sich die Verteilung durch das RL verschoben hat.
- Lehrer-Modell: Es wird empfohlen, das originale BF16-Modell als Lehrer zu verwenden, da größere Lehrer aus derselben Familie nicht unbedingt bessere Ergebnisse liefern.

5. Bedeutung und Fazit

Dieser technische Bericht etabliert QAD als den praktischen Standard für die Genauigkeitswiederherstellung von NVFP4-quantisierten Modellen.

Praktische Anwendbarkeit: Da QAD keine Reproduktion der ursprünglichen, oft intransparenten Trainingspipelines erfordert und mit weniger Daten auskommt, ist es für die Industrie hochgradig skalierbar.
Lösung für RL-Modelle: Es bietet die erste robuste Lösung, um die Genauigkeit von RL-optimierten Modellen in 4-Bit-Formaten wiederherzustellen, ohne deren Fähigkeiten zu zerstören.
Ressourceneffizienz: Durch die Fähigkeit, mit synthetischen oder teilweisen Daten zu arbeiten, senkt QAD die Hürden für den Einsatz von NVFP4 in Produktion erheblich.

Die Autoren stellen die entsprechenden Checkpoints und Code-Implementierungen (Megatron-LM, NeMo, HuggingFace) öffentlich zur Verfügung, um die Adoption dieser Technik in realen Szenarien zu erleichtern.

Quantization-Aware Distillation for NVFP4 Inference Accuracy Recovery

Das Problem: Der „Super-Auto"-Effekt

Die alte Lösung: „Selbststudium" (QAT)

Die neue Lösung: „Der perfekte Schatten" (QAD)

Warum ist das so genial? (Die Vorteile)

Zusammenfassung

1. Problemstellung

2. Methodik: Quantization-Aware Distillation (QAD)

3. Wichtige Beiträge und Erkenntnisse

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression