Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, hochauflösenden Film (ein großes KI-Modell), den Sie auf einem kleinen Smartphone abspielen wollen. Das Problem: Der Film ist so detailreich, dass er den Speicher und die Rechenleistung des Handys sprengt.

Um das zu lösen, nutzen Ingenieure eine Technik namens Quantisierung. Das ist wie das Komprimieren eines Films: Man reduziert die Anzahl der Farben und Details, damit er schneller und platzsparender läuft.

In der Welt der KI gibt es zwei Hauptakteure für diese Komprimierung auf 4-Bit (sehr stark komprimiert):

NVFP4 (von NVIDIA): Der „Premium-Film". Er sieht fast genauso gut aus wie das Original, ist aber schwer zu verarbeiten und benötigt spezielle, teure Hardware.
MXFP4 (von Open Compute Project): Der „Budget-Film". Er ist super effizient, spart Energie und Platz auf dem Chip, leidet aber unter einem Problem: Er ist oft zu stark komprimiert. Wichtige Details (die „Ausreißer" – wie ein plötzlicher, heller Blitz in einer dunklen Szene) gehen verloren, und das Bild wird unscharf.

Bisher war MXFP4 also der schnellere, aber qualitativ schlechtere Weg. Diese Arbeit von Meta zeigt nun, wie man MXFP4 so verbessert, dass er fast genauso gut ist wie der Premium-Weg, ohne dass man neue Hardware bauen muss.

Hier ist die Erklärung der beiden neuen Tricks, die sie erfunden haben:

1. Der Trick „Overflow-Aware Scaling" (OAS) – Der „Dynamische Regler"

Das Problem:
Stellen Sie sich vor, Sie haben einen Wasserhahn, der nur zwei Einstellungen hat: „Ganz zu" oder „Ganz auf". Wenn Sie einen kleinen Tropfen Wasser brauchen, geht das nicht gut. Wenn Sie einen Eimer füllen wollen, läuft es über.
Bei MXFP4 funktioniert das ähnlich. Die Skalierung (wie stark das Signal vergrößert wird) ist in festen Schritten (Potenzen von 2) eingeteilt. Wenn ein Wert genau zwischen zwei Stufen liegt, wird er auf die nächste gerundet – und dabei oft ungenau.

Die Lösung (OAS):
Die Forscher haben einen cleveren „Notfall-Plan" entwickelt.

Die Analogie: Stellen Sie sich vor, Sie haben einen Regler, der normalerweise nur bei 4, 8, 16 steht. Wenn Sie einen Wert von 7 messen, sagen Sie normalerweise: „Na gut, 8 ist nah genug." Aber das ist ungenau.
Der neue Trick: OAS schaut sich die Werte genau an. Wenn ein Wert knapp unter einer Grenze liegt (z. B. 3,5), erlaubt das System, den Regler so zu drehen, dass der Bereich für die kleinen Werte erweitert wird. Es ist, als würde man den Wasserhahn für kurze Zeit auf eine Zwischenstellung stellen, nur für den Moment, in dem es nötig ist.
Das Ergebnis: Die kleinen, wichtigen Details werden nicht mehr abgeschnitten. Das Bild wird schärfer, ohne dass man den Wasserhahn (die Hardware) umbauen muss.

2. Der Trick „Macro Block Scaling" (MBS) – Der „Spezialist für Ausreißer"

Das Problem:
In KI-Daten gibt es immer ein paar extreme Werte (Ausreißer). In einem Bild sind das vielleicht nur ein paar Pixel, die extrem hell sind, aber sie bestimmen, ob das Bild gut aussieht oder nicht.
Bei MXFP4 wird die Skalierung für einen ganzen Block von 32 Zahlen gleich berechnet. Wenn ein extrem heller Pixel in diesem Block ist, wird der ganze Block so skaliert, dass dieser helle Pixel passt. Aber dann werden die 31 anderen, normalen Pixel im Block extrem ungenau dargestellt.

Die Analogie: Es ist wie eine Gruppe von Freunden, die gemeinsam ein Taxi nehmen. Wenn einer von ihnen riesig ist (der Ausreißer), muss das Taxi so groß sein, dass er reinpasst. Aber dann haben die anderen 31 Freunde im Taxi viel zu viel Platz und sitzen auf dem Boden, weil das Taxi zu groß für sie ist. Die Ressource (der Platz im Taxi) wird verschwendet.

Die Lösung (MBS):
Hier greift der zweite Trick.

Die Analogie: Statt für die ganze Gruppe (32 Personen) ein riesiges Taxi zu nehmen, nehmen wir für die Gruppe ein normales Taxi, aber wir haben einen Spezialisten dabei, der sich nur um den Riesen kümmert.
Wie es funktioniert: MBS schaut sich einen größeren Block (128 Zahlen) an. Es berechnet eine feine, präzise Korrektur speziell für die extremen Werte in diesem Block. Diese Korrektur wird dann auf die kleineren Blöcke angewendet.
Der Clou: Man behält die effiziente Hardware für die normalen Daten bei, fügt aber eine kleine, softwarebasierte „Korrekturschicht" hinzu, die die Ausreißer rettet. Es ist, als würde man dem Riesen in der Gruppe eine spezielle Sitzverlängerung geben, damit er passt, ohne dass das ganze Taxi vergrößert werden muss.

Das Endergebnis: Der „Beste von beiden Welten"-Film

Durch die Kombination dieser beiden Software-Tricks (OAS und MBS) passiert etwas Magisches:

Qualität: Die MXFP4-Modelle sind nun fast genauso scharf und genau wie die teuren NVFP4-Modelle. Der Unterschied in der Genauigkeit ist von früher 10% auf weniger als 1% gesunken.
Geschwindigkeit & Kosten: Da keine neue Hardware gebaut werden muss, bleibt MXFP4 extrem schnell und spart Energie und Platz auf dem Chip (ca. 12% weniger Chipfläche).
Der Preis: Der einzige „Nachteil" ist ein winziger Rechenaufwand (ca. 6% mehr Rechenzeit), der aber durch die enorme Effizienz der Hardware mehr als ausgeglichen wird.

Zusammenfassend:
Die Autoren haben gezeigt, dass man nicht unbedingt teure, spezielle Hardware braucht, um KI-Modelle effizient und präzise zu machen. Durch clevere Software-Algorithmen (OAS und MBS) kann man den günstigen, effizienten Standard (MXFP4) so weit verbessern, dass er den teuren Premium-Standard (NVFP4) fast vollständig einholt. Es ist, als hätte man einen alten, günstigen Motor so umgebaut, dass er die Leistung eines Formel-1-Autos liefert, ohne den Motor selbst austauschen zu müssen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction" auf Deutsch:

Problemstellung

Große Sprachmodelle (LLMs) erfordern zunehmend effiziente Inferenzverfahren, um den steigenden Rechen- und Ressourcenbedarf zu bewältigen. Quantisierung (die Reduzierung der Präzision von Modellparametern) ist eine Schlüsseltechnologie hierfür. Der Open Compute Project (OCP) hat den Microscaling (MX)-Standard eingeführt, der aufgrund seiner hohen Hardware-Effizienz vielversprechend ist.

Das spezifische Format MXFP4 (4-Bit) leidet jedoch im Vergleich zu NVIDIAs proprietärem Format NVFP4 unter einer signifikanten Genauigkeitslücke.

Die Ursache: MXFP4 verwendet eine Blockgröße von 32 Elementen mit einem Skalierungsfaktor im Format E8M0 (8 Bit Exponent, 0 Bit Mantisse). Dies zwingt Skalierungsfaktoren zu Potenzen von zwei.
Der Nachteil: NVFP4 nutzt eine feinere Blockgröße (16 Elemente) und einen Skalierungsfaktor mit höherer Präzision (E4M3, 3 Bit Mantisse), was eine bessere Anpassung an Ausreißer (Outliers) in den Daten erlaubt.
Das Dilemma: NVFP4 bietet höhere Genauigkeit, erfordert aber teurere Hardware-Änderungen (mehr Logikfläche). MXFP4 ist hardware-effizienter, führt aber zu einem Genauigkeitsverlust von ca. 10 % in Downstream-Aufgaben, was seine breite Adoption behindert.

Methodik und Lösungsansatz

Die Autoren schlagen zwei rein softwarebasierte Techniken vor, die die Genauigkeit von MXFP4 drastisch verbessern, ohne Änderungen an der Hardware vorzunehmen. Sie nutzen dabei die bestehende MXFP4-Hardware, optimieren aber die Skalierungsstrategie.

Die beiden Kernmethoden sind:

Overflow-Aware Scaling (OAS):
- Problem: Bei der Standard-Quantisierung werden Werte, die den darstellbaren Bereich überschreiten (Overflows), abgeschnitten (Clamping), was zu großen relativen Fehlern führt.
- Lösung: OAS erkennt Blöcke, bei denen der maximale Wert ( $\alpha_{max}$ ) in einem kritischen Bereich liegt (z. B. zwischen 3,0 und 3,5). Statt den Skalierungsfaktor strikt auf die nächste Potenz von zwei zu runden, wird der Skalierungsfaktor so angepasst, dass $\alpha_{max}$ in den Bereich $(3,5; 7]$ verschoben wird.
- Effekt: Dies verdoppelt effektiv den darstellbaren dynamischen Bereich für kleinere Werte und reduziert den Quantisierungsfehler für den „Tail" der Verteilung, ohne die Hardware zu ändern.
Macro Block Scaling (MBS):
- Problem: Ausreißer (sehr große Werte) machen oft weniger als 1 % der Tensor-Daten aus, verursachen aber den Großteil des Quantisierungsfehlers. Das E8M0-Format (nur Exponent) kann diese Ausreißer nicht präzise genug skalieren, da es keine Mantisse zur Feinjustierung hat.
- Lösung: MBS führt eine übergeordnete Skalierungsebene ein. Anstatt nur für Blöcke von 16 Elementen zu skalieren, wird ein Makro-Block von 128 Elementen gebildet. Für diesen Makro-Block wird ein zusätzlicher Skalierungsfaktor mit höherer Präzision (8 Bit Mantisse, ähnlich einem FP8-Format) berechnet.
- Implementierung: Dieser Faktor wird verwendet, um die Daten der inneren 16-Elemente-Blöcke vor der eigentlichen MXFP4-Quantisierung vorzuskalieren. Dies isoliert die Ausreißer effektiv und erhält die Modellgenauigkeit.
- Varianten: Es gibt eine statische Variante (MBS-S, schnell berechnet) und eine dynamische Variante (MBS-D, nutzt eine Lookup-Tabelle zur Minimierung des quadratischen Fehlers).

Wichtige Beiträge

Analyse der Genauigkeitslücke: Die Autoren identifizieren und quantifizieren die zwei Hauptursachen für den Genauigkeitsverlust von MXFP4 gegenüber NVFP4: die grobe Blockgröße (32 vs. 16) und die fehlende Mantisse im Skalierungsfaktor (E8M0 vs. E4M3).
Software-only-Optimierung: Die Einführung von OAS und MBS zeigt, dass MXFP4 ohne Hardware-Änderungen auf NVFP4-Niveau gebracht werden kann.
Hardware-Effizienz: Die Methoden nutzen die vorhandene MXFP4-Hardware (Tensor Cores) und fügen nur einen minimalen Overhead hinzu, der durch Software-Pipelining und die Nutzung von Vector Cores für die Skalierungsberechnung versteckt wird.

Ergebnisse

Die Evaluation wurde an mehreren State-of-the-Art-Modellen (Llama 3.1-8B, Qwen3-8B, DeepSeek-R1, Llama 4-Maverick) durchgeführt.

Genauigkeitsgewinn:
- Der Accuracy-Abstand zwischen MXFP4-OCP (Standard) und NVFP4 betrug ursprünglich ca. 10 %.
- Durch die Kombination von OAS und MBS (MXFP4-MBS-H) wurde dieser Abstand auf unter 1 % reduziert.
- Im Durchschnitt erreichte die optimierte MXFP4-Version eine Genauigkeit, die statistisch nicht signifikant von NVFP4 unterscheidet (innerhalb von 1 dB QSNR).
Overhead:
- Der zusätzliche Rechenaufwand für die GEMM-Operationen (Matrixmultiplikation) beträgt im Durchschnitt nur 6,2 % (im Vergleich zu 54 % bei anderen fortschrittlichen MX-Ansätzen wie MX+).
- Bei der Inferenz (Decode-Phase) ist der Overhead aufgrund der speichergebundenen Natur vernachlässigbar.
Hardware-Kosten:
- Die Lösung bewahrt die Hardware-Effizienz von MXFP4, einschließlich einer 12 %igen Flächenersparnis in den Tensor Cores im Vergleich zu NVFP4.

Bedeutung und Fazit

Dieses Paper demonstriert, dass die Lücke zwischen offenen Standards (OCP MXFP4) und proprietären Lösungen (NVIDIA NVFP4) durch intelligente Software-Optimierungen geschlossen werden kann.

Praktische Relevanz: MXFP4 wird als eine praktikable Alternative zu NVFP4 wiederhergestellt. Es ermöglicht fast die gleiche Genauigkeit wie NVFP4, behält aber die Vorteile der offenen Hardware-Architektur und der geringeren Chipfläche bei.
Zukunftsaussicht: Da die Methoden softwarebasiert sind, können sie sofort auf existierenden MXFP4-kompatiblen Geräten eingesetzt werden, ohne auf neue Hardware-Generationen warten zu müssen. Dies fördert die breite Adoption von 4-Bit-Quantisierung für effizientes LLM-Inferenz in Rechenzentren und Edge-Geräten.

Zusammenfassend beweisen die Autoren, dass durch die geschickte Behandlung von Ausreißern und die Anpassung der Skalierungsstrategie (OAS und MBS) die theoretischen Grenzen der MXFP4-Quantisierung erheblich erweitert werden können.

Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

1. Der Trick „Overflow-Aware Scaling" (OAS) – Der „Dynamische Regler"

2. Der Trick „Macro Block Scaling" (MBS) – Der „Spezialist für Ausreißer"

Das Endergebnis: Der „Beste von beiden Welten"-Film

Problemstellung

Methodik und Lösungsansatz

Wichtige Beiträge

Ergebnisse

Bedeutung und Fazit

Mehr davon

PnLCalib: Sports Field Registration via Points and Lines Optimization

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

DRUPI: Dataset Reduction Using Privileged Information