Unveiling the Potential of Quantization with MXFP4: Strategies for Quantization Error Reduction

Die Studie stellt zwei rein softwarebasierte Techniken, Overflow-Aware Scaling (OAS) und Macro Block Scaling (MBS), vor, die die Genauigkeit des MXFP4-Formats für Large Language Models signifikant verbessern und die Leistungslücke zu NVFP4 von durchschnittlich 10 % auf unter 1 % verringern, ohne Hardwareänderungen vorzunehmen.

Jatin Chhugani, Geonhwa Jeong, Bor-Yiing Su, Yunjie Pan, Hanmei Yang, Aayush Ankit, Jiecao Yu, Summer Deng, Yunqing Chen, Nadathur Satish, Changkyu Kim

Veröffentlicht Wed, 11 Ma
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen riesigen, hochauflösenden Film (ein großes KI-Modell), den Sie auf einem kleinen Smartphone abspielen wollen. Das Problem: Der Film ist so detailreich, dass er den Speicher und die Rechenleistung des Handys sprengt.

Um das zu lösen, nutzen Ingenieure eine Technik namens Quantisierung. Das ist wie das Komprimieren eines Films: Man reduziert die Anzahl der Farben und Details, damit er schneller und platzsparender läuft.

In der Welt der KI gibt es zwei Hauptakteure für diese Komprimierung auf 4-Bit (sehr stark komprimiert):

  1. NVFP4 (von NVIDIA): Der „Premium-Film". Er sieht fast genauso gut aus wie das Original, ist aber schwer zu verarbeiten und benötigt spezielle, teure Hardware.
  2. MXFP4 (von Open Compute Project): Der „Budget-Film". Er ist super effizient, spart Energie und Platz auf dem Chip, leidet aber unter einem Problem: Er ist oft zu stark komprimiert. Wichtige Details (die „Ausreißer" – wie ein plötzlicher, heller Blitz in einer dunklen Szene) gehen verloren, und das Bild wird unscharf.

Bisher war MXFP4 also der schnellere, aber qualitativ schlechtere Weg. Diese Arbeit von Meta zeigt nun, wie man MXFP4 so verbessert, dass er fast genauso gut ist wie der Premium-Weg, ohne dass man neue Hardware bauen muss.

Hier ist die Erklärung der beiden neuen Tricks, die sie erfunden haben:

1. Der Trick „Overflow-Aware Scaling" (OAS) – Der „Dynamische Regler"

Das Problem:
Stellen Sie sich vor, Sie haben einen Wasserhahn, der nur zwei Einstellungen hat: „Ganz zu" oder „Ganz auf". Wenn Sie einen kleinen Tropfen Wasser brauchen, geht das nicht gut. Wenn Sie einen Eimer füllen wollen, läuft es über.
Bei MXFP4 funktioniert das ähnlich. Die Skalierung (wie stark das Signal vergrößert wird) ist in festen Schritten (Potenzen von 2) eingeteilt. Wenn ein Wert genau zwischen zwei Stufen liegt, wird er auf die nächste gerundet – und dabei oft ungenau.

Die Lösung (OAS):
Die Forscher haben einen cleveren „Notfall-Plan" entwickelt.

  • Die Analogie: Stellen Sie sich vor, Sie haben einen Regler, der normalerweise nur bei 4, 8, 16 steht. Wenn Sie einen Wert von 7 messen, sagen Sie normalerweise: „Na gut, 8 ist nah genug." Aber das ist ungenau.
  • Der neue Trick: OAS schaut sich die Werte genau an. Wenn ein Wert knapp unter einer Grenze liegt (z. B. 3,5), erlaubt das System, den Regler so zu drehen, dass der Bereich für die kleinen Werte erweitert wird. Es ist, als würde man den Wasserhahn für kurze Zeit auf eine Zwischenstellung stellen, nur für den Moment, in dem es nötig ist.
  • Das Ergebnis: Die kleinen, wichtigen Details werden nicht mehr abgeschnitten. Das Bild wird schärfer, ohne dass man den Wasserhahn (die Hardware) umbauen muss.

2. Der Trick „Macro Block Scaling" (MBS) – Der „Spezialist für Ausreißer"

Das Problem:
In KI-Daten gibt es immer ein paar extreme Werte (Ausreißer). In einem Bild sind das vielleicht nur ein paar Pixel, die extrem hell sind, aber sie bestimmen, ob das Bild gut aussieht oder nicht.
Bei MXFP4 wird die Skalierung für einen ganzen Block von 32 Zahlen gleich berechnet. Wenn ein extrem heller Pixel in diesem Block ist, wird der ganze Block so skaliert, dass dieser helle Pixel passt. Aber dann werden die 31 anderen, normalen Pixel im Block extrem ungenau dargestellt.

  • Die Analogie: Es ist wie eine Gruppe von Freunden, die gemeinsam ein Taxi nehmen. Wenn einer von ihnen riesig ist (der Ausreißer), muss das Taxi so groß sein, dass er reinpasst. Aber dann haben die anderen 31 Freunde im Taxi viel zu viel Platz und sitzen auf dem Boden, weil das Taxi zu groß für sie ist. Die Ressource (der Platz im Taxi) wird verschwendet.

Die Lösung (MBS):
Hier greift der zweite Trick.

  • Die Analogie: Statt für die ganze Gruppe (32 Personen) ein riesiges Taxi zu nehmen, nehmen wir für die Gruppe ein normales Taxi, aber wir haben einen Spezialisten dabei, der sich nur um den Riesen kümmert.
  • Wie es funktioniert: MBS schaut sich einen größeren Block (128 Zahlen) an. Es berechnet eine feine, präzise Korrektur speziell für die extremen Werte in diesem Block. Diese Korrektur wird dann auf die kleineren Blöcke angewendet.
  • Der Clou: Man behält die effiziente Hardware für die normalen Daten bei, fügt aber eine kleine, softwarebasierte „Korrekturschicht" hinzu, die die Ausreißer rettet. Es ist, als würde man dem Riesen in der Gruppe eine spezielle Sitzverlängerung geben, damit er passt, ohne dass das ganze Taxi vergrößert werden muss.

Das Endergebnis: Der „Beste von beiden Welten"-Film

Durch die Kombination dieser beiden Software-Tricks (OAS und MBS) passiert etwas Magisches:

  1. Qualität: Die MXFP4-Modelle sind nun fast genauso scharf und genau wie die teuren NVFP4-Modelle. Der Unterschied in der Genauigkeit ist von früher 10% auf weniger als 1% gesunken.
  2. Geschwindigkeit & Kosten: Da keine neue Hardware gebaut werden muss, bleibt MXFP4 extrem schnell und spart Energie und Platz auf dem Chip (ca. 12% weniger Chipfläche).
  3. Der Preis: Der einzige „Nachteil" ist ein winziger Rechenaufwand (ca. 6% mehr Rechenzeit), der aber durch die enorme Effizienz der Hardware mehr als ausgeglichen wird.

Zusammenfassend:
Die Autoren haben gezeigt, dass man nicht unbedingt teure, spezielle Hardware braucht, um KI-Modelle effizient und präzise zu machen. Durch clevere Software-Algorithmen (OAS und MBS) kann man den günstigen, effizienten Standard (MXFP4) so weit verbessern, dass er den teuren Premium-Standard (NVFP4) fast vollständig einholt. Es ist, als hätte man einen alten, günstigen Motor so umgebaut, dass er die Leistung eines Formel-1-Autos liefert, ohne den Motor selbst austauschen zu müssen.