BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

BATQuant ist ein neuartiger Post-Training-Quantisierungsansatz für MXFP4, der durch blockweise affine Transformationen, eine speichereffiziente GPK-Zerlegung und lernbares Clipping die bei herkömmlichen Methoden auftretenden Ausreißerprobleme löst und damit bei Multimodal- und Sprachmodellen neue State-of-the-Art-Ergebnisse erzielt.

Ji-Fu Li, Manyi Zhang, Xiaobo Xia, Han Bao, Haoli Bai, Zhenhua Dong, Xianzhi Yu

Veröffentlicht 2026-03-18
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Titel: BATQuant – Der „Klempner" für die digitale Datenflut

Stell dir vor, du hast einen riesigen, hochmodernen Datenfluss – wie einen gigantischen Wasserhahn, der aus einem großen See (dem KI-Modell) Wasser in viele kleine Eimer (die Hardware) füllt. Dieses Wasser repräsentiert das Wissen der KI.

Das Problem: Die neuen, super-effizienten Eimer (die MXFP4-Hardware) sind sehr klein und haben nur wenige Markierungen. Wenn du versuchst, das ganze Wasser in diese kleinen Eimer zu füllen, passiert oft ein Chaos:

  1. Die „Unruhestifter" (Outlier): In jedem Datenstrom gibt es ein paar extreme Werte – wie ein riesiger Stein oder ein plötzlicher Wasserstrahl, der viel zu groß für den kleinen Eimer ist.
  2. Der alte Trick (Rotation): Bisherige Methoden versuchten, das Wasser zu „drehen" (wie einen Karussell), um diese Steine zu verstecken. Aber bei diesen neuen, winzigen Eimern funktionierte das nicht. Stattdessen wurden die Steine nur von einem Eimer in den nächsten geschleudert. Das Ergebnis: Ein Eimer war voll mit Steinen, der nächste war leer, und das Wasser lief über. Die KI wurde dumm.

Die Lösung: BATQuant

Die Forscher von Huawei haben eine neue Methode namens BATQuant entwickelt. Stell dir das wie einen cleveren Klempner vor, der das System neu verlegt. Hier ist, wie es funktioniert, ganz einfach erklärt:

1. Der „Blockweise-Plan" (Block-wise Affine Transformation)

Statt das ganze Karussell zu drehen, schaut BATQuant sich jeden Eimer einzeln an.

  • Die Idee: Jeder Eimer bekommt seinen eigenen, maßgeschneiderten Trichter.
  • Der Vorteil: Wenn ein riesiger Stein in Eimer Nr. 5 landet, bleibt er dort. Er wird nicht in Eimer Nr. 6 geworfen. Jeder Eimer behält seine eigene Balance. Das verhindert, dass die „Unruhestifter" das ganze System durcheinanderbringen.

2. Der „Globale Bauplan" (GPK-Decomposition)

Jetzt kommt das Geniale: Jeder dieser maßgeschneiderten Trichter zu bauen, wäre teuer und langsam (wie 1000 verschiedene Schraubenschlüssel zu kaufen).

  • Die Lösung: BATQuant nutzt einen cleveren Trick. Es gibt einen globalen Master-Trichter (den alle Eimer teilen) und ein paar kleine, individuelle Anpassungen für jeden Eimer.
  • Die Analogie: Stell dir vor, du baust 1000 Häuser. Statt für jedes Haus einen komplett neuen Bauplan zu zeichnen, nutzt du einen Standard-Grundriss (global) und passt nur die Fenstergröße an (privat). Das spart enorm viel Platz und Zeit, funktioniert aber trotzdem perfekt für jedes Haus.

3. Der „Schutzschild" (Learnable Clipping)

Manchmal ist ein Stein einfach zu groß, selbst für den besten Trichter.

  • Die Lösung: BATQuant hat einen intelligenten Schutzschild. Wenn ein Wert zu extrem wird, schneidet er ihn sanft ab, aber nicht willkürlich, sondern so, dass das Wichtigste erhalten bleibt. Es ist wie ein Damm, der das Hochwasser bremst, ohne das Tal dahinter trocken zu legen.

Warum ist das so wichtig?

Früher musste man KI-Modelle auf riesigen, teuren Servern laufen lassen, weil sie zu viel Speicher brauchten. Mit BATQuant können diese Modelle jetzt auf viel kleineren, energieeffizienteren Geräten laufen (wie in deinem Handy oder einem autonomen Auto), ohne dass sie „dumm" werden.

Das Ergebnis:
Die Tests zeigen, dass BATQuant selbst bei extrem kleinen Eimern (4-Bit-Quantisierung) fast genauso gut funktioniert wie das riesige Original.

  • Bei komplexen Aufgaben (wie Mathe oder Bilderkennung) erreicht es fast 100 % der Leistung des Originals.
  • Andere Methoden scheiterten hier oft kläglich und lieferten falsche Antworten.

Zusammenfassung:
BATQuant ist wie ein genialer Logistikmanager, der verhindert, dass die „schweren Pakete" (die Ausreißer) das ganze Lager (die KI) zum Einsturz bringen. Es passt das System so genau an die neuen, kleinen Container an, dass die KI schnell, klein und trotzdem extrem klug bleibt.

Ertrinken Sie in Arbeiten in Ihrem Fachgebiet?

Erhalten Sie tägliche Digests der neuesten Arbeiten passend zu Ihren Forschungsbegriffen — mit technischen Zusammenfassungen, in Ihrer Sprache.

Digest testen →