BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Each language version is independently generated for its own context, not a direct translation.

BATQuant: De "Slimme Verpakker" voor AI's die niet meer passen in hun koffer

Stel je voor dat je een gigantische, superkrachtige kunstmatige intelligentie (zoals een moderne chatbot of een beeldherkenningsrobot) hebt. Deze AI is als een enorme bibliotheek vol met boeken. Om deze bibliotheek op een kleine telefoon of een goedkope server te laten werken, moeten we de boeken verkleinen. Dit noemen we kwantisatie: het comprimeren van de data.

Maar er is een probleem. De nieuwste, snelste hardware (de "motoren" van de toekomst) wil dat we deze boeken verpakken in heel kleine, specifieke dozen: de MXFP4-doosjes. Deze dozen zijn superefficiënt, maar ze zijn ook heel krap.

Het Probleem: De "Buitengewone" Gasten

In de wereld van AI-data zijn de meeste getallen klein en normaal, maar er zijn een paar "buitengewone gasten" (in het Engels: outliers). Dit zijn getallen die extreem groot zijn.

De oude methode (Rotatie): Vroeger probeerden we deze grote gasten te verstoppen door de hele bibliotheek te draaien (een wiskundige rotatie). Het idee was: als je alles draait, verdwijnen de grote gasten in de massa.
De ramp: In de nieuwe, krappe MXFP4-doosjes werkt dit niet. Door het draaien worden de grote gasten per ongeluk van de ene doos naar de andere geslingerd. Plotseling zit er in een doos die normaal rustig was, ineens een gigantische gast die de hele doos overvult. De AI raakt in de war en maakt fouten. Het is alsof je een olifant probeert te verstoppen in een muizenholletje door de kamer te draaien; de olifant komt gewoon in het verkeerde holletje terecht en blokkeert de deur.

Daarnaast zorgt deze draaiing ervoor dat de verdeling van de getallen "twee pieken" krijgt (een bimodale verdeling), wat betekent dat de kleine doosjes niet optimaal gebruikt worden. Het is als proberen appels en sinaasappels in dezelfde doos te proppen, maar dan zo dat er halverwege een leeg gat ontstaat waar geen fruit past.

De Oplossing: BATQuant (De Slimme Verpakker)

De onderzoekers van Huawei hebben BATQuant bedacht. Dit is een nieuwe manier om de data te verpakken die specifiek is ontworpen voor deze krappe doosjes.

Hier zijn de drie geheimen van BATQuant, vertaald naar alledaagse taal:

1. De "Buurtbewoner" aanpak (Block-wise Affine Transformation)

In plaats van de hele bibliotheek te draaien (wat chaos veroorzaakt), kijkt BATQuant naar kleine buurten (blokken van 32 boeken).

Hoe het werkt: Als er een grote gast in buurt A zit, past BATQuant alleen de verpakking in buurt A aan. Het zorgt dat de grote gast daar veilig past, zonder dat hij naar buurt B wordt geslingerd.
Het voordeel: Elke doos blijft zijn eigen rustige wereldje. De "grootte" van de doos wordt perfect afgestemd op wat er precies in die specifieke doos zit. Geen verrassingen, geen overvolle dozen.

2. De "Gemeenschappelijke Basis" (Global & Private Kronecker)

Het probleem met het aanpassen van elke doos apart is dat je heel veel extra instructies nodig hebt, wat weer ruimte kost.

De oplossing: BATQuant gebruikt een slimme truc. Het heeft één grote, algemene handleiding (de "Global" matrix) die voor iedereen geldt. Maar voor elke specifieke buurt heeft het ook een kleine, persoonlijke notitie (de "Private" matrix).
De analogie: Stel je voor dat je 1000 pakketten moet verpakken. In plaats van 1000 verschillende, zware handleidingen te schrijven, schrijf je één algemene handleiding ("pak altijd eerst de bodem") en voor elke buurt een klein bijschriftje ("in deze buurt zitten zware boeken, gebruik extra tape"). Dit bespaart enorm veel ruimte en tijd, terwijl het resultaat toch perfect op maat is.

3. De "Knijp-techniek" (Block-wise Learnable Clipping)

Soms zijn de "grote gasten" gewoon te groot, zelfs voor de aangepaste doos.

De oplossing: BATQuant heeft een slimme knijper. Als een getal te groot wordt, knijpt het het net iets in (clippen), maar wel op een slimme manier die voor elke buurt anders is. Het zorgt ervoor dat de uitersten niet de hele verpakking verstoren, maar dat de rest van de data nog steeds zijn waarde behoudt.

Wat levert dit op?

De resultaten zijn indrukwekkend.

Vroeger: Als je AI's in deze nieuwe, snelle MXFP4-doosjes probeerde te stoppen, crashte de performance vaak. De AI werd dom en maakte rare fouten.
Nu met BATQuant: De AI werkt bijna net zo goed als het origineel (tot wel 96% van de oorspronkelijke intelligentie blijft behouden), zelfs in de allerstrakste verpakkingen.
Toepassing: Of het nu gaat om het herkennen van teksten op foto's, het oplossen van wiskundige raadsels of het begrijpen van complexe beelden: BATQuant zorgt dat deze slimme modellen snel en efficiënt draaien op de hardware van de toekomst, zonder dat ze hun verstand verliezen.

Kortom: BATQuant is de slimme verpakker die zorgt dat de "olifanten" (grote getallen) niet de "muizenholletjes" (kleine doosjes) blokkeren, maar netjes in hun eigen buurt blijven, zodat de hele bibliotheek perfect past in je koffer.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

De opkomst van Microscaling Floating-Point (MXFP) formaten (zoals MXFP4) biedt een veelbelovende standaard voor het implementeren van Multimodale Large Language Models (MLLMs) en Large Language Models (LLMs) op moderne hardware, vanwege hun efficiëntie en dynamisch bereik. Echter, het toepassen van bestaande Post-Training Quantization (PTQ) methoden op MXFP4 leidt tot ernstige prestatie-inzinkingen.

De kernproblemen die door de auteurs worden geïdentificeerd zijn:

Format-mismatch met rotatie: Bestaande state-of-the-art methoden (zoals QuaRot en SpinQuant) gebruiken globale orthogonale rotaties om outliers te verspreiden. Bij MXFP4, dat werkt met fijne, bloksgewijze schaling (bijv. blokken van 32 elementen), zorgt deze globale rotatie ervoor dat outlier-energie over bloksgrenzen heen wordt verplaatst. Dit creëert nieuwe outliers in blokken die daarvoor stabiel waren, wat de lokale schaling verstoort.
Bimodale distributies: Methoden die bloksgewijze Hadamard-transformaties gebruiken (zoals BRQ) leiden vaak tot bimodale activatiedistributies binnen de blokken. Dit resulteert in een inefficiënt gebruik van het beperkte quantisatiebereik en verhoogde fouten.
Prestatieverlies: Vooral bij agressieve configuraties (zoals W4A4KV16: 4-bit gewichten, 4-bit activaties, 16-bit KV-cache) falen bestaande methoden volledig, met name bij complexe redeneertaken.

2. Methodologie: BATQuant

De auteurs stellen BATQuant (Block-wise Affine Transformation) voor, een raamwerk dat specifiek is ontworpen om de beperkingen van MXFP4 te omzeilen door transformaties strikt af te stemmen op de hardware-granulariteit.

De belangrijkste componenten zijn:

Block-wise Affine Transformation (BAT):
- In plaats van een globale rotatiematrix te leren, wordt de transformatiematrix opgedeeld in disjuncte blokken die exact overeenkomen met de MXFP-quantisatiegroottes (bijv. $g=32$ ).
- Dit voorkomt dat outlier-energie van het ene blok naar het andere wordt verplaatst. Elk blok behoudt zijn statistische onafhankelijkheid, waardoor de lokale schalingsfactoren van MXFP de dynamische reikwijdte nauwkeurig kunnen vastleggen.
- De orthogonaliteitsbeperking wordt losgelaten; in plaats daarvan wordt een optimale affiene matrix geleerd om de verdeling binnen elk blok te vormen en de quantisatiefout te minimaliseren.
Global and Private Kronecker (GPK) Decompositie:
- Het leren van een unieke affiene matrix voor elk blok zou een enorme opslagkosten met zich meebrengen. Om dit op te lossen, wordt elke blok-matrix $P_i$ ontbonden in een product van een globale gedeelde matrix ( $A$ ) en een blok-specifieke private matrix ( $B_i$ ): $P_i = B_i \otimes A$ .
- Dit reduceert het aantal parameters drastisch (meer dan 74% ten opzichte van eerdere methoden) terwijl de inferentie-efficiëntie behouden blijft door gebruik te maken van vectorisatietechnieken van de Kronecker-product.
Block-wise Learnable Clipping:
- Om resterende outliers binnen een blok te onderdrukken, wordt een dynamische clipping-mechanisme geïntroduceerd. De drempels voor clipping worden per blok aangepast op basis van lokale statistieken, wat zorgt voor een betere benutting van het beschikbare bereik zonder de prestaties van het model te schaden.
Integratie:
- De transformaties aan de kant van de gewichten worden offline gefuseerd met de lineaire lagen.
- De transformaties aan de kant van de activaties worden online toegepast tijdens de inferentie.

3. Belangrijkste Bijdragen

BATQuant Framework: Een nieuwe aanpak die affiene transformaties beperkt tot de MXFP-blokgrootte, waardoor cross-block outlier-propagatie wordt voorkomen en het probleem van bimodale distributies wordt opgelost.
GPK Decompositie: Een efficiënte parameterreductietechniek die de opslagoverhead van leerbare transformaties minimaliseert zonder in te leveren op prestaties.
State-of-the-Art Resultaten: Het paper demonstreert dat BATQuant nieuwe records zet, vooral in de meest uitdagende 4-bit scenario's, waarbij het aanzienlijk beter presteert dan bestaande methoden zoals FlatQuant, BRQ, SpinQuant en GPTQ.

4. Resultaten

De methoden zijn uitgebreid getest op zowel MLLMs (Qwen3-VL-8B-Instruct) als LLMs (Qwen3-8B) over diverse benchmarks (multimodaal, redeneren, niet-redeneren).

Agressieve Configuraties (W4A4KV16):
- BATQuant herstelt tot 96,43% van de full-precision (BF16) prestaties op multimodale benchmarks.
- Dit is een significante verbetering ten opzichte van de beste concurrent (FlatQuant), die slechts 94,79% haalt.
- Op redeneertaken (zoals GSM8K en MATH-500) behoudt BATQuant stabiliteit waar andere methoden (zoals SpinQuant) volledig instorten.
Minder Aggressieve Configuraties (W4A8KV16):
- Het bereikt een herstelpercentage van 99,29%, wat neerkomt op bijna verliesvrije kwantisatie.
Generalisatie: De methode werkt consistent goed over verschillende taakdomeinen, van documentbegrip en OCR tot complexe wiskundige redenering.
Visualisatie: Analyse van activatiedistributies toont aan dat BATQuant effectief outliers onderdrukt en een compacte, unimodale verdeling creëert, in tegenstelling tot de verspreide of bimodale verdelingen van concurrenten.

5. Betekenis en Conclusie

BATQuant is een doorslaggevende doorbraak voor de implementatie van grote modellen op nieuwe, energie-efficiënte hardware die MXFP4 ondersteunt. Het paper lost een fundamenteel probleem op: de incompatibiliteit tussen globale rotatietechnieken en de bloksgewijze aard van microscaling formaten.

Door de transformatiegranulariteit strikt te koppelen aan de hardware-blokgrootte en efficiënte parameter-decompositie toe te passen, maakt BATQuant het mogelijk om modellen met extreem lage bitbreedte (4-bit) te draaien met minimale kwaliteitsverlies. Dit opent de deur voor de deploy van krachtige multimodale AI-modellen op randapparatuur (edge devices) en resource-beperkte platformen, wat essentieel is voor de toekomst van schaalbare en efficiënte AI.

BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

Het Probleem: De "Buitengewone" Gasten

De Oplossing: BATQuant (De Slimme Verpakker)

1. De "Buurtbewoner" aanpak (Block-wise Affine Transformation)

2. De "Gemeenschappelijke Basis" (Global & Private Kronecker)

3. De "Knijp-techniek" (Block-wise Learnable Clipping)

Wat levert dit op?

1. Het Probleem

2. Methodologie: BATQuant

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

Caption First, VQA Second: Knowledge Density, Not Task Format, Drives Multimodal Scaling

WorkRB: A Community-Driven Evaluation Framework for AI in the Work Domain

Text-as-Signal: Quantitative Semantic Scoring with Embeddings, Logprobs, and Noise Reduction

A Multi-Model Approach to English-Bangla Sentiment Classification of Government Mobile Banking App Reviews

KMMMU: Evaluation of Massive Multi-discipline Multimodal Understanding in Korean Language and Context