BATQuant: Outlier-resilient MXFP4 Quantization via Learnable Block-wise Optimization

BATQuant introduceert een nieuwe methode voor MXFP4-quantisatie die prestatieverlies voorkomt door blokgewijze affiene transformaties en Kronecker-decompositie te gebruiken, waardoor state-of-the-art resultaten worden behaald voor multimodale en grote taalmodellen.

Ji-Fu Li, Manyi Zhang, Xiaobo Xia, Han Bao, Haoli Bai, Zhenhua Dong, Xianzhi Yu

Gepubliceerd 2026-03-18
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

BATQuant: De "Slimme Verpakker" voor AI's die niet meer passen in hun koffer

Stel je voor dat je een gigantische, superkrachtige kunstmatige intelligentie (zoals een moderne chatbot of een beeldherkenningsrobot) hebt. Deze AI is als een enorme bibliotheek vol met boeken. Om deze bibliotheek op een kleine telefoon of een goedkope server te laten werken, moeten we de boeken verkleinen. Dit noemen we kwantisatie: het comprimeren van de data.

Maar er is een probleem. De nieuwste, snelste hardware (de "motoren" van de toekomst) wil dat we deze boeken verpakken in heel kleine, specifieke dozen: de MXFP4-doosjes. Deze dozen zijn superefficiënt, maar ze zijn ook heel krap.

Het Probleem: De "Buitengewone" Gasten

In de wereld van AI-data zijn de meeste getallen klein en normaal, maar er zijn een paar "buitengewone gasten" (in het Engels: outliers). Dit zijn getallen die extreem groot zijn.

  • De oude methode (Rotatie): Vroeger probeerden we deze grote gasten te verstoppen door de hele bibliotheek te draaien (een wiskundige rotatie). Het idee was: als je alles draait, verdwijnen de grote gasten in de massa.
  • De ramp: In de nieuwe, krappe MXFP4-doosjes werkt dit niet. Door het draaien worden de grote gasten per ongeluk van de ene doos naar de andere geslingerd. Plotseling zit er in een doos die normaal rustig was, ineens een gigantische gast die de hele doos overvult. De AI raakt in de war en maakt fouten. Het is alsof je een olifant probeert te verstoppen in een muizenholletje door de kamer te draaien; de olifant komt gewoon in het verkeerde holletje terecht en blokkeert de deur.

Daarnaast zorgt deze draaiing ervoor dat de verdeling van de getallen "twee pieken" krijgt (een bimodale verdeling), wat betekent dat de kleine doosjes niet optimaal gebruikt worden. Het is als proberen appels en sinaasappels in dezelfde doos te proppen, maar dan zo dat er halverwege een leeg gat ontstaat waar geen fruit past.

De Oplossing: BATQuant (De Slimme Verpakker)

De onderzoekers van Huawei hebben BATQuant bedacht. Dit is een nieuwe manier om de data te verpakken die specifiek is ontworpen voor deze krappe doosjes.

Hier zijn de drie geheimen van BATQuant, vertaald naar alledaagse taal:

1. De "Buurtbewoner" aanpak (Block-wise Affine Transformation)

In plaats van de hele bibliotheek te draaien (wat chaos veroorzaakt), kijkt BATQuant naar kleine buurten (blokken van 32 boeken).

  • Hoe het werkt: Als er een grote gast in buurt A zit, past BATQuant alleen de verpakking in buurt A aan. Het zorgt dat de grote gast daar veilig past, zonder dat hij naar buurt B wordt geslingerd.
  • Het voordeel: Elke doos blijft zijn eigen rustige wereldje. De "grootte" van de doos wordt perfect afgestemd op wat er precies in die specifieke doos zit. Geen verrassingen, geen overvolle dozen.

2. De "Gemeenschappelijke Basis" (Global & Private Kronecker)

Het probleem met het aanpassen van elke doos apart is dat je heel veel extra instructies nodig hebt, wat weer ruimte kost.

  • De oplossing: BATQuant gebruikt een slimme truc. Het heeft één grote, algemene handleiding (de "Global" matrix) die voor iedereen geldt. Maar voor elke specifieke buurt heeft het ook een kleine, persoonlijke notitie (de "Private" matrix).
  • De analogie: Stel je voor dat je 1000 pakketten moet verpakken. In plaats van 1000 verschillende, zware handleidingen te schrijven, schrijf je één algemene handleiding ("pak altijd eerst de bodem") en voor elke buurt een klein bijschriftje ("in deze buurt zitten zware boeken, gebruik extra tape"). Dit bespaart enorm veel ruimte en tijd, terwijl het resultaat toch perfect op maat is.

3. De "Knijp-techniek" (Block-wise Learnable Clipping)

Soms zijn de "grote gasten" gewoon te groot, zelfs voor de aangepaste doos.

  • De oplossing: BATQuant heeft een slimme knijper. Als een getal te groot wordt, knijpt het het net iets in (clippen), maar wel op een slimme manier die voor elke buurt anders is. Het zorgt ervoor dat de uitersten niet de hele verpakking verstoren, maar dat de rest van de data nog steeds zijn waarde behoudt.

Wat levert dit op?

De resultaten zijn indrukwekkend.

  • Vroeger: Als je AI's in deze nieuwe, snelle MXFP4-doosjes probeerde te stoppen, crashte de performance vaak. De AI werd dom en maakte rare fouten.
  • Nu met BATQuant: De AI werkt bijna net zo goed als het origineel (tot wel 96% van de oorspronkelijke intelligentie blijft behouden), zelfs in de allerstrakste verpakkingen.
  • Toepassing: Of het nu gaat om het herkennen van teksten op foto's, het oplossen van wiskundige raadsels of het begrijpen van complexe beelden: BATQuant zorgt dat deze slimme modellen snel en efficiënt draaien op de hardware van de toekomst, zonder dat ze hun verstand verliezen.

Kortom: BATQuant is de slimme verpakker die zorgt dat de "olifanten" (grote getallen) niet de "muizenholletjes" (kleine doosjes) blokkeren, maar netjes in hun eigen buurt blijven, zodat de hele bibliotheek perfect past in je koffer.

Verdrinkt u in papers in uw vakgebied?

Ontvang dagelijkse digests van de nieuwste papers die bij uw onderzoekswoorden passen — met technische samenvattingen, in uw taal.

Probeer Digest →