Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantische bibliotheek hebt vol met boeken (deze boeken zijn de Grote Taalmodellen of LLMs, zoals die je gebruikt voor chatbots). Om deze bibliotheek te besturen, heb je enorme bibliothecarissen nodig die heel snel door de boeken kunnen bladeren. Maar er is een probleem: de bibliotheek is zo groot dat de bibliothecarissen (de computerchips) het niet meer kunnen bijhouden. Ze worden overbelast, traag en verbruiken te veel energie.

De oplossing? Verkleinen. We proberen de boeken in te korten of in een compactere vorm te zetten zonder de inhoud te verliezen. Dit noemen we kwantisatie.

Deze paper van Huawei onderzoekt een nieuwe manier om die boeken te verpakken, specifiek voor hun eigen speciale computerchips (de Ascend NPUs). Ze vergelijken verschillende "verpakkingsmethodes" om te zien welke het beste werkt.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. Het Probleem: De "Grote Koffer" vs. De "Kleine Koffer"

Stel je voor dat je een koffer moet vullen met kleding.

De oude methode (Integers/INT8): Je gebruikt een koffer met vaste vakjes. Alles past erin, maar als je een heel groot jasje hebt (een "uitbijter" in de data), moet je de hele koffer zo groot maken dat er ruimte voor is. De kleine sokken (de normale getallen) krijgen dan veel te veel lege ruimte, wat zonde is.
De nieuwe methode (HiFloat): Dit is een slimme koffer die zijn vakjes kan aanpassen. Als er een groot jasje is, maakt hij dat vakje groter. Als er alleen maar sokken zijn, maakt hij de vakjes kleiner en talrijker.

2. De Twee Sterren: HiF8 en HiF4

De auteurs testen twee nieuwe soorten "koffers" die ze hebben ontworpen:

HiF8 (8-bit): Dit is de "grote broer". Hij is slim genoeg om zijn vakjes dynamisch aan te passen. Hij werkt goed voor de actieve gedachten van de AI (activaties), die soms heel groot en chaotisch kunnen zijn (zoals een plotselinge gedachte over een olifant in een kamer).
HiF4 (4-bit): Dit is de "kleine broer", nog kleiner en compacter. Hier wordt het lastig. Als je probeert 4-bit te gebruiken met de oude, stijve methode (Integers), stort het systeem in. Het is alsof je probeert een hele encyclopedie op een postkaart te schrijven; de letters worden onleesbaar.

3. De Grote Ontdekkingen (De "Aha!"-momenten)

A. Voor de "Stille" Boeken (Gewichten) werkt de oude methode soms beter
De "gewichten" van de AI zijn de vaste kennis die in het model zit. Deze zijn vaak heel rustig en zitten in een smal bereik.

Vergelijking: Als je alleen maar kleine pennen moet opbergen, is een koffer met vaste vakjes (INT8) vaak efficiënter dan een slimme, aanpasbare koffer. De slimme koffer (HiF8) verspilde hier namelijk ruimte aan vakjes die nooit gebruikt werden voor de grote jassen.
Conclusie: Voor de vaste kennis van de AI is de oude, simpele methode (INT8) vaak nog steeds de winnaar.

B. Voor de "Dynamische" Gedachten (Activaties) is de slimme koffer nodig
Wanneer de AI echt aan het denken is, ontstaan er plotselinge grote getallen (uitbijters).

Vergelijking: Als je een koffer hebt met vaste vakjes en er komt een gigantische boomstam (een uitbijter) in, moet je de hele koffer vergroten. Dan zijn de kleine steentjes (de normale data) zo klein dat je ze niet meer kunt zien. De slimme koffer (HiF8) past zich aan: hij maakt één groot vak voor de boomstam en houdt de rest van de ruimte vol met kleine vakjes voor de steentjes.
Conclusie: HiF8 is superieur voor de actieve delen van de AI.

C. De 4-bit Revolutie: HiF4 redt de dag
Dit is het belangrijkste deel van het verhaal. Als je echt alles op 4-bit wilt zetten (superkleine koffers), faalt de oude methode (INT4) volledig. Het is alsof je probeert een foto te maken met maar 16 kleuren; het wordt een vage vlek.

HiF4 gebruikt een hiërarchisch systeem (een "koffer in een koffer").
- Stel je voor dat je een grote koffer hebt. Binnenin zitten 8 kleinere dozen. En in die dozen zitten weer 4 kleine zakjes.
- Als er in één zakje een enorme boomstam zit, past die alleen dat zakje aan. De andere 3 zakjes in die doos blijven klein en fijn, zodat ze de kleine steentjes perfect kunnen vasthouden.
Resultaat: Dankzij deze "koffer-in-een-koffer" structuur kan HiF4 de AI laten werken op 4-bit zonder dat de kwaliteit instort. Zelfs de concurrenten (zoals NVFP4 van NVIDIA) doen het goed, maar HiF4 blijkt vaak net iets beter of even goed, en werkt perfect op de Huawei-chips.

4. De "Geheugenkast" (KV Cache)

AI-modellen moeten zich ook dingen herinneren tijdens een gesprek (de context). Dit wordt de "KV Cache" genoemd.

De onderzoekers ontdekten dat HiF4 ook hier fantastisch werkt. Het kan de herinneringen van de AI compact opslaan zonder dat de AI "vergeten" wordt of onzin begint te praten. Zelfs als je alles (gewichten, gedachten én herinneringen) op 4-bit zet, blijft HiF4 stabiel.

Samenvatting in één zin

Deze paper laat zien dat voor de nieuwste, super-efficiënte AI-chips van Huawei, een slimme, aanpasbare verpakkingsmethode (HiFloat) de beste manier is om enorme AI-modellen klein en snel te maken, vooral als je echt in de "micro-kistjes" (4-bit) wilt gaan, waar de oude methoden het gewoon opgeven.

Het is alsof ze een nieuwe, slimme verpakking hebben ontworpen die zorgt dat je je hele bibliotheek in een rugzak kunt dragen, zonder dat de boeken eruit vallen of beschadigd raken.

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

1. Het Probleem: De "Grote Koffer" vs. De "Kleine Koffer"

2. De Twee Sterren: HiF8 en HiF4

3. De Grote Ontdekkingen (De "Aha!"-momenten)

4. De "Geheugenkast" (KV Cache)

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Unleashing Low-Bit Inference on Ascend NPUs: A Comprehensive Evaluation of HiFloat Formats

1. Het Probleem: De "Grote Koffer" vs. De "Kleine Koffer"

2. De Twee Sterren: HiF8 en HiF4

3. De Grote Ontdekkingen (De "Aha!"-momenten)

4. De "Geheugenkast" (KV Cache)

Samenvatting in één zin

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Contextual Earnings-22: A Speech Recognition Benchmark with Custom Vocabulary in the Wild

Hybrid CNN-Transformer Architecture for Arabic Speech Emotion Recognition

Cross-Tokenizer LLM Distillation through a Byte-Level Interface

Lexical Tone is Hard to Quantize: Probing Discrete Speech Units in Mandarin and Yorùbá

Enabling Intrinsic Reasoning over Dense Geospatial Embeddings with DFR-Gemma