Compute-Optimal Quantization-Aware Training

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, superintelligente robot bouwt. Deze robot moet niet alleen slim zijn, maar ook in je telefoon of laptop passen. Het probleem? De robot is oorspronkelijk zo groot en zwaar dat hij niet in zo'n klein apparaat past.

De oplossing die wetenschappers gebruiken heet Quantization-Aware Training (QAT). In het Nederlands kunnen we dit zien als het "op maat maken" van de robot voor zijn nieuwe, kleine huis. Je moet de robot een beetje "krimp" geven, zodat hij minder geheugen nodig heeft, zonder dat hij zijn intelligentie verliest.

Maar hier zit een lastige vraag: Hoe lang moet je de robot eerst in zijn volledige, zware vorm trainen, en hoe lang moet je hem daarna in zijn "krimp"-vorm trainen?

Vroeger dachten mensen: "Laat de robot 90% van de tijd in zijn zware vorm trainen en de laatste 10% in de krimp-vorm." Maar dit nieuwe onderzoek van Apple laat zien dat die regel niet klopt, zeker niet als je meer rekenkracht (en dus tijd) hebt.

Hier is de uitleg in simpele termen, met een paar creatieve vergelijkingen:

1. De "Bakker en de Koekjes" Analogie

Stel je voor dat je een meesterbakker bent die de beste koekjes ter wereld wil maken, maar die koekjes moeten klein genoeg zijn om in een lunchtrommel te passen.

FP-training (Volledige precisie): Dit is het bakken van de koekjes in hun volle, zware vorm. Je leert de deegkloppen, de suiker meten en de oven temperatuur perfect instellen. Dit is duur en kost veel tijd, maar het resultaat is perfect.
QAT-training (Kwantiseringsbewust): Dit is het moment waarop je de koekjes in een vorm duwt om ze kleiner te maken. Als je dit te vroeg doet, zijn de koekjes nog niet goed gebakken en smaken ze raar. Als je dit te laat doet, zijn ze al te hard en barsten ze in de vorm.

De oude regel: "Bak 90% van de tijd normaal, en duw ze de laatste 10% in de vorm."
De nieuwe ontdekking: Als je meer tijd en energie hebt om te bakken (een groter budget), moet je meer tijd besteden aan het vormen van de koekjes!

Bij een klein budget: 10% vormen is prima.
Bij een enorm budget: Je moet misschien wel 40% of 50% van de tijd besteden aan het vormen, omdat de koekjes anders niet goed in de vorm passen.

De onderzoekers hebben ontdekt dat hoe meer "deeg" (data) je gebruikt, hoe langer je moet blijven "vormen" om het beste resultaat te krijgen.

2. De "Wiskundige Voorspelling" (De Snelheidslimiet)

De onderzoekers hebben een nieuwe formule bedacht (een "wiskundige wet"). Dit is als een GPS voor bakkers.

Als je weet hoeveel deeg je hebt, hoe groot de robot is, en hoeveel geheugen je wilt besparen, kan deze formule je precies vertellen: "Bak 30% normaal, en vorm dan 70%."
Ze hebben ontdekt dat je dit niet zomaar kunt gokken. Als je de verkeerde verhouding kiest, gooi je je tijd en geld weg. Het is alsof je een auto bouwt met de wielen van een fiets; hij rijdt niet goed, ongeacht hoe goed je motor is.

3. De "Koelkast en de Vriezer" (Een slimme truc)

Normaal gesproken doen bakkers het zo:

Bak de koekjes (FP).
Laat ze afkoelen (lerende snelheid verlagen).
Stop ze in de vorm (QAT) en warm ze weer op om ze aan te passen.

De onderzoekers zeggen: "Wacht even! Waarom laat je ze eerst afkoelen en dan weer opwarmen?"
Ze hebben een nieuwe methode bedacht: QAT & Cooldown Fusie.

In plaats van te wachten, beginnen ze met het vormen (QAT) terwijl ze nog aan het afkoelen zijn.
Het voordeel: Je slaat een stap over. Je wast geen tijd door de koekjes eerst af te laten koelen en ze daarna weer op te warmen. Je doet het allemaal in één keer.
Resultaat: Je krijgt net zo goede koekjes, maar je gebruikt minder energie en tijd. Het is alsof je een auto in één keer in de garage rijdt in plaats van hem eerst te parkeren en daarna weer uit te parkeren.

4. Waarom is dit belangrijk voor jou?

Betere AI op je telefoon: Door deze slimme verdeling van tijd te gebruiken, kunnen we slimme AI-modellen maken die op je telefoon passen, maar net zo slim zijn als de enorme modellen die nu in datacenters staan.
Minder stroomverbruik: Omdat we de berekeningen efficiënter doen, gaat de batterij van je apparaat langer mee.
Kostenbesparing: Bedrijven hoeven minder dure computers te huren om deze modellen te trainen.

Samenvatting in één zin

Vroeger dachten we dat je een AI-model altijd eerst langzaam en zwaar moest trainen en daarna snel klein moest maken; dit onderzoek bewijst dat je juist langer moet blijven "klein maken" naarmate je meer tijd hebt, en dat je dit proces kunt versnellen door het afkoelen en het klein maken tegelijk te doen.

Het is een beetje zoals het leren van een taal: als je weinig tijd hebt, leer je eerst de grammatica (FP) en daarna een paar zinnen (QAT). Maar als je een jaar tijd hebt, moet je de hele tijd al oefenen met spreken in de juiste context (QAT), anders vergeet je wat je hebt geleerd als je probeert het in een klein boekje te schrijven.

Each language version is independently generated for its own context, not a direct translation.

Titel: Compute-Optimal Quantization-Aware Training

Auteurs: Aleksandr Dremov, David Grangier, Angelos Katharopoulos, Awni Hannun (Apple)

1. Het Probleem

Met de groei van Large Language Models (LLMs) en de toename van toepassingen op apparaten (on-device), wordt modelcompressie via kwantisatie essentieel om inferentiekosten te verlagen. Quantization-Aware Training (QAT) is een toonaangevende techniek die de nauwkeurigheid van gekwantiseerde modellen verbetert door kwantisatie direct in het trainingsproces op te nemen.

Eerdere studies (zoals Liu et al., 2025) hebben aangetoond dat het splitsen van training in een fase met volledige precisie (Full-Precision, FP) gevolgd door een QAT-fase, betere resultaten oplevert dan QAT alleen. Echter, de optimale verdeling van de rekenkracht (compute budget) tussen deze twee fasen bleef onduidelijk.

Huidige aanname: Er wordt vaak uitgegaan van een vaste verhouding (bijv. 10% van de trainingstappen voor QAT), ongeacht de modelgrootte of het totale aantal tokens.
De uitdaging: Practici staan voor een kritieke resource-allocation vraag: gegeven een vast rekenbudget, hoe moet de tijd worden verdeeld tussen FP-pretraining en QAT om de beste kwaliteit te bereiken? Eerdere inzichten suggereerden dat een langere FP-fase QAT moeilijker zou maken, maar dit is niet systematisch onderzocht over verschillende schalen.

2. Methodologie

De auteurs hebben uitgebreide experimenten uitgevoerd om de relatie tussen compute-budget, modelgrootte, kwantisatie-breedte en trainingsduur te analyseren.

Experimentele Opzet:
- Modellen: Variërend van 86 miljoen tot 2,2 miljard parameters.
- Token-aantallen: Totale token-counts variërend van 2,3 miljard tot 1,4 biljoen (voor de kleinste modellen) en tot 669 miljard (voor de grootste).
- Kwantisatie: Getest met 1-, 2-, 4- en 6-bit kwantisatie.
- Variatie: Voor elke modelgrootte en token-count werden verschillende verhoudingen tussen FP-tokens ( $D_{fp}$ ) en QAT-tokens ( $D_{qat}$ ) getest om de optimale QAT-fractie ( $f^*$ ) te vinden.
Statistische Metriek:
- De auteurs introduceren de "tokens-per-parameter-byte" statistiek ( $S_{total}$ ) als de belangrijkste predictor. Dit wordt berekend als $D_{total} / (N \cdot B / 8)$ , waarbij $N$ het aantal parameters is en $B$ de bit-breedte.
- In plaats van alleen naar het totale aantal tokens te kijken, normaliseren ze dit op basis van de modelgrootte en de kwantisatie-dichtheid.
Loss Scaling Law:
- Ze ontwikkelen een nieuwe verlies-schalingswet (loss scaling law) die de verwachte final loss ( $L$ $L$ ) modelleert als een functie van:
  - Aantal parameters ( $N$ )
  - Tokens voor FP-training ( $D_{fp}$ )
  - Tokens voor QAT-training ( $D_{qat}$ )
  - Kwantisatie-breedte ( $B$ )
- De formule bevat termen voor de Chinchilla-achtige basisloss, een onherleidbare QAT-fout, een pure QAT-boete, en een interactieterm tussen FP en QAT.
Nieuwe Trainingsschema:
- Ze stellen een innovatief schema voor: "QAT & Learning Rate Cooldown Fusion". In plaats van FP-training volledig af te ronden met een learning rate cooldown en daarna QAT te starten met een nieuwe warmup, starten ze QAT direct vanuit het constante learning rate stadium en voeren ze de cooldown tijdens de QAT uit.

3. Belangrijkste Bijdragen & Resultaten

A. De Optimale QAT-Fractie is Niet Vast, maar Groeit

In tegenstelling tot eerdere bevindingen die een vaste fractie (bijv. 10%) als optimaal beschouwden, tonen de auteurs aan dat:

De optimale fractie voor QAT toeneemt naarmate het totale rekenbudget (gemeten in tokens-per-parameter-byte) groeit.
Voor kleine rekenbudgetten is een klein percentage QAT voldoende, maar voor grote modellen en grote datasets moet een aanzienlijk groter deel van de training in QAT worden uitgevoerd om de precisieverlies te compenseren.
Deze relatie kan nauwkeurig worden voorspeld met de tokens-per-parameter-byte statistiek.

B. De Loss Scaling Law

De auteurs hebben een unificerende formule afgeleid die:

De uiteindelijke loss nauwkeurig voorspelt voor verschillende verdelingen van FP en QAT.
De optimale QAT-fractie kan afleiden uit de formule zelf.
Toont aan dat suboptimale verdelingen (bijv. vasthouden aan 10% QAT bij een groot budget) leiden tot aanzienlijke "verspilde tokens". Bij 1-bit kwantisatie kan het gebruik van de optimale fractie leiden tot dezelfde loss met slechts 50% van het rekenvermogen vergeleken met een suboptimale verdeling.

C. Bit-breedte en Geheugenbeperkingen

Met behulp van de schalingswet kunnen ze voorspellen:

Welke bit-breedte optimaal is onder een specifiek geheugenbudget.
Dat voor een vast geheugenbudget, de optimale kwantisatie-breedte afneemt naarmate het trainings-FLOP-budget toeneemt. Dit betekent dat bij meer rekenkracht, men beter kan kiezen voor een kleiner model met lagere precisie (meer parameters in lager bit-formaat) dan een groter model met hogere precisie.

D. QAT & Cooldown Fusion

De voorgestelde methode om learning rate decay te fuseren met QAT:

Elimineert redundante updates in volledige precisie.
Resulteert in significante verbeteringen in nauwkeurigheid (gemeten in "verspilde tokens") voor 4- en 6-bit kwantisatie.
Bij 1- en 2-bit is het effect kleiner omdat de optimale QAT-fractie daar al zo groot is dat er weinig FP-training overblijft om te fusioneren.

4. Significatie en Impact

Efficiëntere QAT Planning: Dit paper biedt praktische richtlijnen voor het plannen van QAT. Het weerlegt het idee van een "one-size-fits-all" verhouding en stelt dat de verhouding dynamisch moet worden aangepast aan de schaal van het project.
Kosteneffectiviteit: Door de optimale QAT-fractie te gebruiken, kunnen organisaties dezelfde modelkwaliteit bereiken met minder rekenkracht, of met hetzelfde budget veel betere modellen trainen.
On-Device Deployments: De inzichten zijn cruciaal voor het trainen van modellen die op apparaten draaien, waar geheugen en rekenkracht beperkt zijn. Het helpt bij het vinden van de beste balans tussen modelgrootte, precisie en trainingsduur.
Nieuwe Training Paradigma's: De "Fusion"-methode suggereert dat de standaard QAT-pipeline (FP -> Cooldown -> QAT) niet optimaal is en dat aanpassingen in het learning rate schema aanzienlijke winsten kunnen opleveren.

Conclusie

Deze studie transformeert het begrip van hoe we kwantisatie-aware training moeten benaderen. In plaats van een statisch percentage te gebruiken, moeten practitioners de QAT-duur schalen met het totale compute-budget. De afgeleide loss scaling law en de nieuwe trainingsschema's bieden een robuust kader voor het trainen van hoogwaardige, gekwantiseerde taalmodellen binnen strikte resource-beperkingen.