Compute-Optimal Quantization-Aware Training

Each language version is independently generated for its own context, not a direct translation.

Das große Problem: Der perfekte Mix aus „Vollgas" und „Feinschliff"

Stellen Sie sich vor, Sie wollen ein Meisterwerk erschaffen – sei es ein riesiges Gemälde oder ein komplexes Musikstück. In der Welt der Künstlichen Intelligenz (KI) nennen wir das ein „Large Language Model" (LLM).

Früher dachte man, der beste Weg, dieses Meisterwerk zu erstellen, sei:

90 % der Zeit: Alles in höchster Qualität und mit allen Details malen (das nennt man „Vollpräzision" oder FP).
10 % der Zeit: Am Ende kurz drüberpinseln und das Bild für den Druck vorbereiten, damit es klein und schnell zu versenden ist (das nennt man „Quantization-Aware Training" oder QAT).

Die Forscher von Apple haben jedoch entdeckt: Dieser alte Rat funktioniert nicht mehr, wenn das Projekt riesig wird.

Die neue Entdeckung: Je größer das Projekt, desto mehr „Feinschliff" braucht es

Stellen Sie sich vor, Sie bauen ein Haus.

Bei einem kleinen Gartenhaus reicht es, den Grundriss perfekt zu zeichnen und am Ende kurz die Wände zu streichen.
Aber bei einem Wolkenkratzer (einem riesigen KI-Modell) reicht das nicht mehr. Wenn Sie nur am Ende streichen, passt die Farbe nicht mehr zu den riesigen Strukturen. Sie müssen den Feinschliff (das Anpassen an die „kleine" Speichergröße) viel früher und intensiver einplanen.

Die Kernbotschaft der Studie:
Je mehr Rechenleistung (Geld und Zeit) Sie insgesamt haben, desto mehr Zeit sollten Sie in den „Feinschliff" (QAT) investieren.

Bei kleinen Modellen sind vielleicht 10–20 % Feinschliff genug.
Bei riesigen Modellen mit viel Rechenpower sollten Sie 30 %, 50 % oder sogar mehr der Zeit in diesen Feinschliff stecken.

Das klingt erstmal kontraintuitiv (man denkt ja, man sollte erst perfekt bauen und dann nur noch anpassen), aber es funktioniert so: Wenn Sie zu lange nur im „Vollmodus" trainieren, „vergisst" das Modell, wie es sich an die kleinen Speicherformate anpassen soll. Es wird zu starr.

Die Formel für den Erfolg: „Wörter pro Byte"

Die Forscher haben eine Art Zauberformel entwickelt, um genau zu sagen, wie viel Zeit man wofür braucht. Sie nennen es „Tokens pro Parameter-Byte".

Vereinfacht gesagt: Es ist wie beim Kochen. Wenn Sie ein riesiges Festmahl für 1000 Leute kochen (viele Daten), müssen Sie die Gewürze (die Anpassung an die kleine Speichergröße) viel früher und intensiver einrühren als bei einem kleinen Abendessen für zwei Personen.
Die Formel hilft Ingenieuren, genau zu berechnen: „Für dieses riesige Modell mit diesem Budget brauchen wir genau 45 % Feinschliff-Zeit, um das beste Ergebnis zu erzielen."

Der „Kühlschrank-Trick" (Cooldown & Fusion)

Ein weiterer cooler Teil der Studie ist eine neue Methode, wie man den Lernprozess steuert.

Der alte Weg: Man trainiert das Modell mit hoher Geschwindigkeit (Vollpräzision), lässt es dann abkühlen (Lernrate senken), und dann fängt man erst an, es für den Feinschliff (QAT) umzustellen. Das ist wie ein Auto, das man erst auf die Autobahn bringt, dann abbremst, den Motor umrüstet und erst dann wieder Gas gibt. Das ist ineffizient.
Der neue Weg (Fusion): Man baut den Feinschliff direkt in den Abkühlungsprozess ein. Man fährt nicht erst runter und schaltet dann um, sondern man fährt während des Abbremsens schon in den neuen Modus.
Das Ergebnis: Man spart enorme Mengen an Rechenzeit und Energie, weil man keine redundanten Schritte mehr macht. Es ist, als würde man das Auto so bauen, dass es beim Bremsen automatisch in den sparsamen Modus wechselt, ohne dass man extra Zeit verliert.

Was bedeutet das für die Zukunft?

Bessere KI auf dem Handy: Da wir KI-Modelle auf Handys und Laptops speichern müssen, müssen sie klein und effizient sein. Diese Studie zeigt uns, wie wir diese kleinen Modelle so trainieren, dass sie fast so schlau sind wie die riesigen Server-Modelle.
Geld sparen: Unternehmen müssen nicht mehr raten, wie lange sie trainieren sollen. Sie können die Formel nutzen, um genau zu wissen, wie viel Rechenzeit sie sparen können, ohne an Qualität zu verlieren.
Kein „One-Size-Fits-All": Es gibt keine feste Regel mehr wie „immer 10 %". Es kommt auf die Größe des Modells und das Budget an.

Zusammenfassend:
Apple hat herausgefunden, dass man bei großen KI-Projekten nicht erst am Ende anfangen darf, sie für kleine Geräte zu optimieren. Man muss diesen „Feinschliff" viel früher und intensiver einplanen, je größer das Projekt ist. Mit ihrer neuen Formel und der cleveren „Fusion"-Methode können wir in Zukunft schlauere, kleinere und effizientere KIs bauen, ohne dabei Millionen an Rechenleistung zu verschwenden.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Quantization-Aware Training (QAT) ist eine führende Technik zur Verbesserung der Genauigkeit quantisierter neuronaler Netze, insbesondere für Large Language Models (LLMs) auf Endgeräten. Bisherige Arbeiten zeigten, dass eine Aufteilung des Trainings in eine Vollpräzisionsphase (FP) gefolgt von einer QAT-Phase zu besseren Ergebnissen führt als QAT allein.

Das zentrale ungelöste Problem ist jedoch die optimale Allokation der Rechenressourcen zwischen diesen beiden Phasen. Während frühere Studien (z. B. Liu et al., 2025) eine feste Aufteilung (z. B. 10 % QAT) als optimal ansahen, bleibt unklar, wie sich dieses Verhältnis bei steigenden Rechenbudgets, unterschiedlichen Modellgrößen und verschiedenen Quantisierungsbreiten verhält. Die Autoren stellen die Hypothese auf, dass eine längere FP-Phase bei sehr großen Datenmengen die nachfolgende QAT erschweren könnte, da das Modell bereits an hohe Präzision gewöhnt ist.

Methodik

Die Autoren führten umfangreiche Experimente durch, um den Einfluss der Trainingsdauer auf die finale Leistung zu analysieren:

Experimentelles Setup:
- Modelle: Verschiedene Größen von 86,0 Millionen bis 2,2 Milliarden Parametern.
- Datenmengen: Token-Anzahlen von 2,3 Milliarden bis 1,4 Billionen.
- Quantisierung: Fokus auf 1-, 2-, 4- und 6-Bit-Quantisierung.
- Strategie: Systematisches Variieren des Verhältnisses zwischen FP-Training ( $D_{fp}$ ) und QAT-Training ( $D_{qat}$ ) bei konstantem Gesamt-Compute-Budget.
Statistische Metrik:
- Um verschiedene Bit-Breiten und Modellgrößen vergleichbar zu machen, führten die Autoren die Metrik „Tokens pro Parameter-Byte" ( $S_{total} = \frac{D_{total}}{N \cdot B/8}$ ) ein. Diese berücksichtigt, dass größere Modelle und längere Trainingsphasen schwieriger zu quantisieren sind, während niedrigere Bit-Breiten mehr QAT-Training erfordern.
Loss Scaling Law (Skalierungsgesetz für den Verlust):
- Die Autoren entwickelten ein neues Skalierungsgesetz, das den finalen Verlust $L$ als Funktion von Parametern ( $N$ ), Token-Anzahlen ( $D_{fp}, D_{qat}$ ) und Bit-Breite ( $B$ ) modelliert.
- Im Gegensatz zu früheren Modellen (z. B. Chen et al., 2025b), die QAT nur „from scratch" betrachten, modelliert dieses Gesetz explizit die Interaktion zwischen FP- und QAT-Phasen. Die Formel enthält Terme für irreduziblen QAT-Fehler, reine QAT-Strafen und eine FP/QAT-Interaktion.
Neuer Ansatz: „QAT & Learning Rate Cooldown Fusion":
- Statt QAT nach einem vollständigen FP-Training mit Learning-Rate-Cooldown zu starten und dann neu zu erwärmen, schlagen die Autoren vor, den Learning-Rate-Cooldown direkt mit dem QAT-Training zu fusionieren. Dies eliminiert redundante FP-Updates und nutzt die Lernrate-Decay-Phase effizienter für die Anpassung an die Quantisierung.

Wichtige Beiträge und Ergebnisse

Dynamische optimale QAT-Anteile:
- Im Gegensatz zu früheren Annahmen ist der optimale Anteil an QAT-Training nicht statisch. Er steigt mit dem Gesamt-Rechenbudget an.
- Je höher die „Tokens pro Parameter-Byte"-Statistik, desto größer sollte der Anteil des QAT-Trainings sein.
- Ergebnis: Ein suboptimaler QAT-Anteil führt zu erheblicher Verschwendung von Rechenressourcen. In Extremfällen (z. B. 1-Bit-Quantisierung) kann mit dem optimalen Anteil das gleiche Ergebnis mit nur 50 % des Rechenbudgets erreicht werden.
Präzises Vorhersagemodell:
- Das entwickelte Loss Scaling Law kann den finalen Verlust und den optimalen QAT-Anteil für verschiedene Konfigurationen hochpräzise vorhersagen ( $R^2 > 0.98$ ).
- Es ermöglicht die Vorhersage, welche Bit-Breite unter gegebenen Speicher- und Rechenbeschränkungen optimal ist.
Trade-off zwischen Parameterzahl und Präzision:
- Für ein festes Speicherbudget (Memory Constraint) zeigt sich, dass bei steigendem Trainings-Compute (FLOPs) eine niedrigere Bit-Breite (weniger Präzision) optimal ist, um mehr Parameter unterzubringen. Dies ist wichtig, da die Inferenz oft durch den Speicherdurchsatz (Memory Bandwidth) limitiert ist.
Fusionstechnik (Cooldown & QAT):
- Der vorgeschlagene „QAT & Learning Rate Cooldown Fusion"-Ansatz führt zu signifikanten Verbesserungen, insbesondere bei 4- und 6-Bit-Quantisierung.
- Ergebnis: In den Experimenten wurde eine Reduktion des „verschwendeten Tokens" (Token-Distanz zum optimalen Verlust) von bis zu 13,6 % erreicht, was einer erheblichen Kosteneinsparung entspricht, ohne die Genauigkeit zu opfern.
Vergleich mit Vollpräzision:
- Größere Modelle können bei höheren Token-Anzahlen auch niedrigere Bit-Breiten (bis hinunter zu 4 Bit) tolerieren, ohne signifikant an Genauigkeit gegenüber Vollpräzisionsmodellen zu verlieren.

Signifikanz und Implikationen

Diese Arbeit liefert praktische Leitlinien für das Training von quantisierten Modellen in der Industrie:

Effizienzsteigerung: Durch die dynamische Anpassung des QAT-Anteils basierend auf dem Rechenbudget können Unternehmen die gleiche Modellqualität mit weniger Rechenzeit erreichen oder bei gleichem Budget deutlich bessere Modelle trainieren.
Ressourcenplanung: Das Skalierungsgesetz ermöglicht es, Trainingsstrategien (Bit-Breite, Parameterzahl, FP/QAT-Verhältnis) bereits vor dem Training zu planen, um Speicher- und Rechenbudgets optimal auszulasten.
Prozessoptimierung: Die „Fusion"-Methode zeigt, dass etablierte Trainingspipelines (FP gefolgt von QAT mit separatem Cooldown) nicht optimal sind und durch integrierte Ansätze verbessert werden können.

Zusammenfassend widerlegt das Paper die Annahme fester QAT-Anteile und etabliert ein datengestütztes Framework für die compute-optimale Planung von Quantisierungstrainings, was besonders für den Einsatz von LLMs auf ressourcenbeschränkten Endgeräten von großer Bedeutung ist.

Compute-Optimal Quantization-Aware Training

Das große Problem: Der perfekte Mix aus „Vollgas" und „Feinschliff"

Die neue Entdeckung: Je größer das Projekt, desto mehr „Feinschliff" braucht es

Die Formel für den Erfolg: „Wörter pro Byte"

Der „Kühlschrank-Trick" (Cooldown & Fusion)

Was bedeutet das für die Zukunft?

Problemstellung

Methodik

Wichtige Beiträge und Ergebnisse

Signifikanz und Implikationen

Mehr davon

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks