A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist der Chef eines riesigen Kochrestaurants, das jeden Tag Millionen von Gästen bedienen muss. Um so viele Menschen zu füttern, brauchst du nicht nur einen Koch, sondern ein ganzes Team von Assistenten, die Rezepte anpassen, Zutaten abwiegen und den Ofen regeln.

In der Welt der künstlichen Intelligenz (KI) ist dieses Restaurant ein großes Sprachmodell (wie ein Chatbot), und die Assistenten sind Optimierer (Algorithmen wie Adam oder Muon), die das Modell „lernen" lassen.

Das Problem: Je größer das Restaurant, desto mehr Platz brauchen die Zutaten und desto mehr Energie verbraucht das Kochen. Um das effizienter zu machen, wollen die Köche jetzt mit kleineren Messern und weniger genauen Waagen arbeiten. Das nennt man „Quantisierung" oder „Niedrig-Präzision". Statt mit riesigen, genauen Maßstäben (wie einem Zollstock mit Millimetern) messen sie nur noch grob (wie mit einem Daumen).

Das Dilemma:
Bisher haben die Theoretiker gesagt: „Wenn ihr die Waagen so grob macht, wird das Essen schmecken, weil die Berechnungen nicht mehr genau genug sind." Aber in der Praxis funktioniert es trotzdem! Die KI lernt weiter, nur schneller und mit weniger Speicherplatz. Warum? Das war lange ein Rätsel.

Was diese neue Forschung tut:
Diese Studie ist wie ein Detektiv, der endlich herausfindet, warum das Kochen mit groben Messern trotzdem gelingt. Die Forscher haben eine neue Theorie entwickelt, die genau erklärt, was passiert, wenn man bei allen Schritten des Lernprozesses (die Zutaten, die Rezepte und die Notizen der Assistenten) auf die groben Messgeräte umsteigt.

Hier sind die wichtigsten Erkenntnisse, einfach erklärt:

1. Der Unterschied zwischen „Adam" und „Muon"

Stell dir zwei verschiedene Koch-Teams vor, die beide mit den neuen, groben Messgeräten arbeiten:

Team Adam (Der alte, bewährte Koch):
Adam ist sehr vorsichtig. Er schaut sich die Geschichte an: „Wie viel Salz habe ich gestern genommen? Wie war das Wetter?" Er nutzt diese Geschichte, um die nächsten Schritte zu berechnen.
- Das Problem: Wenn Adam mit groben Messern arbeitet, wird er sehr empfindlich. Weil er sich so stark auf seine historischen Daten stützt (besonders auf eine Zahl namens $\beta_2$ , die nahe bei 1 liegt), führen schon kleine Messfehler in der Vergangenheit zu riesigen Fehlern in der Zukunft. Es ist, als würde ein Koch, der sich auf eine ungenaue Waage aus dem Jahr 2020 verlässt, heute das ganze Gericht ruinieren.
- Die Lösung: Damit Adam mit groben Messern funktioniert, müssen die Messgeräte für die „Geschichte" (die zweiten Momente) und die Zutaten (Gewichte) viel genauer sein als für den aktuellen Schritt.
Team Muon (Der moderne, flexible Koch):
Muon ist neu und nutzt einen anderen Trick. Statt sich stur auf die Vergangenheit zu verlassen, schaut er sich die Struktur der Zutaten an (wie ein Dirigent, der die Orchestergruppe neu anordnet).
- Der Vorteil: Muon ist viel robuster. Er braucht keine supergenauen Messgeräte für die Geschichte. Selbst wenn die Waagen etwas wackeln, findet Muon den Weg zum perfekten Gericht. Er ist weniger anfällig für die kleinen Fehler, die durch das grobe Messen entstehen.

2. Die magische Regel: „Nur ein bisschen mehr Genauigkeit"

Die Forscher haben herausgefunden, dass man nicht unendlich genaue Messgeräte braucht. Es reicht aus, wenn die Genauigkeit der Messgeräte (die Anzahl der „Ziffern" hinter dem Komma) nur sehr langsam mit der Zeit wächst.

Die Analogie: Stell dir vor, du lernst ein neues Rezept. Am Anfang musst du vielleicht nur grob schätzen. Aber je mehr du kochst, desto genauer musst du werden. Die Studie sagt: „Du musst nicht sofort zum Mikroskop greifen. Es reicht, wenn du deine Waage nur logarithmisch verfeinerst." Das bedeutet: Selbst mit sehr wenigen Bits (wenigen Ziffern) kann das System funktionieren, solange die Fehler nicht zu schnell anwachsen.

3. Warum ist das wichtig?

Früher dachte man, man müsse für KI-Training alles in voller Genauigkeit (wie mit einem Laser-Maßband) machen, sonst funktioniert es nicht.
Diese Studie zeigt: Nein, das stimmt nicht.

Man kann KI-Modelle mit viel weniger Speicher und Energie trainieren (was Geld spart und die Umwelt schont).
Man muss nur aufpassen, welche Teile des Systems wie genau gemessen werden.
Besonders der neue Optimierer Muon scheint dafür perfekt geeignet zu sein, da er Fehler viel besser wegsteckt als der klassische Adam.

Zusammenfassung in einem Satz

Die Forscher haben bewiesen, dass man KI-Modelle auch mit „grobkörnigen" Messgeräten effizient trainieren kann, solange man weiß, welche Teile des Systems besonders empfindlich sind – und dass der neue Optimierer Muon dabei viel weniger anfällig für Fehler ist als der alte Klassiker Adam.

Das ist ein großer Schritt, um KI nicht nur für Supercomputer, sondern auch für alltägliche Geräte zugänglich zu machen, ohne die Qualität zu verlieren.

Each language version is independently generated for its own context, not a direct translation.

Problemstellung

Die rasante Skalierung von Large Language Models (LLMs) macht das Training mit niedriger Präzision (Low-Precision Training) unverzichtbar, um den Speicherbedarf zu senken und die Recheneffizienz zu steigern. Formate wie bfloat16 (BF16) und FP8 werden zunehmend eingesetzt, um Modelle auf modernen Hardware-Acceleratoren (z. B. NVIDIA Hopper) zu trainieren.
Trotz des empirischen Erfolgs fehlt es jedoch an einer rigorosen theoretischen Grundlage, die erklärt, warum adaptive Optimierer wie Adam und der neuere Muon unter Quantisierung aller Komponenten (Gradienten, Gewichte und Optimierer-Zustände wie Momentenschätzungen) konvergieren.
Bisherige Theorien basieren oft auf unrealistischen Annahmen:

Sie betrachten nur die Quantisierung von Gradienten (QSGD).
Sie setzen unverzerrte Quantisierung (unbiased quantization) oder Fehler-Rückkopplungsmechanismen (error-feedback) voraus, die in der Praxis bei LLM-Training oft nicht implementiert sind oder zu viel Speicher verbrauchen.
Sie ignorieren die Quantisierung der Optimierer-Zustände (z. B. der zweiten Momenten-Schätzung), die in modernen Low-Bit-Pipelines jedoch zentral ist.

Methodik

Die Autoren stellen einen neuen theoretischen Rahmen vor, der die Konvergenz adaptiver Optimierer unter realistischer Floating-Point-Quantisierung analysiert.

Modellierung der Quantisierung:
- Statt unverzerrter Quantisierung oder Fehler-Rückkopplung verwenden die Autoren ein relatives Fehlermodell (Assumption 3.1). Dies entspricht dem Verhalten von Floating-Point-Formaten (z. B. FP32 zu BF16/FP8), bei denen der Fehler proportional zum Wert ist ( $|x_Q - x| \le q|x|$ ).
- Das Framework quantisiert explizit alle Komponenten: Gewichte ( $W$ ), Gradienten ( $G$ ), erste Momente ( $M$ , Momentum) und zweite Momente ( $V$ ).
Analyse der Optimierer:
- Adam: Die Analyse berücksichtigt die Abhängigkeit von $\beta_2$ (der Zerfallsrate für das zweite Moment), das in der Praxis oft nahe 1 liegt.
- Muon: Ein neuerer Optimierer, der auf einer SVD-basierten Sign-Operator-Methode beruht, um die Update-Richtung zu bestimmen.
Konvergenzbeweise:
- Die Autoren leiten Konvergenzraten für glatte, nicht-konvexe Ziele her.
- Sie zeigen, dass die Konvergenzraten denen der Full-Precision-Versionen entsprechen, sofern die Mantissenlänge logarithmisch mit der Anzahl der Iterationen skaliert ( $M = \Omega(\log T)$ ).

Hauptbeiträge

Erster theoretischer Rahmen für Floating-Point-Quantisierung:
Es ist das erste Werk, das eine formale Konvergenzanalyse für adaptive Optimierer unter Berücksichtigung der Quantisierung von allen Komponenten (Gewichte, Gradienten, Zustände) ohne unrealistische Annahmen (wie unverzerrte Quantisierung) durchführt.
Konvergenzgarantien für Adam und Muon:
- Adam (Theorem 4.5): Es wird bewiesen, dass quantisierter Adam eine Konvergenzrate von $\tilde{O}(T^{-1/4})$ erreicht (entsprechend dem Full-Precision-Fall), wenn die relativen Fehler $q_G, q_M = O(1/T)$ und $q_W, q_V = O(1/T^2)$ sind.
- Muon (Theorem 4.6): Muon erreicht ebenfalls $\tilde{O}(T^{-1/4})$ , benötigt jedoch schwächere Fehlerbedingungen ( $q = O(1/\sqrt{T})$ ).
Differenzierte Sensitivitätsanalyse:
- Adam ist hochempfindlich: Die Analyse zeigt, dass Adam stark von der Quantisierung der Gewichte und des zweiten Moments abhängt. Dies liegt an der Abhängigkeit von $\beta_2 \to 1$ , was zu einer nichtlinearen Verstärkung von Quantisierungsfehlern durch die inverse Quadratwurzel der historischen Gradientenvarianz führt.
- Muon ist robuster: Muon benötigt weniger strenge Fehlerkontrolle. Der SVD-basierte Sign-Operator vermeidet die Verstärkung von Fehlern durch die inverse Quadratwurzel der Varianz, was Muon für Low-Precision-Training robuster macht.

Ergebnisse und Experimente

Die theoretischen Ergebnisse wurden durch umfangreiche Experimente auf synthetischen und realen Daten untermauert:

Synthetische Daten (Rosenbrock-Funktion):
- Zeigten, dass niedrigere Mantissenlängen zu größeren konvergierten Gradientennormen führen.
- Bestätigten die theoretische Vorhersage, dass Adam bei $\beta_2 \to 1$ extrem empfindlich auf die Quantisierung des zweiten Moments reagiert (siehe Abbildung 7).
- Muon zeigte bei gleicher Quantisierung eine deutlich bessere Konvergenzstabilität.
CIFAR-10 (Vollvernetztes Netz):
- Adam und Muon wurden mit verschiedenen Mantissenlängen ( $M \in \{1, \dots, 23\}$ ) verglichen.
- Muon erreichte bei niedrigen Präzisionen (z. B. $M=2$ ) bessere Ergebnisse als Adam, was die theoretische Robustheit bestätigt.
nanoGPT (OpenWebText, ~26M Parameter):
- Ein reales LLM-Trainingsszenario.
- Bei niedriger Präzision ( $M=2$ ) zeigte AdamW eine langsamere Konvergenz und höhere Verluste.
- Muon zeigte eine überlegene Robustheit gegenüber Low-Precision-Quantisierung und erreichte niedrigere Trainings- und Validierungsverluste als AdamW bei gleicher niedriger Präzision.

Bedeutung und Fazit

Diese Arbeit schließt eine kritische Lücke zwischen der empirischen Praxis des Low-Bit-Trainings und der theoretischen Verständnisgrundlage.

Praktische Implikation: Sie liefert eine theoretische Rechtfertigung dafür, warum Low-Precision-Training (z. B. FP8) in der Praxis funktioniert, solange die Mantissenlänge ausreichend ist.
Optimierer-Auswahl: Die Ergebnisse deuten darauf hin, dass Optimierer wie Muon, die weniger anfällig für die Verstärkung von Quantisierungsfehlern sind, besser für das Training extrem großer Modelle mit begrenzter Speicherbandbreite geeignet sein könnten als traditionelle Adam-Varianten.
Zukünftige Richtungen: Die Arbeit legt den Grundstein für die Entwicklung neuer, hardware-bewusster Optimierer, die speziell für die Anforderungen der Floating-Point-Quantisierung in modernen LLM-Pipelines entworfen sind.

Zusammenfassend beweist das Paper, dass adaptive Optimierer unter Floating-Point-Quantisierung konvergieren können, wobei die spezifische Architektur des Optimierers (insbesondere der Umgang mit dem zweiten Moment) entscheidend für die Robustheit gegenüber Quantisierungsfehlern ist.

A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization

1. Der Unterschied zwischen „Adam" und „Muon"

2. Die magische Regel: „Nur ein bisschen mehr Genauigkeit"

3. Warum ist das wichtig?

Zusammenfassung in einem Satz

Problemstellung

Methodik

Hauptbeiträge

Ergebnisse und Experimente

Bedeutung und Fazit

Mehr davon

NS-RGS: Newton-Schulz based Riemannian gradient method for orthogonal group synchronization

Poisson-response Tensor-on-Tensor Regression and Applications

A Comparative Study of Penalised, Bayesian, Spatial, and Tree-Based Models for Provincial Poverty in Indonesia: Small Samples and High Collinearity

Generalization error bounds for two-layer neural networks with Lipschitz loss function

Tight Convergence Rates for Online Distributed Linear Estimation with Adversarial Measurements