Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

Each language version is independently generated for its own context, not a direct translation.

Der Muon-Optimierer: Wie man einen chaotischen Tanz in einen perfekten Walzer verwandelt

Stellen Sie sich vor, Sie versuchen, einen riesigen, dunklen Berg zu erklimmen, um den tiefsten Punkt im Tal (den besten Zustand Ihres KI-Modells) zu finden. Das ist im Grunde das, was Computer beim „Training" von künstlicher Intelligenz tun.

In der Vergangenheit benutzten sie dafür einen einfachen Kompass: den Gradienten. Das ist wie ein Wanderer, der immer nur in die Richtung des steilsten Abhangs schaut und einen Schritt macht. Das funktioniert, ist aber oft wackelig, besonders wenn der Berg sehr steil oder der Nebel (Rauschen) stark ist.

Dann kam der Muon-Optimierer auf den Plan. Er ist wie ein erfahrener Tanzpartner. Er nimmt den steilen Abhang (den Gradienten), aber bevor er einen Schritt macht, dreht er sich und richtet sich perfekt aus. Er sorgt dafür, dass seine Schritte nicht chaotisch hin und her wackeln, sondern in einer eleganten, orthogonalen (rechtwinkligen) Linie bleiben. Das macht das Training schneller und stabiler.

Das Problem: Die Theorie war noch nicht ganz fertig
Obwohl Muon in der Praxis fantastisch funktioniert, hatten die Mathematiker noch keine perfekte Erklärung dafür, warum er so gut ist. Die bisherigen Theorien waren wie eine grobe Landkarte: Sie sagten „Du kommst ans Ziel", aber sie waren entweder zu vage oder galten nur unter sehr speziellen, unrealistischen Bedingungen (z. B. „Wenn der Berg perfekt glatt ist und der Wanderer nie müde wird").

Die Lösung dieses Papiers: Eine präzisere Landkarte
Die Autoren dieses Papiers (Shuntaro Nagashima und Hideaki Iiduka) haben sich hingelegt und die Mathematik von Muon neu durchgerechnet. Sie haben die komplizierten, unnötigen Annahmen weggelassen und eine schärfere, genauere Theorie entwickelt.

Stellen Sie sich ihre Arbeit wie folgt vor:

Der Tanzschritt (Die Orthogonalisierung):
Muon macht etwas Besonderes: Er nimmt die Kraft des Impulses (Momentum) und „glättet" sie. Stellen Sie sich vor, Sie laufen durch einen engen Gang. Ein normaler Optimierer (wie Adam) würde versuchen, sich an die Wände zu drücken und sich anzupassen. Muon hingegen sagt: „Nein, wir drehen uns so, dass wir immer genau in die Mitte des Ganges laufen, ohne die Wände zu berühren." Das verhindert, dass wir uns in Ecken festlaufen.
Die Geschwindigkeit (Die Konvergenzrate):
Das Wichtigste an diesem Papier ist die Antwort auf die Frage: „Wie schnell erreichen wir das Ziel?"
- Die alten Theorien sagten: „Mit Muon kommen Sie in Zeit $T$ etwa so weit wie $\frac{1}{\sqrt{T}}$ ." Das ist okay, aber langsam.
- Die neue Theorie sagt: „Wenn Sie die Parameter richtig einstellen (besonders die Gruppengröße beim Lernen), können Sie bis zu $\frac{1}{T}$ erreichen."
- Die Analogie: Stellen Sie sich vor, Sie laufen eine Strecke. Die alte Theorie sagt, Sie werden mit der Zeit langsamer. Die neue Theorie zeigt, dass Muon mit der richtigen Strategie (mehr Leute in der Gruppe, die mitlaufen) sogar schneller werden kann, je weiter man kommt.
Der Trick mit der Gruppenstärke (Batch Size):
Ein spannendes Ergebnis ist, dass Muon besonders gut funktioniert, wenn man die Gruppengröße (Batch Size) während des Trainings vergrößert.
- Stellen Sie sich vor: Am Anfang des Trainings sind Sie mit nur 2 Freunden unterwegs. Sie sind vorsichtig. Aber je näher Sie dem Ziel kommen, desto mehr Freunde holen Sie hinzu (die Gruppe wächst exponentiell).
- Die Mathematik zeigt: Wenn Sie diese Gruppe vergrößern, wird der „Rauschen" (das Zittern) so stark reduziert, dass Muon fast perfekt geradeaus läuft. Das ermöglicht eine viel schnellere Annäherung an das Ziel als bisher gedacht.

Was bedeutet das für die Praxis?
Dieses Papier ist wie ein neues Handbuch für Ingenieure, die KI-Modelle bauen. Es sagt ihnen:

„Ihr könnt Muon jetzt mit mehr Vertrauen einsetzen."
„Sie müssen nicht mehr so vorsichtig sein mit den Einstellungen."
„Wenn Sie die Lernrate (wie schnell Sie Schritte machen) und die Gruppengröße (wie viele Daten Sie gleichzeitig ansehen) clever kombinieren, wird das Training nicht nur stabiler, sondern auch deutlich schneller."

Fazit
Die Autoren haben den Muon-Optimierer nicht nur neu erfunden, sondern ihm ein Theorie-Upgrade verpasst. Sie haben bewiesen, dass dieser „Tanzpartner" nicht nur gut aussieht, sondern auch mathematisch der schnellste Weg ist, um durch den dichten Nebel der nicht-konvexen Optimierung (dem chaotischen Bergland der KI) ans Ziel zu kommen. Sie haben die Grenzen der bisherigen Theorien gesprengt und gezeigt, dass Muon unter viel allgemeineren Bedingungen funktioniert als bisher angenommen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization" auf Deutsch:

1. Problemstellung

Der Muon-Optimizer (Momentum orthogonalized by Newton-Schulz) hat in jüngerer Zeit aufgrund seiner Fähigkeit, Update-Richtungen durch Orthogonalisierung zu stabilisieren, große Aufmerksamkeit in der Ausbildung großer Deep-Learning-Modelle erhalten. Im Gegensatz zu Adam, das eine koordinatenweise adaptive Skalierung verwendet, projiziert Muon die Update-Matrix auf ihren orthogonalen Faktor, um die Korrelationsstruktur der Update-Richtung explizit zu kontrollieren.

Trotz der empirischen Überlegenheit von Muon gegenüber etablierten Optimierern wie Adam fehlte es bisher an einer präzisen theoretischen Fundierung. Bestehende Konvergenzanalysen litten unter folgenden Mängeln:

Zu grobe Schranken: Die Konvergenzraten waren oft suboptimal (z. B. $O(T^{-1/4})$ ).
Restriktive Annahmen: Viele Ergebnisse basierten auf starken Annahmen wie der Polyak-Łojasiewicz (PL)-Bedingung oder spezifischen, unrealistischen Einstellungen von Hyperparametern (z. B. Batch-Größe gleich der Anzahl der Schritte).
Unvollständige Analyse: Einige Analysen ließen dimensionsabhängige Terme offen oder betrachteten nicht den allgemeinen nicht-konvexen Fall ohne starke Regularitätsbedingungen.

Das Ziel dieser Arbeit ist es, schärfere Konvergenzgarantien für Muon zu etablieren, die unter allgemeineren Annahmen gelten und die tatsächliche Update-Struktur des Algorithmus besser abbilden.

2. Methodik

Die Autoren führen eine direkte und vereinfachte Konvergenzanalyse durch, die keine restriktiven Annahmen über die Update-Regel benötigt. Die Analyse stützt sich auf folgende Kernkomponenten:

Modellierung: Das Problem wird als nicht-konvexe Optimierungsaufgabe formuliert, bei der das empirische Risiko $f(W)$ $f (W)$ minimiert werden soll. Es werden Standardannahmen getroffen:
- $L$ -glatte Verlustfunktionen (Assumption 2.1(i)).
- Unverzerrte stochastische Gradienten mit beschränkter Varianz (Assumption 2.1(ii)).
Algorithmus: Der Muon-Algorithmus (Algorithmus 1) wird analysiert, sowohl mit als auch ohne Nesterov-Momentum. Der Kernschritt ist die Orthogonalisierung (Schritt 9), bei der $O_t = \arg\min_{O^\top O = I_n} \|O - C_t\|_F$ berechnet wird.
Analysewerkzeuge:
- Descent-Lemma: Nutzung der Eigenschaft glatter Funktionen, um die Abnahme der Zielfunktion zu quantifizieren.
- Dual-Norm-Eigenschaften: Ausnutzung der Struktur der Orthogonalisierung, um den Zusammenhang zwischen dem Gradienten $\nabla f(W_t)$ und dem orthogonalisierten Momentum $C_t$ zu analysieren.
- Induktive Schranken: Herleitung von oberen Schranken für den Fehler $\|\nabla f(W_t) - C_t\|_F$ , der durch Momentum und Rauschen entsteht.

Die Analyse betrachtet verschiedene Kombinationen von Lernraten ( $\eta_t$ ) und Batch-Größen ( $b_t$ ):

Lernraten: Konstant, Cosine-Annealing, Polynomielle Abnahme und abnehmende Raten ( $\eta/\sqrt{t+1}$ ).
Batch-Größen: Konstant und exponentiell wachsend ( $b \delta^t$ ).

3. Hauptbeiträge

Die Arbeit liefert drei wesentliche Beiträge zur theoretischen Charakterisierung von Muon:

Schärfere obere Schranken: Es wird eine neue obere Schranke für den erwarteten Betrag des vollen Gradienten $\mathbb{E}[\|\nabla f(W_t)\|_F]$ hergeleitet. Diese Schranke besteht aus fünf (bzw. sechs bei Nesterov) Termen, die von Lernrate, Batch-Größe und Momentum-Parameter abhängen.
Verbesserte Konvergenzraten ( $O$ -Notation): Durch die Wahl praktischer Hyperparameter werden signifikant schnellere Konvergenzraten erreicht als in vorherigen Studien:
- Bei konstanter Lernrate und wachsender Batch-Größe wird eine Rate von $O(1/T)$ erreicht (im Vergleich zu früheren $O(1/\sqrt{T})$ oder $O(T^{-1/4})$ ).
- Bei abnehmender Lernrate und exponentiell wachsender Batch-Größe wird eine Rate von $O(\log T / \sqrt{T})$ erreicht.
Entkopplung von PL-Bedingung: Im Gegensatz zu früheren Arbeiten (z. B. Chang et al., 2025), die die starke PL-Bedingung für gute Raten benötigten, zeigen die Autoren, dass Muon auch ohne diese Bedingung und mit abnehmender Lernrate konvergiert.

4. Ergebnisse

Die Ergebnisse werden in Korollar 3.1 zusammengefasst und heben sich deutlich von bestehenden Ergebnissen (Tabelle 1, Ergebnisse 1–7) ab:

Szenario A (Konstante LR, konstante Batch-Größe):
- Erreichte Rate: $O(1/T + \eta + 1/\sqrt{b})$ .
- Mit $\eta = O(1/T)$ und $b = O(T^2)$ ergibt sich eine Konvergenzrate von $O(1/T)$ . Dies ist eine Verbesserung gegenüber der $O(1/\sqrt{T})$ -Rate in früheren Arbeiten.
Szenario B (Exponentiell wachsende Batch-Größe):
- Wenn die Batch-Größe exponentiell wächst ( $b_t = b \delta^t$ ), verschwindet der Term $1/\sqrt{b}$ schneller.
- Mit konstanter LR $\eta$ und $b_t$ wächst die Rate auf $O(1/T + \eta)$ .
- Mit $\eta = O(1/T)$ wird erneut $O(1/T)$ erreicht.
Szenario C (Abnehmende LR):
- Mit $\eta_t = \eta/\sqrt{t+1}$ und konstanter Batch-Größe: Rate $O(\log T / \sqrt{T} + 1/\sqrt{b})$ .
- Mit exponentiell wachsender Batch-Größe: Rate $O(\log T / \sqrt{T})$ .

Ein zentrales Ergebnis ist die Bestätigung, dass die Kombination aus einer abnehmenden Lernrate und einer exponentiell wachsenden Batch-Größe die stabilsten und schnellsten Konvergenzeigenschaften bietet.

5. Bedeutung und Fazit

Diese Arbeit liefert den ersten umfassenden theoretischen Nachweis für die überlegene Konvergenz des Muon-Optimierers unter allgemeinen nicht-konvexen Bedingungen.

Theoretische Validierung: Die Ergebnisse bestätigen empirische Beobachtungen, dass Muon effizienter als Adam ist, und liefern die mathematische Begründung dafür.
Praktische Leitlinien: Die Analyse liefert klare Richtlinien für das Hyperparameter-Tuning. Sie zeigt, dass die Skalierung der Batch-Größe (insbesondere exponentielles Wachstum) entscheidend ist, um die theoretisch optimalen Raten von $O(1/T)$ zu erreichen, ohne auf starke Bedingungen wie die PL-Bedingung angewiesen zu sein.
Allgemeine Anwendbarkeit: Die verwendeten Techniken (vereinfachte Analyse der Orthogonalisierung) sind nicht nur auf Muon beschränkt, sondern bieten Einsichten für eine breitere Klasse von orthogonalisierten First-Order-Methoden.

Zusammenfassend schließt diese Arbeit die Lücke zwischen der praktischen Effektivität von Muon und seiner theoretischen Fundierung und etabliert neue Benchmarks für die Konvergenzanalyse von Optimierern in großen neuronalen Netzen.

Improved Convergence Rates of Muon Optimizer for Nonconvex Optimization

1. Problemstellung

2. Methodik

3. Hauptbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

A positive answer to a symmetry conjecture on homogeneous IFS

Exploring Collatz Dynamics with Human-LLM Collaboration

On the 3-adic Valuation of a Cubic Binomial Sum

The M öbius Disjointness Conjecture on infinite-dimensional torus

Far field refraction problem with loss of energy in negative refractive index material