On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein Architekt, der gerade einen riesigen Wolkenkratzer baut. In der Welt des maschinellen Lernens ist dieser Wolkenkratzer ein Neuronales Netz. Je breiter das Gebäude ist (also je mehr „Zellen" oder Neuronen es pro Stockwerk gibt), desto mächtiger wird es.

Das Problem, das die Autoren dieses Papers untersuchen, ist wie folgt: Wenn du einen kleinen Modell-Prototyp (einen kleinen Turm) baust und herausfindest, mit welcher Geschwindigkeit du die Baustelle vorantreiben musst (die Lernrate), funktioniert diese Geschwindigkeit oft nicht mehr, sobald du den Turm auf das Zehnfache vergrößerst. Der große Turm stürzt ein oder baut sich viel zu langsam auf.

Die Forscher fragen sich: Gibt es eine universelle Regel, wie schnell wir bauen müssen, egal wie breit das Gebäude ist?

Hier ist die einfache Erklärung ihrer Lösung, verpackt in Alltagsmetaphern:

1. Das Problem: Der falsche Maßstab

Stell dir vor, du misst die Stabilität eines Gebäudes mit einem Lineal. Bei einem kleinen Modell passt das Lineal perfekt. Aber wenn das Gebäude breiter wird, dehnt sich das Lineal mit, und plötzlich sind deine Messungen falsch.

In der Mathematik des Papers heißt das: Herkömmliche Optimierer (wie AdamW oder Muon) nutzen eine Art „Maßstab" (einen mathematischen Operator-Norm), der sich mit der Breite des Netzes verändert.

Das Ergebnis: Wenn das Netz breiter wird, wird die „Bodenbeschaffenheit" (die mathematische Landschaft, auf der das Netz läuft) rauer und unvorhersehbarer. Der Optimierer stolpert über die Unebenheiten, und du musst die Lernrate manuell neu justieren. Das ist ineffizient und teuer.

2. Die Lösung: Der „Durchschnitts-Maßstab" (Mean-Normalization)

Die Autoren schlagen vor, den Maßstab zu ändern. Anstatt die absolute Größe zu messen, schauen sie auf den Durchschnitt.

Die Analogie: Stell dir vor, du hast eine Gruppe von Menschen.
- Der alte Maßstab (klassische Norm) sagt: „Wie hoch ist die höchste Person in der Gruppe?" Wenn die Gruppe wächst, wird die höchste Person wahrscheinlich auch größer. Das macht den Vergleich schwierig.
- Der neue Maßstab (Mean-Normalization) sagt: „Wie groß ist die durchschnittliche Körpergröße?" Egal wie viele Menschen in der Gruppe sind, der Durchschnitt bleibt stabil.

Indem sie diesen „Durchschnitts-Maßstab" verwenden, erreichen sie etwas Magisches: Die mathematische Landschaft bleibt glatt und stabil, egal wie breit das Netz wird. Die „Unebenheiten" verschwinden, weil der Maßstab sich automatisch an die Größe anpasst.

3. Die Entdeckung: Warum Muon stolpert

Ein sehr beliebter neuer Optimierer namens Muon wurde als der „König" für große Modelle gepriesen. Die Autoren zeigen jedoch, dass Muon einen versteckten Fehler hat.

Die Metapher: Muon ist wie ein Rennwagen, der auf einer perfekten Rennstrecke fantastisch fährt. Aber sobald die Strecke breiter wird (mehr Neuronen), wird die Fahrbahn für Muon plötzlich rutschig und holprig (die mathematische „Glattheit" verschlechtert sich mit der Wurzel der Breite). Er muss langsamer fahren, wenn das Netz wächst.

4. Der neue Held: MOGA (Row Normalization)

Die Autoren stellen einen neuen Optimierer vor, den sie MOGA nennen.

Wie er funktioniert: MOGA nutzt eine Technik namens Reihen-Normalisierung (Row Normalization). Stell dir vor, du hast ein Gitter aus Bausteinen. MOGA schaut sich jede einzelne Reihe an und stellt sicher, dass sie alle gleichmäßig gewichtet sind, bevor er einen Schritt macht.
Der Vorteil: Dank dieser Technik bleibt die Lernstabilität konstant.
- Wenn du MOGA auf einem kleinen Modell trainierst und die Lernrate auf 0,01 setzt, kannst du dieselbe Lernrate 0,01 auf ein riesiges, breites Modell setzen, und es funktioniert genauso gut.
- Das spart enorme Mengen an Rechenzeit, da man nicht mehr tausende Versuche braucht, um die richtige Geschwindigkeit für das große Modell zu finden.

5. Das große Experiment

Die Autoren haben das nicht nur auf dem Papier bewiesen, sondern es auch in der Praxis getestet. Sie haben riesige Sprachmodelle (wie GPT-2 und LLaMA) trainiert.

Das Ergebnis: MOGA war nicht nur stabil, sondern in den späteren Phasen des Trainings (wenn das Modell schon sehr gut ist und nur noch feine Details lernt) sogar schneller und besser als die bisherigen Spitzenreiter wie Muon oder AdamW.

Zusammenfassung in einem Satz

Die Autoren haben einen neuen „Bau-Plan" für KI-Optimierer entwickelt, der sicherstellt, dass die Lerngeschwindigkeit eines KI-Modells stabil bleibt, egal ob man es klein oder riesig baut – und zwar, indem sie den mathematischen Maßstab von „absoluter Höhe" auf „Durchschnittswert" umstellen.

Warum ist das wichtig?
Es bedeutet, dass Forscher und Unternehmen in Zukunft viel weniger Zeit und Geld für das „Tuning" von Hyperparametern verschwenden müssen, wenn sie ihre Modelle vergrößern. Es macht das Skalieren von KI effizienter und vorhersehbarer.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer" auf Deutsch.

1. Problemstellung

Ein zentrales Problem im modernen Deep Learning ist die Stabilität von Optimierern bei der Skalierung der Netzwerkbreite ( $w$ ). Während Skalierungsgesetze vorhersagen, dass größere Modelle bessere Ergebnisse liefern, fehlt es oft an zuverlässigen Regeln für die Übertragung von Hyperparametern (insbesondere der Lernrate) von kleinen auf große Modelle.

Das Phänomen: Bei gängigen Optimierern wie AdamW oder Muon hängt die optimale Lernrate stark von der Breite des Netzwerks ab. Eine für ein Netzwerk mit 512 Einheiten getunte Lernrate führt bei einer Breite von 2048 oft zu Divergenz oder extrem verlangsamter Konvergenz.
Die Ursache: Herkömmliche Optimierer respektieren die architektonische Skalierung nicht natürlich. Es fehlt eine theoretische Grundlage, die erklärt, wie sich die Geometrie des Optimierungsproblems (insbesondere die Lipschitz-Stetigkeit und die Glattheit/ $L$ -Smoothness der Verlustfunktion) mit zunehmender Breite verändert.

2. Methodik und Theoretischer Rahmen

Die Autoren interpretieren verschiedene neuronale Optimierer als Instanzen des steilsten Abstiegs (Steepest Descent) unter verschiedenen Matrix-Operator-Normen.

Steilster Abstieg unter Operator-Normen:
Anstatt den Gradienten im euklidischen Raum (Frobenius-Norm) zu skalieren, wird die Suchrichtung $D_t$ als Lösung des Problems $\min_{\|D\| \le 1} \langle \nabla f(\Theta), D \rangle$ unter einer spezifischen Operator-Norm $\|\cdot\|_{p \to q}$ definiert.
- Beispiele: SignSGD entspricht der $\ell_1 \to \ell_\infty$ -Norm, Muon der $\ell_2 \to \ell_2$ -Norm (spektrale Norm).
Das Problem klassischer Normen ( $p \to q$ ):
Die Analyse zeigt, dass klassische Operator-Normen (mit $p \le q$ ) in tiefen Architekturen keine breitenunabhängigen Lipschitz-Konstanten garantieren. Grund ist eine geometrische Inkompatibilität zwischen aufeinanderfolgenden Schichten: Der Normunterschied zwischen Ausgabe einer Schicht und Eingabe der nächsten führt zu einer Verstärkung von Störungen, die mit der Breite $w$ skaliert (z. B. $\|I\|_{q \to p} \propto w^{1/p - 1/q} > 1$ ).
Lösung: Mittelwert-normalisierte Operator-Normen ( $(p, \text{mean}) \to (q, \text{mean})$ ):
Um dies zu beheben, führen die Autoren eine neue Familie von Normen ein:
$\|x\|_{(p, \text{mean})} := \left( \frac{1}{n} \sum_{i=1}^n |x_i|^p \right)^{1/p} = n^{-1/p} \|x\|_p$
Der Faktor $n^{-1/p}$ kompensiert die dimensionsabhängige Skalierung. Unter dieser Geometrie gilt die Kompatibilitätsbedingung $\|I\| \le 1$ zwischen Schichten, was zu breitenunabhängigen Lipschitz-Konstanten führt.
Analyse der Glattheit ( $L$ -Smoothness):
Die Autoren leiten Bedingungen her, unter denen auch die Glattheitskonstante (die die Krümmung des Verlustlandschafts beschreibt) breitenunabhängig ist.
- Für die Geometrie $(p, \text{mean}) \to (q, \text{mean})$ skaliert die Glattheit wie $w^{\max(0, 2/q - 1/p)}$ .
- Ergebnis: Breite-unabhängige Glattheit wird erreicht, wenn $q \ge 2p$ .
- Kritischer Befund zu Muon: Muon entspricht der $(2, \text{mean}) \to (2, \text{mean})$ -Geometrie. Hier skaliert die Glattheitskonstante im Worst-Case mit $O(\sqrt{w})$ , was die Stabilität bei großen Breiten gefährdet.

3. Wichtige Beiträge

Einheitliche geometrische Sichtweise: Die Arbeit vereint Optimierer wie AdamW, Muon, GradPower und Normalisierungsmethoden (Row/Column) unter dem Dach des steilsten Abstiegs unter Matrix-Operator-Normen.
Theorie der breitenunabhängigen Stabilität: Einführung der $(p, \text{mean}) \to (q, \text{mean})$ -Normen, die garantieren, dass sowohl Lipschitz-Konstanten als auch (unter bestimmten Bedingungen) Glattheitskonstanten unabhängig von der Netzwerkbreite sind.
Identifikation von Limitierungen bei Muon: Theoretischer Nachweis, dass Muon eine $O(\sqrt{w})$ -Wachstumsrate der Glattheitskonstante aufweist, was eine potenzielle Instabilität bei sehr großen Modellen erklärt.
Einführung von MOGA (Matrix Operator Geometry Aware):
- Ein neuer Optimierer, der auf Row- oder Column-Normalisierung basiert und eine explizite, breitenbewusste Skalierung der Lernrate verwendet.
- Die Skalierungsregeln leiten sich direkt aus der Geometrie ab (z. B. $1/d_{in}$ für Row-Normalisierung).
- Verbindung zu $\mu$ P: Im Spezialfall von Adam/SignSGD stimmt die abgeleitete Skalierung exakt mit der $\mu$ P-Scaling-Regel (Maximal Update Parametrization) überein, bietet aber eine allgemeinere theoretische Begründung basierend auf Optimierungsgeometrie statt nur auf Spektralbedingungen.
Praktische Skalierungsregeln:
- Row Normalization: $(p, \text{mean}) \to \infty$ (z. B. $p=2$ oder $p=3$ ). Bietet breite-unabhängige Glattheit und weniger restriktive Parameterbeschränkungen als Column-Normalisierung.
- Column Normalization: $(1, \text{mean}) \to (q, \text{mean})$ mit $q \ge 2$ .

4. Experimentelle Ergebnisse

Die Autoren validierten ihre Theorie durch groß angelegte Pre-Training-Experimente mit GPT-2 und LLaMA-Architekturen.

Lernraten-Transfer:
- Modelle mit stark unterschiedlicher Parameteranzahl (von 124M bis 1,5B) erreichen ihre beste Leistung bei nahezu derselben maximalen Lernrate.
- Dies bestätigt, dass die optimale Lernrate unter MOGA (mit Row-Normalisierung) unabhängig von der Breite ist. Hyperparameter können somit direkt von kleinen auf große Modelle übertragen werden, ohne Neuabstimmung.
- Dies gilt auch für $p=3$ , was die Spektralannahmen des $\mu$ P überwindet.
Trainingseffizienz (Standard-Token-Budget):
- MOGA (Row-Normalisierung) ist mit Muon vergleichbar und deutlich schneller als AdamW.
- Auf LLaMA-130M konvergiert MOGA ähnlich schnell wie Muon.
Trainingseffizienz (Großer Token-Budget / Low-Loss-Regime):
- In späteren Trainingsphasen und im Bereich niedriger Verluste zeigt MOGA (mit Row-Normalisierung) einen klaren Vorteil gegenüber Muon und AdamW.
- Die Verlustkurve von MOGA fällt am Ende des Trainings steiler ab, was auf eine höhere Stabilität und Effizienz in kritischen Phasen des Trainings hinweist.

5. Bedeutung und Fazit

Das Paper liefert einen fundamentalen theoretischen Rahmen für das Verständnis, wie Optimierer mit der Skalierung von Modellgrößen umgehen sollten.

Theoretischer Durchbruch: Es zeigt, dass die Wahl der Operator-Norm-Geometrie entscheidend für die Stabilität des Trainings bei wachsender Breite ist. Die Einführung der mittelwert-normalisierten Normen löst das Problem der inkonsistenten Skalierung in tiefen Netzen.
Praktische Implikation: Der vorgeschlagene MOGA-Optimierer (insbesondere mit Row-Normalisierung) bietet eine robuste Alternative zu Muon. Er ermöglicht nicht nur eine zuverlässige Übertragung von Hyperparametern über verschiedene Modellgrößen hinweg, sondern verbessert auch die Trainingseffizienz in den für das Deployment relevanten Phasen (niedriger Verlust, große Datenmengen).
Zukunftsausblick: Die Arbeit legt nahe, dass die Optimierung von neuronalen Netzen weniger von heuristischen Anpassungen und mehr von einer geometrischen Ausrichtung an den Eigenschaften der Netzwerkvorwärtsabbildung (Lipschitz und Glattheit) profitieren kann.

Zusammenfassend bietet das Paper eine „geometrie-bewusste" Prinzipienbasis für die Konstruktion von Optimierern, die bei der Skalierung von Modellen stabil bleiben und konsistente Lernverhalten über verschiedene Größenordnungen hinweg gewährleisten.

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

1. Das Problem: Der falsche Maßstab

2. Die Lösung: Der „Durchschnitts-Maßstab" (Mean-Normalization)

3. Die Entdeckung: Warum Muon stolpert

4. Der neue Held: MOGA (Row Normalization)

5. Das große Experiment

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik und Theoretischer Rahmen

3. Wichtige Beiträge

4. Experimentelle Ergebnisse

5. Bedeutung und Fazit

Mehr davon

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps