The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein junger Künstler, der lernt, ein perfektes Porträt zu malen. Du hast einen riesigen Block mit tausenden von Farben (deine Daten) und eine Leinwand mit unendlich vielen Pinseln (dein neuronales Netzwerk). Deine Aufgabe ist es, die Farben so zu mischen, dass das Bild perfekt aussieht.

Aber hier ist das Geheimnis: Es gibt nicht nur eine perfekte Mischung. Es gibt unendlich viele Möglichkeiten, die Farben zu kombinieren, die alle das gleiche Ergebnis liefern. Warum entscheiden sich dann die künstlichen Intelligenzen (KI) oft für eine bestimmte Mischung, die besonders gut funktioniert, wenn man sie auf neue Bilder anwendet?

Die Antwort liegt in der Art und Weise, wie sie lernen. Das ist das Thema dieses Papers. Die Forscher untersuchen, welche "unsichtbare Vorliebe" (im Englischen "Implicit Bias") verschiedene Lern-Methoden haben.

Hier ist die einfache Erklärung der wichtigsten Punkte:

1. Der Lehrer und seine Methoden (Die Optimierer)

Stell dir vor, du hast verschiedene Lehrer, die dir beibringen, wie du die Farben mischen sollst. Jeder Lehrer hat einen anderen Stil:

Gradient Descent (Der klassische Lehrer): Er sagt: "Gehe einfach den steilsten Weg bergab." Er ist sehr vorsichtig und geht Schritt für Schritt. Er mag es, wenn die Mischung ausgewogen ist (wie eine gleichmäßige Verteilung aller Farben).
Adam (Der schnelle, adaptive Lehrer): Er ist sehr beliebt in der modernen KI. Er sagt: "Schau mal, welche Farben sich schnell ändern, und passe deine Geschwindigkeit dort an!" Er ist schnell und clever, aber er hat eine spezielle Vorliebe: Er mag es, wenn keine einzelne Farbe zu dominant ist. Er versucht, die "lauteste" Farbe leiser zu machen, um ein Gleichgewicht zu finden.
Muon (Der Spezialist für große Gruppen): Dieser Lehrer ist neu und sehr mächtig. Er schaut nicht auf einzelne Farben, sondern auf ganze Gruppen von Pinseln (Matrizen). Er versucht, diese Gruppen so zu drehen, dass sie perfekt aufeinander abgestimmt sind (wie ein gut geöltes Orchester). Er mag es, wenn die Gesamtkraft der Gruppe kontrolliert wird.

2. Das Ziel: Der "Sicherheitsabstand" (Margin Maximization)

Das eigentliche Ziel beim Lernen ist es, einen Sicherheitsabstand zu schaffen. Stell dir vor, du malst ein Bild von einem Hund und einer Katze. Du willst nicht nur, dass das Bild gut aussieht, sondern dass es offensichtlich ein Hund ist, selbst wenn jemand ein bisschen am Bild rührt.

Ein großer Sicherheitsabstand bedeutet: "Das ist definitiv ein Hund!" (Selbst wenn das Bild etwas unscharf ist).
Ein kleiner Abstand bedeutet: "Hmm, das könnte ein Hund sein, aber es ist grenzwertig."

Die Forscher haben herausgefunden: Welcher Lehrer du wählst, bestimmt, wie dieser Sicherheitsabstand gemessen wird.

Der klassische Lehrer baut einen Abstand auf, der wie ein Kugel aussieht (alles ist gleich wichtig).
Adam baut einen Abstand auf, der wie ein Würfel aussieht. Er achtet besonders darauf, dass keine eine Koordinate (Farbe) zu groß wird. Er will, dass alles "unter dem Würfel" bleibt.
Muon baut einen Abstand auf, der wie ein komplexes Musikinstrument aussieht. Er achtet darauf, dass die Beziehungen zwischen den Gruppen von Pinseln (den Matrizen) harmonisch sind.

3. Die Entdeckung: "Der Weg ist das Ziel"

Früher dachten viele, dass es egal ist, welchen Lehrer man nimmt, solange das Ergebnis am Ende gut ist. Dieses Paper zeigt jedoch: Nein, es ist nicht egal.

Wenn du Adam benutzt, "zwingst" du das Netzwerk, eine Lösung zu finden, die wie ein Würfel aussieht (niemand ist zu laut). Wenn du Muon benutzt, zwingst du es zu einer Lösung, die wie ein perfekt abgestimmtes Orchester klingt.

Die Analogie des Bergsteigers:
Stell dir vor, du musst einen Berg hinuntersteigen, um ein Lager zu erreichen.

Der eine Weg (Gradient Descent) führt dich durch eine sanfte, runde Schlucht.
Der andere Weg (Adam) führt dich durch eine enge, eckige Schlucht, wo du darauf achten musst, nicht gegen die Wände zu stoßen.
Der dritte Weg (Muon) führt dich über eine Brücke, die nur stabil ist, wenn alle Seile gleich straff gezogen sind.

Am Ende bist du alle im Lager (das Problem ist gelöst), aber du hast unterschiedliche Narben (die Struktur des Netzwerks) mitgebracht, je nachdem, welchen Weg du gewählt hast. Und diese "Narben" entscheiden darüber, wie gut du dich an neue, unbekannte Situationen anpasst.

4. Warum ist das wichtig?

In der Welt der KI (wie bei Chatbots oder Bilderkennung) wollen wir, dass die Modelle nicht nur auswendig lernen, sondern wirklich verstehen.

Wenn du Adam benutzt (was fast alle tun), weißt du jetzt: Dein Modell hat eine unbewusste Vorliebe dafür, keine einzelne Information zu überbetonen. Das ist gut für die Stabilität.
Wenn du Muon benutzt, weißt du: Dein Modell hat eine Vorliebe für harmonische Gruppenstrukturen. Das könnte in Zukunft noch besser funktionieren, besonders bei sehr großen Modellen.

Zusammenfassung in einem Satz:
Dieses Paper erklärt, dass die Wahl des "Lern-Algorithmus" (wie Adam oder Muon) nicht nur beeinflusst, wie schnell eine KI lernt, sondern auch welche Art von Lösung sie findet – ähnlich wie ein Lehrer, der nicht nur den Stoff lehrt, sondern auch die Denkweise des Schülers prägt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung und Motivation

Tiefe neuronale Netze zeigen oft eine bemerkenswerte Generalisierungsfähigkeit, obwohl sie überparametrisiert sind und ohne explizite Regularisierung trainiert werden. Ein etablierter Erklärungsansatz ist der implizite Bias (implizite Tendenz) von Optimierungsalgorithmen, die dazu neigen, Lösungen zu finden, die bestimmte marginale Eigenschaften maximieren.

Während frühere Arbeiten den impliziten Bias von Gradient Descent (GD) und dessen Tendenz zur Maximierung des $\ell_2$ -Margins in linearen und homogenen Modellen untersucht haben, ist das Verhalten moderner, momentum-basierter Optimierer wie Adam und des kürzlich eingeführten Muon weniger verstanden.

Adam wird universell für das Training von Large Language Models (LLMs) und Vision Transformern eingesetzt, aber seine theoretischen Eigenschaften in homogenen Modellen (insbesondere ohne den Stabilitätskonstanten $\epsilon$ ) waren bisher nur für lineare Modelle bekannt.
Muon ist ein neuer Optimierer, der Newton-Schulz-Orthogonalisierung auf Momentum-Schätzungen von Gewichtsmatrizen anwendet.

Das Paper zielt darauf ab, den impliziten Bias von Adam und Muon auf der breiteren Klasse der glatten homogenen Modelle zu analysieren und zu zeigen, dass diese Algorithmen ebenfalls zu Lösungen konvergieren, die bestimmte Margin-Probleme maximieren.

2. Methodik und theoretischer Rahmen

Die Autoren entwickeln einen einheitlichen theoretischen Rahmen, der auf der Approximierten Steepest Descent (Approximate Steepest Descent) basiert.

Grundlegende Annahmen

Modellklasse: Glatte homogene Modelle ( $f(x; \alpha \theta) = \alpha^L f(x; \theta)$ ), einschließlich ReLU-Netze (unter schwächeren Annahmen) und Netze mit glatten Aktivierungen (z. B. quadratische ReLU).
Verlustfunktion: Exponentiell abklingende Verluste (z. B. exponentieller oder logistischer Verlust).
Lernraten-Schedule: Ein abklingender Lernraten-Schedule $\eta(t)$ , der die Bedingung $\int_0^\infty \eta(t) dt = \infty$ erfüllt, aber schnell genug abfällt (z. B. $\eta(t) = o(t^{\frac{1}{L}-1})$ ).

Kernkonzept: Approximierte Steepest Descent

Statt zu fordern, dass ein Algorithmus exakt der Steepest Descent-Bewegung folgt, definieren die Autoren eine Trajektorie als Approximierte Steepest Descent, wenn:

Die Parameter $\theta_t$ gegen unendlich wachsen.
Die Richtung der Parameter $\frac{\theta_t}{\|\theta_t\|}$ konvergiert.
Die Ausrichtung zwischen der Update-Richtung und dem negativen Gradienten (bzw. der Momentum-Schätzung) asymptotisch gegen 1 strebt.

Sie zeigen, dass Momentum-basierte Algorithmen unter einem abklingenden Lernraten-Schedule asymptotisch das Verhalten von Steepest Descent bezüglich eines spezifischen Dual-Norms nachahmen.

Analyse der Optimierer

Muon: Wird als Normalisierter Momentum Steepest Descent (MSD) bezüglich der Max-Spectral-Norm ( $\|\cdot\|_{msp} = \max_k \|W_k\|_{sp}$ ) für Gewichtsmatrizen analysiert.
Signum: Wird als MSD bezüglich der $\ell_\infty$ -Norm analysiert.
Adam: Ohne Stabilitätskonstante ( $\epsilon=0$ ) wird gezeigt, dass Adam asymptotisch dem Sign-Gradient Descent entspricht, was einer Normalisierten Steepest Descent bezüglich der $\ell_\infty$ -Norm entspricht.
Hybride Optimierer (Muon-Adam, Muon-Signum): Das Paper zeigt, dass das parallele Anwenden verschiedener Optimierer auf verschiedene Parametergruppen (z. B. Muon auf Matrizen, Adam auf Vektoren) äquivalent zu einem einzigen Normalisierten MSD bezüglich der Maximum-Norm der einzelnen Normen ist.

3. Hauptbeiträge

Erweiterung auf Normalisierten Steepest Descent: Die Autoren erweitern bestehende Ergebnisse für Steepest Descent auf den Fall mit einem Lernraten-Schedule und zeigen, dass jeder Grenzwert der Richtung $\frac{\theta_t}{\|\theta_t\|}$ ein KKT-Punkt (Karush-Kuhn-Tucker) des entsprechenden Max-Margin-Problems ist.
Impliziter Bias von Momentum-Optimierern: Sie beweisen, dass Momentum-Steep-Descent-Algorithmen (wie Muon und Signum) unter einem abklingenden Lernraten-Schedule asymptotisch zu KKT-Punkten des Max-Margin-Problems bezüglich der jeweiligen Dual-Norm konvergieren.
Analyse von Adam: Es wird bewiesen, dass Adam (ohne $\epsilon$ ) einen impliziten Bias zur Maximierung des $\ell_\infty$ -Margins hat. Dies gilt auch für homogene Modelle, nicht nur für lineare.
Hybride Algorithmen: Die Arbeit charakterisiert den Bias von Kombinationen wie Muon-Adam und Muon-Signum. Diese maximieren einen hybriden Margin, definiert durch die Maximum-Norm der einzelnen Komponenten (z. B. $\max(\|W\|_{msp}, \|u\|_\infty)$ ).
Allgemeingültigkeit: Die Ergebnisse gelten für eine Familie von exponentiell abklingenden Verlusten und umfassen sowohl glatte als auch (unter bestimmten Trajektorien-Annahmen) nicht-glatte Modelle wie ReLU-Netze.

4. Ergebnisse und Experimente

Theoretische Ergebnisse

Muon: Maximiert den Margin bezüglich der Max-Spectral-Norm der Gewichtsmatrizen.
Adam: Maximiert den $\ell_\infty$ -Margin.
Muon-Adam: Maximiert den hybriden Margin $\max(\eta_A/\eta_M \cdot \|W\|_{msp}, \|u\|_\infty)$ , wobei $\eta$ die Lernraten sind.
Die Konvergenz erfolgt zu KKT-Punkten des Problems:
$\min_\theta \frac{1}{2}\|\theta\|^2 \quad \text{s.t.} \quad y_i f(x_i; \theta) \ge 1$
wobei die Norm $\|\cdot\|$ vom verwendeten Optimierer abhängt.

Experimentelle Validierung

Die Autoren trainieren zweischichtige homogene Netze (mit ReLU und quadratischer ReLU) auf MNIST-Daten (Klassifizierung gerade/ungerade).

Ergebnisse: Die Experimente bestätigen die Theorie:
- Gradient Descent (GD) maximiert den $\ell_2$ -Margin.
- Signum und Adam maximieren den $\ell_\infty$ -Margin.
- Muon maximiert den $\| \cdot \|_{msp}$ -Margin.
- Muon-Adam maximiert den hybriden Margin.
Richtungskonvergenz: Die Analyse der Kosinus-Ähnlichkeit der Iterierten zur letzten Iteration zeigt, dass die Richtungskonvergenz (Annahme T2) in der Praxis für alle getesteten Optimierer erfüllt ist.

5. Bedeutung und Schlussfolgerung

Dieses Paper schließt eine wichtige Lücke im Verständnis der impliziten Regularisierung moderner Optimierer.

Theoretische Tiefe: Es liefert den ersten rigorosen Beweis dafür, dass Adam und Muon in homogenen Modellen einen klaren Bias zur Margin-Maximierung haben, der von der Wahl des Optimierers abhängt.
Praktische Relevanz: Da Adam und Muon Standard in der Praxis sind, hilft diese Arbeit zu verstehen, welche Art von Lösungen (welche Norm-Maximierung) diese Algorithmen bevorzugen. Dies hat Implikationen für die Generalisierungsfähigkeit und möglicherweise für die Robustheit gegenüber Adversarial Attacks.
Einheitlicher Rahmen: Die Einführung des „Approximate Steepest Descent"-Frameworks bietet ein mächtiges Werkzeug, um zukünftige adaptive und momentum-basierte Optimierer zu analysieren.

Zusammenfassend zeigt das Paper, dass die Wahl des Optimierers nicht nur die Konvergenzgeschwindigkeit, sondern fundamental die Art der gefundenen Lösung (definiert durch die maximierten Margin-Norm) bestimmt, selbst in komplexen, nicht-linearen homogenen Netzwerken.