HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung „HTMuon", die wie eine Geschichte aus dem Alltag erzählt ist, ohne komplizierte Fachbegriffe.

Das Problem: Der perfekte, aber sture Lehrer

Stell dir vor, du trainierst einen sehr klugen Roboter (ein großes KI-Modell), damit er Texte schreibt oder Bilder erkennt. Dafür brauchst du einen „Lehrer", der dem Roboter sagt, wie er seine Fehler korrigieren soll. In der KI-Welt nennen wir diesen Lehrer einen Optimierer.

Der aktuelle Liebling unter den Lehrern heißt Muon. Er ist sehr gut darin, den Roboter zu unterrichten, weil er nicht nur auf einzelne Zahlen schaut, sondern auf ganze Gruppen von Zahlen (Matrizen) gleichzeitig. Er versteht also, wie die verschiedenen Teile des Roboters miteinander zusammenhängen.

Aber Muon hat einen kleinen Haken:
Muon ist wie ein Lehrer, der sagt: „Jeder Fehler ist gleich wichtig!" Er behandelt alle Richtungen, in die der Roboter lernen kann, als wären sie exakt gleich stark.

Das Problem: Manche Richtungen sind wie klare, starke Signale (wichtige Informationen). Andere Richtungen sind wie statisches Rauschen im Radio (unwichtiges Gerede).
Muon dreht den Lautstärkeknopf für alle Richtungen auf „1". Das bedeutet, er dreht auch das Rauschen auf volle Lautstärke. Das stört den Roboter am Ende des Trainings und verhindert, dass er sein volles Potenzial ausschöpft.

Die Lösung: HTMuon – Der weise Mentor

Die Forscher haben einen neuen Lehrer entwickelt, der HTMuon heißt. Das „HT" steht für „Heavy-Tailed" (schweres Ende), was sich am besten mit einer Klangregelung vergleichen lässt.

Stell dir vor, du hast einen Equalizer für Musik:

Muon stellt alle Frequenzen (Bass, Mitten, Höhen) auf die gleiche Lautstärke. Das klingt okay, aber das Rauschen (die hohen, störenden Frequenzen) wird nicht gedämpft.
HTMuon ist wie ein smarter Equalizer. Er sagt: „Die starken, wichtigen Signale (die tiefen Töne) lassen wir laut, aber die schwachen, verrauschten Signale (die hohen Töne) dämpfen wir etwas ab."

Wie macht er das?
HTMuon nimmt die mathematischen „Stärken" (die Singularwerte) der Lernschritte und hebt sie auf eine spezielle Potenz (eine Art mathematischer Zaubertrick).

Das Ergebnis: Die wichtigen Signale bleiben dominant.
Die unwichtigen Signale werden leiser.
Das führt zu einer „schwereren" Verteilung der Signale – ähnlich wie bei einem schweren, satten Bass, der den ganzen Raum füllt, anstatt nur leises Flüstern zu sein.

Warum ist das so wichtig? (Die Analogie vom Wein)

Die Forscher nutzen eine Theorie namens HT-SR (Heavy-Tailed Self-Regularization). Stell dir das Training eines KI-Modells wie das Reifenlassen von Wein vor.

Ein gut trainiertes Modell (wie ein guter Wein) hat eine bestimmte Struktur in seinen „Zellen" (den Gewichten). Diese Struktur ist nicht gleichmäßig verteilt, sondern hat einige sehr starke, dominante Merkmale und viele schwache.
Wenn man den Wein zu sehr „glättet" (wie Muon es tut), verliert er seine Komplexität und wird flach.
HTMuon sorgt dafür, dass der Wein seine natürliche, komplexe Struktur behält. Er lässt die „starken Noten" des Weins leuchten und unterdrückt die „flachen Noten".

Was bringt das in der Praxis?

Die Forscher haben HTMuon an vielen verschiedenen Aufgaben getestet, vom Schreiben von Texten (LLMs wie LLaMA) bis hin zum Erkennen von Bildern (wie ResNet).

Bessere Ergebnisse: Die Modelle, die mit HTMuon trainiert wurden, machen weniger Fehler. Bei einem großen Textmodell (LLaMA) konnte HTMuon die Verwirrung (Perplexity) um fast 1 Punkt senken. Das klingt nach wenig, ist aber in der Welt der KI wie der Unterschied zwischen einem durchschnittlichen und einem Weltklasse-Spieler.
Plug-in-Funktion: Der coolste Teil: HTMuon muss nicht alles neu erfinden. Man kann es wie ein Upgrade-Modul über den bestehenden Muon legen. Es funktioniert also auch mit den neuesten Varianten von Muon, um sie noch besser zu machen.
Geschwindigkeit: Normalerweise sind solche cleveren Berechnungen langsam. Die Forscher haben aber zwei Tricks entwickelt (ähnlich wie ein Turbo-Modus), damit HTMuon fast genauso schnell läuft wie der alte Muon, aber viel besser lernt.

Zusammenfassung in einem Satz

HTMuon ist wie ein smarter Equalizer für KI-Training: Er dämpft das störende Rauschen und hebt die wichtigen Signale hervor, damit die KI nicht nur schnell, sondern auch tiefgründig und präzise lernt.

Die Forscher haben ihre Methode sogar als Open-Source-Code veröffentlicht, damit jeder diesen „schweren Bass" in seinen eigenen KI-Modellen nutzen kann.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „HTMuon: Improving Muon via Heavy-Tailed Spectral Correction" auf Deutsch:

Problemstellung

Optimierer spielen eine zentrale Rolle beim Training von Large Language Models (LLMs). Während Optimierer wie Adam und AdamW aufgrund ihrer elementweisen Anpassungsfähigkeit an lokale Geometrien dominieren, ignorieren sie oft die Interdependenzen zwischen Parametern. Der neuere Optimierer Muon adressiert dies durch eine matrixbasierte Herangehensweise, die eine Orthogonalisierung des Momentum-Matrizen-Updates verwendet. Dies entspricht dem steilsten Abstieg unter der Schatten- $\infty$ -Norm und erfasst geometrische Abhängigkeiten zwischen Parametern effektiv.

Trotz vielversprechender Ergebnisse zeigen Studien jedoch zwei kritische Schwächen von Muon:

Suboptimale Gewichtung von Singulärvektoren: Muon setzt alle Singulärwerte der Momentum-Matrix auf 1. Dies gewichtet alle Richtungen gleich, einschließlich solcher, die von kleinsten Singulärwerten dominiert werden und oft stark verrauscht sind. Dies kann das Training in späteren Phasen destabilisieren.
Unterdrückung schwerer Verteilungsschwänze (Heavy Tails): Die Orthogonalisierung führt zu einem „leicht-tailigen" (light-tailed) Spektrum der Update-Matrix und damit der gelernten Gewichtsmatrizen. Die Heavy-Tailed Self-Regularization (HT-SR) Theorie besagt jedoch, dass gut trainierte neuronale Netze typischerweise schwere Verteilungsschwänze in ihren Gewichtsspektren aufweisen, was stark mit der Modellqualität korreliert. Muon unterdrückt diese Eigenschaft, was die Generalisierungsfähigkeit und die endgültige Modellqualität begrenzt.

Methodik: HTMuon

Die Autoren schlagen HTMuon vor, einen Optimierer, der die Stärken von Muon beibehält, aber durch eine „heavy-tailed" Spektralkorrektur die oben genannten Mängel behebt.

Kernidee: Anstatt die Singulärwerte der Momentum-Matrix $M_t$ auf 1 zu setzen (wie bei Muon), werden diese auf eine Potenz $p$ gehoben, wobei $p \in (0, 1)$ .
- Update-Regel: $O_t = U_t \Sigma_t^p V_t^\top$ , wobei $M_t = U_t \Sigma_t V_t^\top$ die Singulärwertzerlegung (SVD) ist.
- Parameter $p$ :
  - $p=1$ : Entspricht SGDM (vektorbasiert, keine Parameter-Interdependenzen).
  - $p=0$ : Entspricht Muon (leicht-tailig).
  - $p \in (0, 1)$ : Der vorgeschlagene Bereich. Er erhält die matrixbasierte Fähigkeit zur Modellierung von Parameter-Kopplungen, erzeugt aber Updates mit schwereren Schwänzen.
- Standardmäßig wird $p = 0.125$ verwendet.
Theoretische Fundierung:
- HTMuon entspricht dem steilsten Abstieg (steepest descent) unter einer Schatten- $q$ -Norm-Beschränkung (wobei $q$ mit $p$ zusammenhängt). Dies verallgemeinert Muon, das als steilster Abstieg unter der Schatten- $\infty$ -Norm interpretiert wird.
- Eine Konvergenzanalyse in glatten nicht-konvexen Settings zeigt, dass HTMuon die gleiche Sample-Complexity-Obergrenze ( $O(\epsilon^{-4})$ ) wie Muon und SGDM erreicht.
Effizienz-Optimierungen:
Da die SVD rechenintensiv ist, stellen die Autoren zwei beschleunigte Implementierungen vor:
1. Interval-Updates: HTMuon wird nur alle $k$ Schritte angewendet, dazwischen wird Muon verwendet.
2. HTMuon NS (Newton-Schulz): Statt einer vollen SVD wird eine numerische Iteration (Newton-Schulz) verwendet, um die Wurzel der Matrix $M_t^\top M_t$ zu approximieren, um den Term $\Sigma_t^p$ effizient zu berechnen.

Wichtige Beiträge

Analyse von Muon: Nachweis, dass Muons Orthogonalisierung das Spektrum der Gewichtsmatrizen zu leicht-tailig macht und damit gegen die HT-SR-Theorie verstößt, was die Generalisierung limitiert.
Entwicklung von HTMuon: Ein einfacher, aber effektiver Optimierer, der durch Potenzierung der Singulärwerte ( $p \in (0,1)$ ) schwerere Verteilungsschwänze induziert, ohne die Vorteile der Matrix-Preconditioning zu verlieren.
Theoretische Erweiterung: Beweis der Äquivalenz von HTMuon zum steilsten Abstieg unter Schatten- $q$ -Norm und Konvergenzgarantien.
Praktische Implementierungen: Vorstellung von beschleunigten Varianten (HTMuon NS), die den Rechenaufwand drastisch senken, ohne die Leistung zu beeinträchtigen.

Ergebnisse

HTMuon wurde umfassend auf LLM-Pretraining (LLaMA, GPT-2) und Bildklassifizierung (ResNet, ViT) evaluiert und übertrifft State-of-the-Art-Baselines konsistent:

LLM Pretraining (C4-Dataset):
- LLaMA-60M: HTMuon reduziert die Perplexität (PPL) um 0.92 gegenüber Muon und um 4.33 gegenüber Adam.
- LLaMA-135M: PPL-Reduktion um 0.98 gegenüber Muon.
- LLaMA-1B: Auch bei größeren Modellen (1B Parameter) bleibt HTMuon Muon überlegen (PPL 14.17 vs. 14.33).
- HTMuon funktioniert auch als Plug-in für andere Muon-Varianten (z. B. NorMuon, AdaMuon) und verbessert diese weiter.
Bildklassifizierung:
- Auf CIFAR-10/100 und ImageNet-1K erzielt HTMuon höhere Genauigkeiten als SGDM, Muon und NorMuon (z. B. +0.31% auf CIFAR-100 für ResNet18).
Spektralanalyse:
- Modelle, die mit HTMuon trainiert wurden, weisen signifikant niedrigere Power-Law-Exponenten ( $\alpha$ ) auf (z. B. $\bar{\alpha} = 4.21$ vs. $4.79$ bei Muon für LLaMA-60M), was auf schwerere Verteilungsschwänze und damit bessere Generalisierung gemäß HT-SR-Theorie hindeutet.
- HTMuon führt zu kleineren Spektral- und Frobenius-Normen, was ebenfalls mit besserer Generalisierung korreliert.
Effizienz:
- Die Variante HTMuon NS (Interval=5) reduziert den Laufzeit-Overhead drastisch (nahezu auf das Niveau von Muon) und erreicht dennoch eine bessere Perplexität als Muon.

Bedeutung

Dieses Paper ist bedeutend, da es einen fundamentalen Zusammenhang zwischen der spektralen Struktur von Optimierer-Updates und der endgültigen Modellqualität herstellt. Es zeigt, dass die strikte Orthogonalisierung (wie bei Muon), obwohl sie geometrische Abhängigkeiten erfasst, zu restriktiv sein kann, indem sie das natürliche, schwer-tailige Spektrum von gut trainierten Netzen unterdrückt.

HTMuon bietet einen einfachen, theoretisch fundierten Weg, um diese Lücke zu schließen. Es verbessert nicht nur die Leistung von LLMs und Bildklassifizierern, sondern liefert auch ein tieferes theoretisches Verständnis darüber, wie Optimierer die Induktionsbias des Lernprozesses formen. Die vorgestellten effizienten Implementierungen machen die Methode zudem für den Einsatz in großskaligen Trainingsumgebungen praktikabel.

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

Das Problem: Der perfekte, aber sture Lehrer

Die Lösung: HTMuon – Der weise Mentor

Warum ist das so wichtig? (Die Analogie vom Wein)

Was bringt das in der Praxis?

Zusammenfassung in einem Satz

Problemstellung

Methodik: HTMuon

Wichtige Beiträge

Ergebnisse

Bedeutung

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers