TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

Each language version is independently generated for its own context, not a direct translation.

Die große Reise: Wie man einen riesigen Berg besteigt

Stellen Sie sich vor, Sie versuchen, einen riesigen, nebligen Berg zu besteigen. Ihr Ziel ist der Gipfel (das perfekte KI-Modell). Sie haben einen Kompass und einen Rucksack voller Ausrüstung.

In der Welt des maschinellen Lernens ist dieser „Kompass" ein Optimierer. Er sagt dem Computer: „Gehe in diese Richtung und mach einen Schritt."

Bisher gab es zwei Hauptarten, diesen Weg zu gehen:

Der vorsichtige Wanderer (Adam): Er schaut sich jeden einzelnen Stein unter seinen Füßen genau an. Er ist sehr stabil, aber manchmal etwas langsam und zögerlich.
Der akrobatische Springer (Muon): Dieser Wanderer ist extrem schnell und elegant. Er nutzt eine spezielle Technik, um seine Schritte perfekt zu koordinieren (wie ein Tänzer, der sich dreht, ohne zu stolpern). Das Problem? Er vergisst manchmal, wie groß seine Schritte sein sollen. Wenn er auf glattem Eis (hohen Daten-Spitzen) läuft, macht er plötzlich einen riesigen Sprung und stürzt ab.

Das Problem: Der „Energie-Ausbruch"

Das eigentliche Problem, das die Forscher bei „Muon" gefunden haben, ist wie ein plötzlicher, wilder Energieausbruch.

Stellen Sie sich vor, Sie laufen in einer Gruppe. Normalerweise gehen alle gleichmäßig. Aber plötzlich schreit einer in der Gruppe: „Achtung, da ist ein Bär!" und rennt panisch los.

Bei alten Methoden (Adam) würde sich die ganze Gruppe langsam anpassen.
Bei der schnellen Methode (Muon) würde die ganze Gruppe dem Panikschrei folgen und in die falsche Richtung rennen, weil sie nur auf die Richtung des Schreis achten, aber nicht auf die Stärke der Panik.

Das führt dazu, dass das Training instabil wird, der Verlust (die Fehlerquote) explodiert und das Modell abstürzt.

Die Lösung: TrasMuon – Der weise Wanderführer

Die Forscher haben TrasMuon erfunden. Man kann es sich wie einen weisen Wanderführer vorstellen, der die Gruppe leitet. Er behält die Eleganz und Geschwindigkeit des akrobatischen Springers bei, fügt aber zwei neue Sicherheitsmechanismen hinzu:

1. Der globale Maßstab (RMS-Kalibrierung)

Der Führer trägt ein Maßband. Bevor er einen Schritt ansetzt, prüft er: „Ist der Boden heute weich oder hart?"

Analogie: Wenn der Boden (die Daten) sehr weich ist, macht er kleine Schritte. Wenn er hart ist, darf er größere Schritte wagen.
Warum? Das verhindert, dass die Gruppe zu schnell rennt und stolpert, nur weil der Kompass (die Richtung) perfekt ist. Es sorgt dafür, dass die Schrittlänge immer angemessen ist.

2. Die „Energie-Zone" (Trust-Region Clipping)

Das ist das Geniestück. Der Führer hat ein Radar, das die Energie der einzelnen Gruppenmitglieder überwacht.

Das Szenario: Plötzlich wird ein Mitglied extrem laut und energisch (ein „Ausreißer" oder „Burst"). Es versucht, die ganze Gruppe mitzureißen.
Die Reaktion von TrasMuon: Der Führer sagt: „Okay, du bist sehr laut, aber wir lassen uns nicht von dir aus der Bahn werfen." Er dämpft die Energie dieses einen Mitglieds sanft ab, ohne die Richtung der Gruppe zu ändern.
Die Analogie: Stell dir vor, du fährst mit dem Auto. Wenn ein Rad plötzlich überhitzt (zu viel Energie), bremst das Auto nicht das ganze Auto ab (was den Fortschritt stoppen würde), sondern es regelt sanft die Kraft auf dieses eine Rad, damit das Auto stabil bleibt und weiterfährt.

Was bringt das alles?

Durch diese Kombination erreicht TrasMuon das Beste aus beiden Welten:

Geschwindigkeit: Es ist so schnell und elegant wie der akrobatische Springer (Muon).
Stabilität: Es ist so robust wie der vorsichtige Wanderer, wenn es wild wird.

Die Ergebnisse in der Praxis:

Schnelleres Lernen: Modelle lernen schneller, besonders am Anfang, ohne dass sie „stolpern".
Robustheit: Selbst wenn die Daten verrückt spielen (wie bei physikalischen Simulationen oder wenn plötzlich viele Fehler auf einmal auftreten), bleibt TrasMuon ruhig.
Kein langes Aufwärmen: Viele Optimierer brauchen eine lange „Aufwärmphase" (Warmup), damit sie nicht abstürzen. TrasMuon ist so stabil, dass es oft sofort loslegen kann, ohne lange aufzuwärmen.

Zusammenfassung in einem Satz

TrasMuon ist wie ein hochmoderner, selbstregulierender Kompass für KI-Modelle: Er nutzt die elegantesten Tanzschritte, um schnell voranzukommen, hat aber gleichzeitig einen eingebauten Sicherheitsgurt, der verhindert, dass ein plötzlicher Schreck oder eine Panikreaktion die ganze Reise ruiniert.

Das macht es zu einem idealen Werkzeug, um riesige und komplexe KI-Modelle (wie die, die wir heute für Chatbots oder Bilderkennung nutzen) effizienter und sicherer zu trainieren.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Training moderner Fundamentmodelle (Foundation Models) wird oft durch die Wahl des Optimierers limitiert. Während diagonale Adaptivitätsmethoden wie Adam robust sind, nutzen sie die matrix-strukturierte Information der Gradienten nicht vollständig aus. Neuere Ansätze wie Muon nutzen Newton-Schulz-Iterationen (NS), um Update-Richtungen zu orthogonalisieren (nahezu isometrisch). Dies verbessert die Optimierungseffizienz und das Feature-Mixing, führt jedoch zu einem kritischen Nachteil:

Verlust der Magnitudeninformation: Durch die strenge Orthogonalisierung gehen Informationen über die Größe (Magnitude) der Updates verloren.
Instabilität: Dies macht das Training extrem empfindlich gegenüber der Lernrate und anfällig für „High-Energy-Bursts" (plötzliche, starke Gradienten in wenigen Feature-Achsen).
Folge: Solche Ausreißer führen zu Verlustspitzen (Loss Spikes) und erfordern oft lange Warmup-Phasen oder sorgfältiges Hyperparameter-Tuning, um stabil zu bleiben.

Das Ziel ist es, die geometrischen Vorteile von Muon zu bewahren, gleichzeitig aber die Stabilität durch eine adaptive Skalierung der Update-Magnituden wiederherzustellen, ohne dabei die Struktur zu zerstören.

2. Methodik: TrasMuon

TrasMuon (Trust-Region Adaptive Scaling for Muon) ist ein neuer Optimierer, der Matrix-Updates in zwei Komponenten zerlegt: einen strukturierten Mischfaktor (Richtung) und leichte Magnituden-Kontrollen.

Der Update-Schritt für eine Gewichtsmatrix $W$ lautet:
$\Delta W_t = -\hat{\eta}_t O_t^{\text{base}} \text{diag}(c_t)$

Dabei setzen sich die Komponenten wie folgt zusammen:

A. Orthogonalisierte Richtung ( $O_t^{\text{base}}$ )

Es wird ein Momentum $M_t$ berechnet.
Durch Newton-Schulz-Iterationen wird eine nahezu isometrische (orthogonale) Richtung $O_t$ approximiert.
Zusätzlich wird eine zeilenweise RMS-Skalierung (ähnlich wie bei NorMuon) angewendet, um lokale Konditionierung zu verbessern.

B. Globale RMS-Kalibrierung ( $\hat{\eta}_t$ )

Um die Empfindlichkeit gegenüber der Lernrate zu reduzieren, wird die globale Schrittweite $\hat{\eta}_t$ basierend auf der Frobenius-Norm der orthogonalisierten Update-Matrix kalibriert.
Dies sorgt dafür, dass die Update-Norm über verschiedene Schichten und Tensorformen hinweg vergleichbar bleibt und die Lernrate weniger kritisch ist.

C. Trust-Region-Clipping ( $c_t$ ) – Das Kernstück

Dies ist der innovative Teil, der die Instabilität durch Ausreißer adressiert:

Energie-Messung: Die Energie (Quadratsumme) jeder Spalte des Momentum-Tensors wird berechnet ( $E_j$ ).
Robuster Referenzwert: Anstatt den Mittelwert zu nutzen, wird der Median der Spaltenenergien als Referenz $E_{\text{ref}}$ verwendet, um nicht von wenigen extremen Ausreißern verzerrt zu werden.
Relatives Energieverhältnis: Es wird das Verhältnis $r_j = E_j / E_{\text{ref}}$ berechnet.
Dämpfung (Clipping): Spalten mit einem hohen Verhältnis (hohe Energiekonzentration) erhalten einen Dämpfungsfaktor $c_j \in [c_{\min}, 1]$ $c_{j} \in [c_{m i n}, 1]$ .
- Die Formel ist eine glatte, logarithmische Dämpfung: $c_j = \frac{1}{1 + \alpha \log(1 + r_j)}$ .
- Dies wirkt als Trust-Region: Es unterdrückt selektiv die „bursty" Feature-Achsen, während die strukturierte Mischrichtung (durch $O_t^{\text{base}}$ ) weitgehend erhalten bleibt.
Zeitliche Glättung: Um Rauschen zu vermeiden, wird der Dämpfungsfaktor über einen Exponential Moving Average (EMA) und eine „Schedule-Free"-Durchschnittsbildung (gewichtet nach effektiver Schrittgröße) geglättet.

3. Wichtige Beiträge

Algorithmus-Design: TrasMuon kombiniert Muon-ähnliche Mischfaktoren mit globaler RMS-Kalibrierung und einem relativen Energie-Trust-Region-Clipping für feature-lokalisierte Ausreißer.
Stabilität ohne Warmup: Der Algorithmus zeigt auch ohne Warmup-Phasen eine überlegene Stabilität, was die Abhängigkeit von heuristischen Warmup-Längen reduziert.
Mechanistische Validierung: Durch kontrollierte Experimente (z. B. gezielte Injection von Spalten-Ausreißern) wurde nachgewiesen, dass die Dämpfung selektiv auf die betroffenen Achsen wirkt und Loss-Spikes effektiv unterdrückt, ohne die Konvergenzgeschwindigkeit im Normalbetrieb zu beeinträchtigen.
Konvergenzgarantien: Es werden theoretische Grenzen für die Stationarität unter der Annahme von $L$ -Glattheit und einer milden Ausrichtungsbedingung hergeleitet.

4. Ergebnisse

Die Methode wurde in drei Hauptbereichen evaluiert:

Sprachmodelle (Pretraining):
- Getestet an GPT-2 und Qwen3-0.6B auf FineWeb-Edu.
- Ergebnis: TrasMuon konvergiert schneller als AdamW, Muon, Dion und NorMuon.
- Besonders bemerkenswert ist die Leistung ohne Warmup: TrasMuon erreicht das Ziel-Loss in deutlich weniger Schritten (z. B. 48 Schritte vs. 298 für AdamW) und zeigt weniger Oszillationen.
Vision Transformer (ViT):
- Training auf ImageNet-100.
- Ergebnis: TrasMuon erzielt die höchste Validierungsgenauigkeit (77,47 %) bei geringerer Varianz über verschiedene Seeds hinweg im Vergleich zu AdamW (42,53 %) und Muon (69,69 %).
PINNs (Physik-Informierte Neuronale Netze):
- Test unter nicht-stationären Bedingungen durch gezielte Verschiebungen der Stichprobenverteilung (ROI-Sampling).
- Ergebnis: TrasMuon behält die Stabilität bei, während andere Optimierer bei den Verteilungsverschiebungen stark schwanken oder instabil werden.

5. Bedeutung und Ausblick

TrasMuon adressiert eine zentrale Schwäche aktueller Orthogonalisierungsoptimierer: die mangelnde Robustheit gegenüber schweren Verteilungsschwänzen (heavy-tailed gradients) in den Feature-Achsen.

Praktische Relevanz: Es bietet einen „Drop-in"-Optimierer für das Pretraining großer Modelle, der weniger empfindlich auf die Wahl der Lernrate und Warmup-Strategien reagiert.
Theoretische Einsicht: Die Arbeit zeigt, dass man die Vorteile der Matrix-Struktur (Richtung) und die Vorteile der adaptiven Skalierung (Magnitude) kombinieren kann, ohne sie gegeneinander auszuspielen.
Zukunft: Die Methode ist derzeit auf 2D-Matrizen optimiert. Die Erweiterung auf Embeddings und höhere Tensoren sowie die Verbesserung der numerischen Stabilität bei Newton-Schulz-Iterationen in gemischter Präzision sind als nächste Schritte identifiziert.

Zusammenfassend stellt TrasMuon einen bedeutenden Schritt hin zu robusteren, effizienteren und weniger hyperparameter-sensitiven Optimierern für das Training moderner KI-Modelle dar.

TrasMuon: Trust-Region Adaptive Scaling for Orthogonalized Momentum Optimizers

Die große Reise: Wie man einen riesigen Berg besteigt

Das Problem: Der „Energie-Ausbruch"

Die Lösung: TrasMuon – Der weise Wanderführer

1. Der globale Maßstab (RMS-Kalibrierung)

2. Die „Energie-Zone" (Trust-Region Clipping)

Was bringt das alles?

Zusammenfassung in einem Satz

1. Problemstellung

2. Methodik: TrasMuon

A. Orthogonalisierte Richtung (OtbaseO_t^{\text{base}}Otbase​)

B. Globale RMS-Kalibrierung (η^t\hat{\eta}_tη^​t​)

C. Trust-Region-Clipping (ctc_tct​) – Das Kernstück

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers

A. Orthogonalisierte Richtung ( $O_t^{\text{base}}$ )

B. Globale RMS-Kalibrierung ( $\hat{\eta}_t$ )

C. Trust-Region-Clipping ( $c_t$ ) – Das Kernstück