HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

Each language version is independently generated for its own context, not a direct translation.

🚀 HTMuon: De Nieuwe Optimist voor AI-Training

Stel je voor dat je een gigantische, slimme robot (een LLM of Large Language Model) wilt leren praten, denken en creatief zijn. Om dit te doen, moet je de robot duizenden boeken laten lezen. Maar hoe leer je een robot het beste? Je moet hem niet alleen vertellen wat hij moet doen, maar ook hoe hij zijn hersenen moet aanpassen. Dit "hoe" noemen we een optimizer.

Vroeger gebruikten we de standaard "besturing" (zoals Adam), maar een nieuwe methode genaamd Muon kwam erbij. Muon was al heel slim: het keek naar de relaties tussen verschillende onderdelen van de robot tegelijk, in plaats van ze één voor één te behandelen.

Maar de onderzoekers van deze paper (van Dartmouth, Microsoft, Meta, etc.) zeiden: "Muon is goed, maar we kunnen het nog beter maken." Ze introduceerden HTMuon.

Hier is hoe het werkt, uitgelegd met een paar simpele metaforen:

1. Het Probleem met Muon: De "Strakke" Dans

Stel je voor dat Muon een dansleraar is. Als de robot een fout maakt, zegt Muon: "Oké, we passen alles aan met precies dezelfde kracht!"

De analogie: Stel je een orkest voor. Als de trompettist een noot mist, en de fluitist ook, zegt Muon: "Iedereen, versterk je geluid met precies dezelfde volume!"
Het nadeel: In werkelijkheid is de trompet misschien gewoon een beetje uit tune (ruis), terwijl de fluit echt een belangrijke boodschap draagt. Door alles even hard te maken, versterk je ook de ruis. De robot leert dan misschien teveel op de "ruis" en te weinig op de echte patronen.
Wiskundig gezien: Muon maakt de "spectrale verdeling" (een manier om te kijken hoe de krachten verdeeld zijn) heel licht. Het is alsof je een berg hebt die overal even hoog is, zonder diepe dalen of hoge toppen.

2. De Oplossing: HTMuon en de "Zware" Berg

De onderzoekers keken naar een theorie genaamd HT-SR (Heavy-Tailed Self-Regularization). Deze theorie zegt dat de beste, slimste neurale netwerken een heel specifieke vorm hebben: een zware staart (heavy tail).

De analogie: Denk aan een berglandschap. Een "lichte" berg (zoals bij Muon) is plat en eentonig. Een "zware" berg (zoals bij HTMuon) heeft een paar heel hoge, scherpe pieken en een lange, steile helling.
Waarom is dat goed? Die hoge pieken vertegenwoordigen de echte, belangrijke patronen in de data. De lange, steile helling (de "zware staart") zorgt ervoor dat de robot de ruis (de kleine, onbelangrijke details) laat vallen en zich focust op de grote, belangrijke ideeën.

HTMuon is dus de dansleraar die zegt: "Niet iedereen even hard! Laten we de belangrijke signalen extra versterken en de ruis juist wat zachter maken."

3. Hoe werkt HTMuon precies? (De Magische Formule)

In de wiskunde van Muon worden alle "krachten" (singuliere waarden) gelijk gemaakt aan 1.
HTMuon doet iets heel slims: het neemt die krachten en verheft ze tot een macht (bijvoorbeeld $p = 0.125$ ).

Simpele uitleg: Dit is alsof je een foto maakt en de contrasten aanpast. De lichte delen (ruis) worden nog lichter (minder belangrijk), en de donkere delen (belangrijke patronen) worden donkerder (belangrijker).
Het resultaat: De robot leert sneller en beter, omdat hij niet meer verward raakt door de ruis.

4. De Resultaten: Sneller en Slimmer

De onderzoekers hebben HTMuon getest op verschillende taken:

Talen leren (LLMs): Ze trainden modellen zoals LLaMA. Het resultaat? De modellen maakten minder fouten (lagere "perplexity"). Ze konden de taal beter begrijpen.
Beelden herkennen: Ze testten het ook op het herkennen van foto's (zoals honden vs. katten). Ook hier was HTMuon beter dan de concurrenten.
De "Plug-in" kracht: Het mooie is dat je HTMuon kunt gebruiken als een extraatje bovenop andere versies van Muon. Het werkt als een "tuning-kit" die elk bestaand model een boost geeft.

5. De Prijs: Iets meer rekenkracht

Er is een klein nadeel. Omdat HTMuon iets complexere berekeningen doet (het moet die "zware staart" berekenen), duurt het per stapje iets langer dan de standaard Muon.

De oplossing: De onderzoekers hebben ook een snellere versie bedacht (HTMuon NS) en een trucje waarbij ze het niet elke seconde doen, maar bijvoorbeeld elke 5 stappen. Hierdoor is het verschil in snelheid verwaarloosbaar, maar blijft het voordeel in slimheid behouden.

🎯 Conclusie in één zin

HTMuon is een nieuwe, slimmere manier om AI-modellen te trainen die, in plaats van alles gelijk te behandelen, de belangrijke patronen extra benadrukt en de ruis negeert, waardoor de robot uiteindelijk veel slimmer wordt.

Het is alsof je van een robot die "alles even hard schreeuwt" overgaat naar een robot die "precies weet waar hij moet fluisteren en waar hij moet brullen".

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "HTMuon: Improving Muon via Heavy-Tailed Spectral Correction" in het Nederlands.

Probleemstelling

Optimalisatoren spelen een cruciale rol bij het trainen van Large Language Models (LLMs). Hoewel optimaalizers zoals Adam en AdamW (vectorgebaseerd) standaard zijn, negeren ze vaak de onderlinge afhankelijkheden tussen parameters. Muon is een recente matrixgebaseerde optimizer die deze afhankelijkheden beter vastlegt door momentum-matrices te preconditioneren via een orthogonalisatiestap.

Echter, het paper identificeert twee fundamentele beperkingen van de huidige Muon-implementatie:

Onderdrukking van zware staarten (Heavy Tails): De orthogonalisatiestap in Muon stelt alle singuliere waarden van de momentum-matrix gelijk aan één. Dit resulteert in een update met een "lichte staart" (light-tailed spectrum). Volgens de Heavy-Tailed Self-Regularization (HT-SR) theorie hebben goed getrainde neurale netwerken echter een zwaarstaartend spectrum (heavy-tailed empirical spectral density, ESD) in hun weight-matrices. Een lichte staart suggereert dat het model minder effectieve correlaties heeft geleerd.
Overgewicht op ruis: Door alle singuliere vector-richtingen even zwaar te wegen, negeert Muon het feit dat richtingen met kleine singuliere waarden vaak gedomineerd worden door ruis. Dit kan leiden tot suboptimale training, vooral in latere fasen, en beperkt de generalisatievermogen van het model.

Methodologie: HTMuon

De auteurs stellen HTMuon voor, een optimizer die de voordelen van Muon behoudt (het modelleren van parameterinterdependenties) maar de update-regel aanpast om zwaardere staarten te genereren.

Kernmechanisme: In plaats van alle singuliere waarden ( $\sigma_i$ $σ_{i}$ ) van de momentum-matrix $M_t$ $M_{t}$ naar 1 te normaliseren, worden deze verheven tot een macht $p$ $p$ (waarbij $0 < p < 1$).
- De update wordt: $O_t = U_t \Sigma_t^p V_t^\top$ .
- Als $p=1$ , reduceert het tot SGDM (geen matrix-coupling).
- Als $p=0$ , reduceert het tot Muon (lichte staart).
- De auteurs kiezen empirisch voor $p = 0.125$ , wat een balans biedt tussen het behoud van geometrische informatie en het induceren van een zwaarstaartend spectrum.
Theoretische Basis: HTMuon wordt getoond als de "steepest descent" (steilste afdaling) onder een Schatten- $q$ norm beperking. Dit generaliseert Muon, dat overeenkomt met de Schatten- $\infty$ norm.
Efficiëntie: Omdat het berekenen van de SVD (Singular Value Decomposition) duur is, stellen de auteurs twee versnelde implementaties voor:
1. Interval-updates: HTMuon wordt slechts elke $k$ stappen toegepast, met Muon in de tussenliggende stappen.
2. HTMuon NS: Een numerieke benadering die de Newton-Schulz iteratie gebruikt om de wortel van de matrix te benaderen, waardoor de SVD volledig wordt vermeden of geminimaliseerd.

Belangrijkste Bijdragen

Analyse van Muon: Het paper demonstreert dat Muon's orthogonalisatiestap onbedoeld de emergentie van zware staarten in weight-spectra onderdrukt en de training overmatig beïnvloedt door ruis-dominante richtingen.
Ontwerp van HTMuon: Een eenvoudige maar effectieve modificatie (macht $p$ op singuliere waarden) die de optimizer in staat stelt zwaardere staarten te genereren, wat correleert met betere modelkwaliteit volgens HT-SR theorie.
Theoretische Analyse:
- Bewijs dat HTMuon equivalent is aan steepest descent onder een Schatten- $q$ norm.
- Convergentieanalyse voor gladde niet-convexe settings, waarbij wordt aangetoond dat HTMuon dezelfde sample-complexiteit bovenlimiet ( $O(\epsilon^{-4})$ ) bereikt als Muon en SGDM.
Efficiënte Implementaties: Het introduceren van HTMuon NS en interval-updates om de rekentijd te verlagen zonder significant in te leveren op prestaties.

Resultaten

HTMuon werd getest op diverse taken, waaronder LLM-pretraining (LLaMA-familie, GPT-2) en beeldclassificatie (ResNet, ViT).

LLM Pretraining (C4 Dataset):
- HTMuon presteert consistent beter dan Muon, AdamW en andere state-of-the-art optimaalizers (zoals COSMOS, NorMuon, AdaMuon).
- Verbetering: Bij het trainen van LLaMA-60M op C4 daalde de perplexiteit (PPL) met 0.92 ten opzichte van Muon. Bij LLaMA-135M was de daling 0.98.
- HTMuon kan ook als "plug-in" worden gebruikt bovenop bestaande Muon-varianten (bijv. HTMuon + NorMuon) om verdere verbeteringen te boeken.
Beeldclassificatie:
- Op CIFAR-10/100 en ImageNet-1K (ViT-tiny) behaalde HTMuon hogere nauwkeurigheid dan SGDM, Muon en NorMuon.
Spectrale Analyse:
- Modellen getraind met HTMuon vertonen een lager gemiddeld Power-Law exponent ( $\bar{\alpha}$ ) in hun weight-spectra, wat aangeeft dat ze zwaardere staarten hebben. Dit correleert direct met de lagere perplexiteit en betere generalisatie.
Efficiëntie:
- Hoewel de standaard HTMuon meer rekentijd kost dan Muon door de SVD, reduceert de HTMuon NS (Interval=5) variant de overhead aanzienlijk (bijv. ~6% extra overhead voor LLaMA-60M) terwijl het nog steeds beter presteert dan Muon.

Significantie

Dit werk is significant omdat het een brug slaat tussen optimisatietheorie en spectrale analyse van neurale netwerken. Het toont aan dat het bewust manipuleren van het spectrum van de update-matrix (via heavy-tailed correction) een krachtige methode is om de prestaties van LLM's te verbeteren.

Inzicht: Het weerlegt de aanname dat een perfect genormaliseerde (lichte staart) update altijd optimaal is. In plaats daarvan suggereert het dat een zekere mate van "ruis" of variatie in de update-gewichten (zware staart) essentieel is voor het leren van robuuste correlaties.
Praktische Toepassing: HTMuon biedt een directe, plug-and-play verbetering voor bestaande Muon-implementaties, wat relevant is voor de training van grote modellen waar elke vermindering in perplexiteit (PPL) significant is.
Theoretische Verdieping: Door HTMuon te koppelen aan Schatten-normen en de HT-SR theorie, biedt het een theoretisch fundament voor toekomstig onderzoek naar matrixgebaseerde optimalisatie en generalisatie.

Samenvattend introduceert HTMuon een nieuwe standaard voor matrixgebaseerde optimalisatie die de beperkingen van Muon oplost door de inductieve bias van zware staarten te benutten, wat leidt tot superieure prestaties in zowel taalmodellen als beeldclassificatie.

HTMuon: Improving Muon via Heavy-Tailed Spectral Correction

🚀 HTMuon: De Nieuwe Optimist voor AI-Training

1. Het Probleem met Muon: De "Strakke" Dans

2. De Oplossing: HTMuon en de "Zware" Berg

3. Hoe werkt HTMuon precies? (De Magische Formule)

4. De Resultaten: Sneller en Slimmer

5. De Prijs: Iets meer rekenkracht

🎯 Conclusie in één zin

Probleemstelling

Methodologie: HTMuon

Belangrijkste Bijdragen

Resultaten

Significantie

Meer zoals dit

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers