On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een trein van 100 naar 1000 wagons laat rijden zonder dat de remmen falen

Stel je voor dat je een trein bouwt. In het begin is het een kleine trein met slechts een paar wagons (een klein neuronaal netwerk). Je hebt een machinist nodig (de optimizer, zoals AdamW of Muon) die de trein aanstuurt, de snelheid regelt en zorgt dat hij niet ontspoord.

Nu wil je die trein vergroten. Je voegt wagons toe tot het een gigantische trein wordt met duizenden wagons (een groot taalmodel zoals GPT-2 of LLaMA).

Het probleem? De regels die je gebruikte om de kleine trein veilig te besturen, werken niet meer voor de grote trein. Als je de remkracht of de snelheid van de kleine trein 1-op-1 overneemt voor de grote trein, gebeurt er één van twee dingen:

De trein wordt te traag en komt nooit op snelheid.
De trein remt te hard, schokt, en ontploft (de training "divergeert" of faalt).

Dit is precies het probleem dat deze paper oplost. De auteurs vragen zich af: "Hoe kunnen we een besturingssysteem ontwerpen dat werkt, of we nu 100 of 10.000 wagons hebben?"

Hier is de uitleg in simpele taal, met behulp van analogieën.

1. Het probleem: De "Grootte-Val"

In de wereld van AI leren we modellen door ze te laten "glijden" over een bergland (de verliesfunctie). De optimizer is de wandelaar die probeert de laagste vallei te vinden.

Bij een klein model (smalle trein) is het landschap rustig. Je kunt met een bepaalde stapgrootte (leerhast) wandelen.
Bij een groot model (brede trein) verandert het landschap. De hellingen worden steiler of ruwer. Als je dezelfde stapgrootte gebruikt, val je over je eigen voeten.

Tot nu toe moesten onderzoekers elke keer hun "stapgrootte" opnieuw uitrekenen als ze een groter model maakten. Dat is duur en tijdrovend.

2. De oude aanpak: Muon en de "Spectrale Norm"

Er was een nieuwe methode genaamd Muon die populair werd. Muon probeert de wandelrichting te "witten" (vergelijkbaar met het gladstrijken van een krullend tapijt).

Het nadeel: De auteurs tonen aan dat Muon een verborgen zwakheid heeft. Als de trein groter wordt, wordt het landschap voor Muon steeds ruwer en onvoorspelbaarder. Het is alsof je bij een kleine trein over gras loopt, maar bij een grote trein over scherpe stenen. De "gladheid" van het pad verslechtert met de grootte ( $\sqrt{w}$ ). Dit maakt het lastig om de snelheid stabiel te houden.

3. De nieuwe oplossing: MOGA (De "Gemiddelde" Regel)

De auteurs komen met een nieuw idee: MOGA (Matrix Operator Geometry Aware). Ze kijken naar de wiskundige "vorm" van de wandelstappen.

Ze ontdekken dat de standaard manieren om te meten (de oude wiskundige regels) niet werken voor grote netwerken. Ze introduceren een nieuwe meetlat: de "Mean-Normalized Norm".

De Analogie van de Maatstok:
Stel je voor dat je de lengte van mensen meet.

Oude methode: Je telt de totale lengte van alle mensen in een groep. Als de groep groter wordt (meer wagons), wordt de totale lengte automatisch groter, zelfs als iedereen even lang is. Dat is verwarrend voor de wandelaar.
Nieuwe methode (MOGA): Je kijkt naar het gemiddelde. Je deelt de totale lengte door het aantal mensen. Of je nu 10 of 10.000 mensen hebt, het gemiddelde blijft hetzelfde.

Door deze "gemiddelde" meetlat te gebruiken, blijft het landschap voor de wandelaar stabiel, ongeacht hoe groot de trein wordt. De hellingen blijven even steil, en de valkuilen even diep.

4. De twee strategieën: Rijen vs. Kolommen

De paper stelt twee manieren voor om deze nieuwe meetlat toe te passen, afhankelijk van hoe je de trein bouwt:

Kolom-normalisatie: Hierbij kijk je naar de wagons als kolommen. Dit werkt goed, maar het maakt de trein erg "stug". Het is alsof je de wagons zo strak tegen elkaar duwt dat er geen ruimte meer is om te bewegen. Het landschap is glad, maar de trein kan niet meer goed draaien (minder expressief).
Rij-normalisatie (De winnaar): Hierbij kijk je naar de rijen. Dit is de MOGA-methode die de auteurs aanbevelen.
- Het houdt het landschap net zo glad als de kolom-methode (geen schokken).
- Maar het laat de trein meer bewegingsvrijheid toe. De wagons kunnen nog steeds goed samenwerken zonder dat ze te strak vastzitten.

Conclusie: Rij-normalisatie is de perfecte balans: stabiel als een rots, maar flexibel als een danser.

5. Wat betekent dit voor de praktijk?

De auteurs hebben dit getest op echte AI-modellen (GPT-2 en LLaMA).

Hyperparameter-overdracht: Je kunt nu de instellingen (de snelheid) die je hebt gevonden voor een klein model direct gebruiken voor een enorm groot model. Je hoeft niet meer urenlang te zoeken naar de juiste instellingen. Het werkt "out of the box".
Snelheid: In de latere stadia van het trainen (wanneer het model al slim is en nog verder moet verfijnen), is MOGA sneller en stabieler dan de huidige top-methoden zoals Muon. Het haalt de laagste foutmarges sneller.

Samenvatting in één zin

Deze paper zegt: "Stop met het raden van de juiste snelheid voor grote AI-modellen; gebruik in plaats daarvan een slimme meetlat (MOGA) die het landschap altijd stabiel houdt, zodat je dezelfde regels kunt gebruiken voor een trein van 100 wagons als voor een trein van 10.000."

Het is een stap in de richting van AI die makkelijker schaalbaar is, goedkoper in te stellen en stabieler werkt naarmate het groter wordt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer" in het Nederlands.

Titel

Over de Schaalvergroting van Breedte bij Neuronale Optimaliseerders onder Matrixoperatornormen I: Rij-/Kolomnormalisatie en Hyperparameteroverdracht.

1. Het Probleem

Een centrale uitdaging in modern deep learning is het ontwerpen van optimaliseerders (optimizers) die stabiel blijven naarmate de breedte ( $w$ ) van het neurale netwerk toeneemt.

Huidige situatie: Voor veelgebruikte optimaliseerders zoals AdamW en Muon is de optimale leersnelheid sterk afhankelijk van de netwerkbreedte. Een leersnelheid die is afgestemd op een netwerk met 512 verborgen eenheden, kan divergeren of sterk vertragen als de breedte wordt vergroot naar 2048.
Gevolg: Dit gebrek aan betrouwbare hyperparameteroverdracht tussen verschillende schalen maakt het duur en inefficiënt om modellen te schalen, omdat elke nieuwe breedte opnieuw geoptimaliseerd moet worden.
Oorzaak: Standaard optimaliseerders respecteren de architecturale schaalvergroting niet natuurlijk. Bestaande theorieën (zoals $\mu$ P) bieden richtlijnen, maar deze zijn vaak gebaseerd op specifieke aannames (zoals spectrale condities) en de onderliggende meetkundige principes zijn niet volledig geunificeerd voor een breed scala aan methoden.

2. Methodologie en Theoretisch Kader

De auteurs benaderen het probleem door bestaande optimaliseerders te interpreteren als steilste afdaling (steepest descent) onder verschillende matrixoperatornormen.

Matrixoperatornormen: In plaats van de gebruikelijke Euclidische norm (Frobenius), worden optimaliseerders geanalyseerd als zoektochten naar een richting die de grootste afname in de eerste-orde benadering geeft, gemeten onder een specifieke norm $\|\cdot\|_{p \to q}$ .
- SignSGD/AdamW: Kan worden gezien als steilste afdaling onder de $\ell_1 \to \ell_\infty$ norm.
- Muon: Wordt geïnterpreteerd als steilste afdaling onder de spectrale norm ( $\ell_2 \to \ell_2$ ).
- Kolom- en Rijnormalisatie: Corresponderen met respectievelijk $\ell_1 \to \ell_q$ en $\ell_p \to \ell_\infty$ normen.
Het probleem met klassieke normen: De analyse toont aan dat klassieke operatornormen ( $p \to q$ met $p \leq q$ ) geen breedte-onafhankelijke Lipschitz-continuïteit garanderen wanneer ze worden gecomposeerd over meerdere lagen. Dit komt door een "meetkundige mismatch" tussen de output van de ene laag en de input van de volgende, wat leidt tot een versterking van fouten naarmate de breedte toeneemt.
De Oplossing: Gemiddelde-genormaliseerde Normen:
Om dit op te lossen, stellen de auteurs een nieuwe familie van normen voor: $(p, \text{mean}) \to (q, \text{mean})$ .
- Deze normen worden gedefinieerd als $\|\mathbf{x}\|_{(p, \text{mean})} = n^{-1/p} \|\mathbf{x}\|_p$ .
- De factor $n^{-1/p}$ compenseert precies de dimensionale schaalvergroting, waardoor de compatibiliteit tussen opeenvolgende lagen wordt hersteld ( $\|\mathbf{I}\| \leq 1$ ).
- Dit zorgt voor breedte-onafhankelijke Lipschitz-constanten en stabiele schaalvergroting over diepe netwerken.
L-smoothness (Gladheid):
De auteurs analyseren ook de gladheid (smoothness) van de loss-functie, wat de stabiliteit van de gradiëntupdates bepaalt.
- Muon ( $\ell_2 \to \ell_2$ ): De gladheidsconstante groeit met $O(\sqrt{w})$ in het ergste geval. Dit betekent dat Muon minder stabiel wordt naarmate het netwerk breder wordt.
- Nieuwe Geometrieën: Voor geometrieën zoals $(1, \text{mean}) \to (q, \text{mean})$ met $q \geq 2$ en $(p, \text{mean}) \to \infty$ , is de gladheidsconstante onafhankelijk van de breedte.

3. Belangrijkste Bijdragen

Unificatie van Optimaliseerders: Het paper biedt een unificerend meetkundig raamwerk dat AdamW, Muon, SignSGD, en normalisatiemethoden beschouwt als steilste afdaling onder specifieke matrixoperatornormen.
Theoretische Grenzen: Het bewijst dat klassieke operatornormen falen in diepe netwerken vanwege breedte-afhankelijke vervormingen, en introduceert gemiddelde-genormaliseerde normen als de oplossing voor breedte-onafhankelijke stabiliteit.
MOGA (Matrix Operator Geometry Aware):
- De auteurs introduceren MOGA, een nieuwe familie van optimaliseerders die gebaseerd is op deze nieuwe geometrieën.
- MOGA gebruikt rij- of kolomnormalisatie met een specifieke, breedte-bewuste herschaling van de leersnelheid.
- Voordeel: De optimale leersnelheid is onafhankelijk van de breedte. Een leersnelheid die op een klein model werkt, kan direct worden overgedragen naar een veel breder model zonder opnieuw te tunen.
- Relatie met $\mu$ P: De methode herwint de $\mu$ P-schaalvergrotingsregel voor Adam/SignSGD als een speciaal geval, maar biedt een bredere theoretische basis die ook werkt voor regimes die niet voldoen aan de spectrale aannames van $\mu$ P.
Analyse van Muon: Het paper identificeert een potentieel nadeel van Muon: hoewel het breedte-onafhankelijke Lipschitz-bounds heeft, kan de gladheidsconstante ( $L$ ) groeien met $\sqrt{w}$ , wat de stabiliteit in latere trainingsfasen kan beïnvloeden.

4. Experimentele Resultaten

De theorie werd gevalideerd via grootschalige pre-training experimenten op GPT-2 en LLaMA architecturen.

Leersnelheidsoverdracht:
- Experimenten toonden aan dat MOGA (met rijnormalisatie) een bijna identieke optimale piek-leersnelheid heeft voor modellen van zeer verschillende groottes (van GPT-2 Small tot XL).
- Dit bevestigt dat hyperparameters die op een klein model zijn getuned, direct overdraagbaar zijn naar grotere modellen.
Prestaties onder Standaard Token Budget:
- MOGA presteerde vergelijkbaar met Muon en aanzienlijk beter dan AdamW op zowel LLaMA-130M als GPT-2 Small.
Prestaties onder Groot Token Budget (8x Chinchilla-optimaal):
- In de late trainingsfase en bij lage loss-waarden (waar stabiliteit cruciaal is), toonde MOGA (met rijnormalisatie) een duidelijk voordeel.
- Het convergeerde sneller dan Muon en AdamW, wat suggereert dat de breedte-onafhankelijke gladheid essentieel is voor langdurige training.

5. Betekenis en Impact

Praktische Toepassing: MOGA biedt een praktische, breedte-bewuste optimalisatiestrategie die de kosten van hyperparameter-tuning bij het schalen van modellen drastisch verlaagt.
Theoretische Vooruitgang: Het paper verschuift de focus van "spectrale" aannames naar een zuiver optimalisatie-geometrisch perspectief. Het toont aan dat het controleren van de Lipschitz- en gladheidsconstanten via de juiste norm-geometrie een robuustere basis biedt voor schaalvergroting.
Rij- vs. Kolomnormalisatie: De analyse suggereert dat rijnormalisatie (gebaseerd op $(p, \text{mean}) \to \infty$ ) een betere balans biedt tussen optimisatie-gladheid en de expressieve capaciteit van het model (approximatievermogen) dan kolomnormalisatie, omdat de parameter-schaalvergroting minder restrictief is.

Kortom, dit paper levert een fundamentele theoretische onderbouwing voor het ontwerpen van optimaliseerders die "natuurlijk" schalen met de grootte van het model, en introduceert MOGA als een efficiënt en stabiel alternatief voor bestaande methoden zoals Muon en AdamW.

On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

1. Het probleem: De "Grootte-Val"

2. De oude aanpak: Muon en de "Spectrale Norm"

3. De nieuwe oplossing: MOGA (De "Gemiddelde" Regel)

4. De twee strategieën: Rijen vs. Kolommen

5. Wat betekent dit voor de praktijk?

Samenvatting in één zin

Titel

1. Het Probleem

2. Methodologie en Theoretisch Kader

3. Belangrijkste Bijdragen

4. Experimentele Resultaten

5. Betekenis en Impact

Meer zoals dit

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps