On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Dit paper introduceert een nieuwe familie van gemiddeld genormaliseerde operatornormen en de MOGA-optimizer om breedte-onafhankelijke stabiliteit en effectieve hyperparameter-overdracht te garanderen voor neurale netwerken, waarbij het de stabiliteit van Muon verbetert en snellere prestaties bereikt in grote-token en laag-verlies regimes.

Ruihan Xu, Jiajin Li, Yiping Lu

Gepubliceerd Wed, 11 Ma
📖 5 min leestijd🧠 Diepgaand

Each language version is independently generated for its own context, not a direct translation.

Titel: Hoe je een trein van 100 naar 1000 wagons laat rijden zonder dat de remmen falen

Stel je voor dat je een trein bouwt. In het begin is het een kleine trein met slechts een paar wagons (een klein neuronaal netwerk). Je hebt een machinist nodig (de optimizer, zoals AdamW of Muon) die de trein aanstuurt, de snelheid regelt en zorgt dat hij niet ontspoord.

Nu wil je die trein vergroten. Je voegt wagons toe tot het een gigantische trein wordt met duizenden wagons (een groot taalmodel zoals GPT-2 of LLaMA).

Het probleem? De regels die je gebruikte om de kleine trein veilig te besturen, werken niet meer voor de grote trein. Als je de remkracht of de snelheid van de kleine trein 1-op-1 overneemt voor de grote trein, gebeurt er één van twee dingen:

  1. De trein wordt te traag en komt nooit op snelheid.
  2. De trein remt te hard, schokt, en ontploft (de training "divergeert" of faalt).

Dit is precies het probleem dat deze paper oplost. De auteurs vragen zich af: "Hoe kunnen we een besturingssysteem ontwerpen dat werkt, of we nu 100 of 10.000 wagons hebben?"

Hier is de uitleg in simpele taal, met behulp van analogieën.

1. Het probleem: De "Grootte-Val"

In de wereld van AI leren we modellen door ze te laten "glijden" over een bergland (de verliesfunctie). De optimizer is de wandelaar die probeert de laagste vallei te vinden.

  • Bij een klein model (smalle trein) is het landschap rustig. Je kunt met een bepaalde stapgrootte (leerhast) wandelen.
  • Bij een groot model (brede trein) verandert het landschap. De hellingen worden steiler of ruwer. Als je dezelfde stapgrootte gebruikt, val je over je eigen voeten.

Tot nu toe moesten onderzoekers elke keer hun "stapgrootte" opnieuw uitrekenen als ze een groter model maakten. Dat is duur en tijdrovend.

2. De oude aanpak: Muon en de "Spectrale Norm"

Er was een nieuwe methode genaamd Muon die populair werd. Muon probeert de wandelrichting te "witten" (vergelijkbaar met het gladstrijken van een krullend tapijt).

  • Het nadeel: De auteurs tonen aan dat Muon een verborgen zwakheid heeft. Als de trein groter wordt, wordt het landschap voor Muon steeds ruwer en onvoorspelbaarder. Het is alsof je bij een kleine trein over gras loopt, maar bij een grote trein over scherpe stenen. De "gladheid" van het pad verslechtert met de grootte (w\sqrt{w}). Dit maakt het lastig om de snelheid stabiel te houden.

3. De nieuwe oplossing: MOGA (De "Gemiddelde" Regel)

De auteurs komen met een nieuw idee: MOGA (Matrix Operator Geometry Aware). Ze kijken naar de wiskundige "vorm" van de wandelstappen.

Ze ontdekken dat de standaard manieren om te meten (de oude wiskundige regels) niet werken voor grote netwerken. Ze introduceren een nieuwe meetlat: de "Mean-Normalized Norm".

De Analogie van de Maatstok:
Stel je voor dat je de lengte van mensen meet.

  • Oude methode: Je telt de totale lengte van alle mensen in een groep. Als de groep groter wordt (meer wagons), wordt de totale lengte automatisch groter, zelfs als iedereen even lang is. Dat is verwarrend voor de wandelaar.
  • Nieuwe methode (MOGA): Je kijkt naar het gemiddelde. Je deelt de totale lengte door het aantal mensen. Of je nu 10 of 10.000 mensen hebt, het gemiddelde blijft hetzelfde.

Door deze "gemiddelde" meetlat te gebruiken, blijft het landschap voor de wandelaar stabiel, ongeacht hoe groot de trein wordt. De hellingen blijven even steil, en de valkuilen even diep.

4. De twee strategieën: Rijen vs. Kolommen

De paper stelt twee manieren voor om deze nieuwe meetlat toe te passen, afhankelijk van hoe je de trein bouwt:

  1. Kolom-normalisatie: Hierbij kijk je naar de wagons als kolommen. Dit werkt goed, maar het maakt de trein erg "stug". Het is alsof je de wagons zo strak tegen elkaar duwt dat er geen ruimte meer is om te bewegen. Het landschap is glad, maar de trein kan niet meer goed draaien (minder expressief).
  2. Rij-normalisatie (De winnaar): Hierbij kijk je naar de rijen. Dit is de MOGA-methode die de auteurs aanbevelen.
    • Het houdt het landschap net zo glad als de kolom-methode (geen schokken).
    • Maar het laat de trein meer bewegingsvrijheid toe. De wagons kunnen nog steeds goed samenwerken zonder dat ze te strak vastzitten.

Conclusie: Rij-normalisatie is de perfecte balans: stabiel als een rots, maar flexibel als een danser.

5. Wat betekent dit voor de praktijk?

De auteurs hebben dit getest op echte AI-modellen (GPT-2 en LLaMA).

  • Hyperparameter-overdracht: Je kunt nu de instellingen (de snelheid) die je hebt gevonden voor een klein model direct gebruiken voor een enorm groot model. Je hoeft niet meer urenlang te zoeken naar de juiste instellingen. Het werkt "out of the box".
  • Snelheid: In de latere stadia van het trainen (wanneer het model al slim is en nog verder moet verfijnen), is MOGA sneller en stabieler dan de huidige top-methoden zoals Muon. Het haalt de laagste foutmarges sneller.

Samenvatting in één zin

Deze paper zegt: "Stop met het raden van de juiste snelheid voor grote AI-modellen; gebruik in plaats daarvan een slimme meetlat (MOGA) die het landschap altijd stabiel houdt, zodat je dezelfde regels kunt gebruiken voor een trein van 100 wagons als voor een trein van 10.000."

Het is een stap in de richting van AI die makkelijker schaalbaar is, goedkoper in te stellen en stabieler werkt naarmate het groter wordt.