The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, complexe labyrint bouwt met duizenden doorgangen en muren. Dit labyrint is een Neuraal Netwerk (de "hersenen" van een AI). Je doel is om een pad te vinden dat alle obstakels (fouten) omzeilt en je naar de perfecte uitgang leidt.

In de wereld van AI gebruiken we wiskundige hulpmiddelen, genaamd Optimalisatoren, om dit pad te vinden. Twee van de bekendste hulpmiddelen zijn Adam en Muon. Maar hier is het mysterie: deze hulpmiddelen vinden niet alleen een oplossing; ze hebben een voorkeur. Ze neigen onbewust naar bepaalde soorten oplossingen, zelfs als we ze niet vertellen welke we willen. Dit noemen we Implicit Bias (een onbewuste voorkeur).

Deze paper onderzoekt waarom Adam en Muon deze voorkeur hebben en wat voor soort "pad" ze precies kiezen.

De Drie Sleutels tot het Begrip

Om dit te begrijpen, gebruiken we drie simpele metaforen:

1. De "Perfecte Weg" (Margin Maximization)

Stel je voor dat je door een smalle gang loopt waar aan beide kanten muren staan. Je wilt niet tegen de muren aanlopen. Je wilt zo ver mogelijk van de muren af blijven.

In de wiskunde noemen we dit de Margin (de marge).
De beste oplossing is het pad dat je zo ver mogelijk van de muren houdt.
Het onderzoek toont aan dat Adam en Muon, net als hun oudere broertjes (zoals Gradient Descent), proberen dit "veiligste pad" te vinden. Maar ze meten "veiligheid" op verschillende manieren.

2. De Verschillende Meetlaten (Normen)

Hier komt het interessante deel. Stel je voor dat je een meetlat hebt om te zien hoe ver je van de muur bent.

Gradient Descent (de oude methode) gebruikt een standaard meetlat (de $\ell_2$ -norm). Het kijkt naar de totale afstand.
Adam gebruikt een heel andere meetlat (de $\ell_\infty$ -norm). Het kijkt alleen naar de enkele dichtstbijzijnde muur. Als je ook maar één centimeter te dicht bij één muur staat, vindt Adam dat gevaarlijk, zelfs als je aan de andere kant heel ver weg bent. Het probeert dus de slechtste situatie te verbeteren.
Muon is nog specialer. Het kijkt naar de structuur van de muren zelf (via wat ze "spectrale norm" noemen). Het is alsof Muon niet alleen naar de afstand kijkt, maar ook naar hoe de muren in elkaar zitten. Het probeert een pad te vinden dat de structuur van het labyrint het beste respecteert.

3. De "Momentum" (Zwaaier)

Stel je voor dat je door het labyrint loopt met een zware slee achter je aan.

Als je een bocht neemt, wil de slee (het Momentum) rechtdoor blijven gaan.
Adam en Muon zijn slimme slepen. Ze onthouden waar je eerder bent geweest. Als je een tijdje in een bepaalde richting hebt gelopen, duwt de slee je daar nog een beetje naartoe.
De paper laat zien dat, als je de snelheid (de leer-snelheid) langzaam verlaagt naarmate je dichter bij de uitgang komt, deze "slee" je uiteindelijk precies naar het punt duwt waar de wiskundige regels (de KKT-punten) het meest perfect zijn. Het is alsof de slee je niet zomaar ergens laat vallen, maar je precies op de "gouden stip" zet.

Wat hebben ze ontdekt?

De onderzoekers hebben bewezen dat:

Adam (zonder zijn veiligheidsnetje) altijd op zoek is naar het pad waar de enkele dichtstbijzijnde muur zo ver mogelijk weg is. Het is een perfectionist die niet wil dat één ding fout gaat.
Muon (een nieuwe, populaire methode voor grote modellen) zoekt een pad dat de structuur van de muren (de matrices in het netwerk) respecteert. Het is alsof Muon een architect is die kijkt naar de stevigheid van de muren, niet alleen naar de afstand.
Als je Muon combineert met Adam (bijvoorbeeld voor de muren en Adam voor de vloer), dan zoeken ze een pad dat de beste balans vindt tussen beide meetlatten.

Waarom is dit belangrijk?

Vroeger dachten we dat alle slimme algoritmes gewoon "een goed pad" vonden. Nu weten we dat ze elk hun eigen stijl hebben.

Als je een model wilt dat extreem robuust is tegen kleine fouten, wil je misschien een algoritme dat de "dichtstbijzijnde muur" maximaliseert (zoals Adam).
Als je een model wilt dat de interne structuur van de data respecteert, wil je misschien Muon.

Kort samengevat:
Deze paper legt uit dat Adam en Muon niet willekeurig kiezen. Ze zijn als twee verschillende soorten wandelaars in een labyrint. De een (Adam) kijkt obsessief naar de dichtstbijzijnde muur om die weg te houden. De ander (Muon) kijkt naar de architectuur van het hele labyrint. Door te begrijpen hoe ze kijken, kunnen we beter kiezen welk hulpmiddel we gebruiken voor welk probleem.

Each language version is independently generated for its own context, not a direct translation.

Titel: De Impliciete Bias van Adam en Muon op Gladde Homogene Neuronale Netwerken

Auteurs: Eitan Gronich en Gal Vardi (Weizmann Institute of Science)

1. Probleemstelling

Diepe neuronale netwerken vertonen opmerkelijke generalisatievermogens, zelfs wanneer ze overgeparameteriseerd zijn en zonder expliciete regularisatie worden getraind. Een belangrijke theorie om dit fenomeen te verklaren is de impliciete bias van optimalisatiealgoritmen: de neiging van algoritmen om te convergeren naar specifieke oplossingen die goed generaliseren.

Eerdere werken hebben voornamelijk de impliciete bias van Gradient Descent (GD) onderzocht, waarbij bleek dat deze neigt naar het maximaliseren van de $\ell_2$ -marge in homogene modellen. In de praktijk worden echter steeds vaker geavanceerde momentum-gebaseerde optimalisatoren gebruikt, zoals Adam en de recent geïntroduceerde Muon. Het is echter onduidelijk welke impliciete bias deze algoritmen hebben op complexe, homogene netwerken. Bestaande theorieën beperken zich vaak tot lineaire modellen of specifieke gevallen, en er ontbreekt een unifyend kader voor momentum-gebaseerde methoden in niet-lineaire, homogene netwerken.

2. Methodologie en Theoretisch Kader

De auteurs analyseren het gedrag van optimalisatiealgoritmen op gladde homogene modellen (waarbij $f(x; \alpha\theta) = \alpha^L f(x; \theta)$ ) met verliesfuncties met exponentiële staarten (zoals logistiek en exponentieel verlies).

Belangrijke Concepten:

Impliciete Bias en Marge: De bias wordt gedefinieerd als de neiging om de marge $\gamma(\theta) = \min_i y_i f(x_i; \theta/\|\theta\|)$ te maximaliseren. Dit is equivalent aan het minimaliseren van de norm $\|\theta\|$ onder de randvoorwaarde dat alle trainingspunten correct worden geclassificeerd.
Steilste Afdaling (Steepest Descent): Het artikel breidt bestaande resultaten uit voor genormaliseerde steilste afdaling met een leerstap-schedule $\eta(t)$ .
Approximate Steepest Descent (Benaderde Steilste Afdaling): Dit is het centrale technische instrument. De auteurs definiëren een traject als een "benaderde steilste afdaling" als de richting van de update asymptotisch aligneert met de negatieve subgradiënt, zelfs als de exacte dynamiek van momentum of adaptieve leerstappen dit verstoort.
KKT-voorwaarden: De convergentie wordt gekarakteriseerd door de Karush-Kuhn-Tucker (KKT) voorwaarden van het marge-maximalisatieprobleem.

Analyse van Specifieke Optimalisatoren:

Muon: Wordt geanalyseerd als een genormaliseerde momentum-steilste afdaling met betrekking tot de spectrale norm ( $\|\cdot\|_{sp}$ ) van de gewichtsmatrices. Voor multi-layer netwerken wordt een max-spectrale norm ( $\|\cdot\|_{msp}$ ) gebruikt.
Signum: Wordt geanalyseerd als genormaliseerde momentum-steilste afdaling met betrekking tot de $\ell_\infty$ -norm.
Adam: Wordt geanalyseerd zonder stabiliteitsconstante ( $\epsilon \to 0$ ), wat beter overeenkomt met de praktijk. De auteurs tonen aan dat Adam asymptotisch gedraagt als genormaliseerde steilste afdaling met betrekking tot de $\ell_\infty$ -norm.
Hybride Algoritmen: Het artikel analyseert ook composities zoals Muon-Signum (Muon voor matrices, Signum voor andere parameters) en Muon-Adam.

3. Belangrijkste Bijdragen

De paper levert de volgende theoretische bijdragen:

Generalisatie van Genormaliseerde Steilste Afdaling:
De auteurs bewijzen dat elk limietpunt van $\theta_t / \|\theta_t\|$ in een traject van genormaliseerde steilste afdaling (met een leerstap-schedule waarvoor $\int \eta(t) dt = \infty$ ) een KKT-punt is van het marge-maximalisatieprobleem voor de bijbehorende norm. Dit geldt voor lokaal Lipschitz, $C^1$ -stratificeerbare homogene modellen (inclusief ReLU-netwerken).
Impliciete Bias van Momentum-Optimalisatoren:
Ze tonen aan dat momentum-gebaseerde algoritmen (zoals Muon en Signum) onder een afnemende leerstap-schedule fungeren als benaderde steilste afdaling. Hierdoor convergeren ze naar KKT-punten van het marge-maximalisatieprobleem voor de specifieke norm die bij het algoritme hoort:
- Muon maximaliseert de marge onder de spectrale norm (of max-spectrale norm voor multi-layer netwerken).
- Muon-Signum maximaliseert een hybride norm: $\max(\|\text{Matrices}\|_{msp}, \|\text{Vector}\|_\infty)$ .
Impliciete Bias van Adam:
Voor Adam (zonder stabiliteitsconstante) bewijzen de auteurs dat het algoritme onder een afnemende leerstap-schedule convergeert naar een KKT-punt van het marge-maximalisatieprobleem met betrekking tot de $\ell_\infty$ -norm. Dit generaliseert eerdere resultaten die beperkt waren tot lineaire modellen.
Muon-Adam Analyse:
Voor de combinatie Muon-Adam (Muon voor matrices, Adam voor andere parameters) wordt bewezen dat de convergentie plaatsvindt naar een KKT-punt dat de marge maximaliseert onder de norm:
$\|\theta\| = \max \left( \frac{\eta_A}{\eta_M} \|W\|_{msp}, \|u\|_\infty \right)$
waarbij $\eta_A$ en $\eta_M$ de leerstappen voor respectievelijk Adam en Muon zijn.

4. Resultaten en Experimenten

De theorie wordt gevalideerd door experimenten op tweelaagse homogene netwerken (één verborgen laag) die MNIST-cijfers classificeren (even/oneven) met exponentieel verlies.

Opstelling: Vergelijking van Normalized Gradient Descent (NGD), Signum, Adam, Muon en Muon-Adam. Gebruik van zowel ReLU als "Squared ReLU" activaties.
Observaties:
- NGD convergeert naar de maximale $\ell_2$ -marge.
- Signum en Adam convergeren naar de maximale $\ell_\infty$ -marge.
- Muon convergeert naar de maximale spectrale marge ( $\|\cdot\|_{msp}$ ).
- Muon-Adam convergeert naar de maximale marge onder de hybride norm $\max(\|W\|_{msp}, \|u\|_\infty)$ .
Directionele Convergentie: De experimenten tonen aan dat de richting van de parameters ( $\theta_t / \|\theta_t\|$ ) convergeert (cosinus-similariteit > 0.99 in de late fase), wat een cruciale aanname in de theorie ondersteunt.

5. Betekenis en Conclusie

Dit werk is significant omdat het de theoretische basis legt voor het begrijpen van de impliciete bias van moderne, veelgebruikte optimalisatoren in complexe, homogene netwerken.

Unificatie: Het biedt een unifyend kader ("Approximate Steepest Descent") dat momentum en adaptieve methoden onder één hoedje brengt.
Praktische Implicaties: Het verklaart waarom verschillende optimalisatoren verschillende generalisatie-eigenschappen hebben. De keuze van de optimizer bepaalt direct welke norm wordt geminimaliseerd en dus welke marge wordt gemaximaliseerd.
Toekomstig Onderzoek: De auteurs wijzen op open vragen, zoals het bewijzen van directionele convergentie zonder extra aannames voor niet-gladde modellen (zoals standaard ReLU-netwerken) en de implicaties voor adversarial robustness en data-reconstructie-aanvallen.

Kortom, de paper toont aan dat de "geheime saus" van optimalisatoren zoals Adam en Muon niet alleen in hun snelheid ligt, maar ook in de specifieke geometrische bias die ze introduceren, wat leidt tot verschillende oplossingsruimtes in het trainingsproces.