Non-Euclidean Gradient Descent Operates at the Edge of Stability

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een berg beklimt in een mistig landschap. Je doel is om zo snel mogelijk naar de laagste vallei te komen (dat is het vinden van de beste oplossing voor een kunstmatige intelligentie).

Normaal gesproken gebruiken mensen een simpele regel: "Kijk om je heen, ga een stapje in de richting waar het naar beneden gaat." Dit noemen we Gradient Descent (afdalend op de helling).

Deze nieuwe paper, getiteld "Non-Euclidean Gradient Descent Operates at the Edge of Stability", vertelt een fascinerend verhaal over wat er gebeurt als je deze klimt niet op een vlakke, rechte weg doet, maar over een vreemd, gebogen landschap.

Hier is de uitleg in simpele taal, met een paar creatieve metaforen:

1. Het mysterie van de "Rand van de Stabiliteit"

Wetenschappers hebben al een tijdje een raadselachtig fenomeen opgemerkt. Als je een AI-model traint, gebeurt er iets vreemds:

Aan het begin wordt de "ruwheid" van het landschap (hoe steil en onvoorspelbaar de hellingen zijn) steeds groter.
Maar dan gebeurt er iets magisch: de ruwheid stopt met groeien en blijft precies hangen op een heel specifiek punt. Het lijkt alsof de klimmer precies op de rand van een afgrond loopt, maar niet erin valt.

Dit punt wordt de "Edge of Stability" (Rand van de Stabiliteit) genoemd. Het is alsof je op een surfplank staat die precies op de rand van een golf balanceert. Als je te ver naar voren leunt, val je (het model crasht). Als je te ver naar achteren leunt, ga je niet vooruit. Maar precies op die rand, surft het model razendsnel naar beneden.

2. De oude manier vs. de nieuwe manier

Vroeger dachten wetenschappers dat dit alleen gebeurde als je de "standaard" manier van stappen gebruikte (noem het Euclidisch of "rechte lijn" stappen).

Maar deze paper zegt: "Nee, dit gebeurt overal!"

Ze kijken naar een hele familie van nieuwe manieren om te stappen, die ze Non-Euclidean Gradient Descent noemen.

De analogie: Stel je voor dat je normaal gesproken in een rechte lijn loopt (Euclidisch). Maar wat als je in een wereld loopt waar je niet mag lopen, maar alleen mag schuiven (zoals op ijs) of springen (zoals op een trampoline)? Of wat als je in een wereld leeft waar "rechtop" niet bestaat, maar alleen "naar links" of "naar rechts"?
De auteurs tonen aan dat zelfs als je deze vreemde, gekke manieren van stappen gebruikt (zoals het "SignGD" of "Muon" algoritme), je AI-model altijd weer op diezelfde "Rand van de Stabiliteit" belandt.

3. De nieuwe meetlat: "Generalized Sharpness"

Het probleem was dat de oude meetlat voor "ruwheid" (sharpness) niet werkte voor deze gekke manieren van stappen. Het was alsof je de hoogte van een berg probeerde te meten met een liniaal, terwijl je eigenlijk in een holte zat.

De auteurs hebben een nieuwe meetlat bedacht, genaamd Generalized Sharpness (Veralgemeende Ruwheid).

De metafoor: Stel je voor dat je een bal op een ongelijk oppervlak rolt. De oude meetlat keek alleen naar hoe steil het was als je recht naar beneden keek. De nieuwe meetlat kijkt naar hoe steil het is in de richting waarin de bal nu rolt, ongeacht of dat een rechte lijn is of een gekke bocht.
Met deze nieuwe meetlat zien ze dat de "ruwheid" precies op de magische limiet blijft hangen, zelfs bij de gekste algoritmes.

4. Waarom is dit belangrijk?

Tot nu toe dachten we dat deze "Rand van de Stabiliteit" een geheim was dat alleen voor de standaard-methoden gold. Deze paper onthult dat het een universeel principe is.

Het is alsof je ontdekt dat alle auto's, of ze nu een benzine-motor hebben, elektrisch zijn of op stoom lopen, allemaal precies op dezelfde snelheid stabiliseren als ze een helling afrijden.
Dit helpt ons begrijpen waarom moderne AI zo goed werkt, zelfs als we heel vreemde en snelle manieren gebruiken om te leren. Het geeft ons een "veiligheidsnet": we weten nu dat we deze nieuwe, snellere methoden kunnen gebruiken zonder bang te hoeven zijn dat het systeem instort, zolang we maar weten dat het op die "Rand" blijft balanceren.

Samenvatting in één zin

Deze paper laat zien dat ongeacht hoe vreemd of complex de manier is waarop een AI-model leert (of het nu een rechte lijn is of een gekke sprong), het altijd op een magisch evenwichtspunt belandt waar het het snelst leert, en dat we nu een nieuwe manier hebben om dat evenwicht te meten en te begrijpen.

Het is een beetje alsof we eindelijk de wetten van de zwaartekracht hebben gevonden voor een universum dat we dachten dat vol vreemde, onvoorspelbare krachten zat.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Non-Euclidean Gradient Descent Operates at the Edge of Stability" in het Nederlands.

Titel: Non-Euclidean Gradient Descent Operates at the Edge of Stability

Auteurs: Rustem Islamov, Michael Crawshaw, Jeremy Cohen, en Robert Gower.

1. Het Probleem

In het diep leren wordt training vaak gemodelleerd als het minimaliseren van een empirisch risico. Hoewel klassieke theorie voor $L$ -gladde convexe doelen aangeeft dat gradiëntafdaal (Gradient Descent, GD) convergentie garandeert voor stapgroottes tot $2/L$, vertonen diepe netwerken een ander gedrag.

Er is een fenomeen waargenomen, genaamd de Edge of Stability (EoS):

Tijdens training met GD daalt het verlies monotoon in een eerste fase, terwijl de "scherpte" (sharpness, de grootste eigenwaarde van de Hessian-matrix) toeneemt (progressive sharpening).
Zodra de scherpte de drempel $2/\eta $bereikt (waarbij$ \eta$ de stapgrootte is), stopt de scherpte met groeien en oscilleert deze rondom deze drempel. Het verlies daalt niet meer monotoon, maar blijft op lange termijn dalen.

Hoewel dit fenomeen uitgebreid is bestudeerd voor Euclidische GD (standaard $\ell_2$ -norm) en sommige aangepaste methoden (zoals Adam en Adagrad), ontbreekt er een theoretisch kader voor een bredere klasse van optimalisatie-algoritmen. Specifiek is onduidelijk of EoS ook optreedt voor niet-Euclidische gradiëntafdaal, zoals $\ell_\infty$ -afdaal, Block Coördinaatafdaal (Block CD), Spectral GD (de basis van de Muon-optimizer), en genormaliseerde methoden zoals SignGD.

2. Methodologie

De auteurs introduceren een unificerend raamwerk om EoS te analyseren voor willekeurige normen $\|\cdot\|$ .

A. Niet-Euclidische Gradient Descent

Ze definiëren GD ten opzichte van een willekeurige norm $\|\cdot\|$ als het minimaliseren van een geregulariseerde linearisatie:
$w_{t+1} = \text{arg min}_y \left( \langle \nabla L(w_t), y - w_t \rangle + \frac{1}{2\eta} \|y - w_t\|^2 \right)$
Dit omvat:

Standaard GD: $\ell_2$ -norm.
$\ell_\infty$ -afdaal: Gebruikt de $\ell_\infty$ -norm (gerelateerd aan SignGD).
Spectral GD: Gebruikt de spectrale norm $\|\cdot\|_{2 \to 2}$ (basis voor Muon).
Block CD: Gebruikt de $\ell_{1,2}$ -norm.

B. Directional Smoothness (Richtingsgladheid)

In plaats van te vertrouwen op globale gladheid, gebruiken de auteurs het concept van Directional Smoothness ( $D_{\|\cdot\|}$ ), gedefinieerd als de gemiddelde kromming langs de koorde tussen twee iteraties:
$D_{\|\cdot\|}(w, y) := \frac{L(y) - L(w) - \langle \nabla L(w), y - w \rangle}{\frac{1}{2}\|y - w\|^2}$
De auteurs bewijzen een fundamentele relatie: als het verlies daalt, moet $D_{\|\cdot\|} \leq 2/\eta$ . Als het verlies oscilleert, oscilleert $D_{\|\cdot\|}$ rondom $2/\eta$.

C. Generalized Sharpness (Veralgemeende Scherpte)

Om de dynamica te koppelen aan de Hessian, definiëren ze Generalized Sharpness $S_{\|\cdot\|}(w)$ voor een willekeurige norm:
$S_{\|\cdot\|}(w) := \max_{d \neq 0} \frac{d^\top \nabla^2 L(w) d}{\|d\|^2} = \max_{\|d\| \leq 1} d^\top \nabla^2 L(w) d$

Voor de $\ell_2$ -norm is dit de standaard maximale eigenwaarde van de Hessian.
Voor andere normen is dit een geoptimaliseerd kwadratisch probleem dat vaak NP-moeilijk is (bijv. voor $\ell_\infty$ ). De auteurs gebruiken het Frank-Wolfe algoritme met meerdere random restarts om dit numeriek te benaderen.

D. Genormaliseerde Methoden

Ze analyseren ook genormaliseerde updates (waarbij de stapgrootte wordt aangepast aan de norm van de gradiënt, zoals bij SignGD en Muon zonder momentum). Hier hangt de stabiliteitsdrempel af van de effectieve stapgrootte $\tilde{\eta} = \eta / \|\nabla L(w_t)\|_*$ .

3. Belangrijkste Bijdragen

Unificatie van EoS: Het paper toont aan dat het EoS-fenomeen niet beperkt is tot Euclidische GD, maar een universeel gedrag is voor een brede familie van niet-Euclidische optimalisatie-algoritmen.
Generalized Sharpness: Introductie van een nieuwe maatstaf voor scherpte die afhankelijk is van de gebruikte norm. Dit verklaart waarom methoden zoals Muon en SignGD EoS vertonen, terwijl de standaard $\ell_2$ -scherpte dit niet doet.
Theoretische Koppeling: Een bewijs dat de richting van de maximale scherpte een invariante richting is onder de update-regel, wat leidt tot divergentie op kwadratische functies als de scherpte $2/\eta$ overschrijdt.
Empirische Validatie: Uitgebreide experimenten op diverse architecturen (MLP, CNN, Transformers) en datasets (CIFAR-10, Tiny Shakespeare) tonen aan dat de generalized sharpness consistent oscilleert rondom $2/\eta$ voor alle geteste niet-Euclidische methoden.

4. Resultaten

Progressive Sharpening: Voor alle geteste methoden ( $\ell_\infty$ , Block CD, Spectral GD, SignGD, Muon) neemt de generalized sharpness toe tijdens de training totdat deze de drempel $2/\eta$ bereikt.
Oscillatie bij de Rand: Zodra de drempel wordt bereikt, oscilleert de generalized sharpness rondom of lichtjes boven $2/\eta$, terwijl het verlies blijft dalen (maar niet monotoon).
Contrast met $\ell_2$ -scherpte: Bij methoden zoals $\ell_\infty$ -descent en Spectral GD blijft de standaard $\ell_2$ -scherpte (grootste eigenwaarde van de Hessian) ver onder de $2/\eta$-drempel. Dit betekent dat EoS voor deze methoden alleen zichtbaar is via de generalized sharpness, niet via de traditionele maatstaf.
Frank-Wolfe Sensitiviteit: De nauwkeurige schatting van de generalized sharpness vereist vaak meerdere restarts van het Frank-Wolfe algoritme, vooral voor $\ell_\infty$ en Block CD, maar minder voor Spectral GD.
Pre-EoS Oscillaties: Voor sommige niet-Euclidische methoden (zoals $\ell_\infty$ ) wordt een oscillerend regime waargenomen voordat de scherpte $2/\eta$ bereikt, wat niet voorkomt bij standaard Euclidische GD.

5. Betekenis en Conclusie

Dit paper biedt een cruciale theoretische uitbreiding van het begrip "Edge of Stability". Het toont aan dat de stabiliteit van training in diepe netwerken niet afhankelijk is van de specifieke keuze van de optimizer (zolang deze binnen het kader van niet-Euclidische GD valt), maar van de geometrie van de ruimte waarin de updates plaatsvinden.

De belangrijkste implicaties zijn:

Nieuwe Optimizers: Het verklaart het succes en gedrag van moderne, niet-standaard optimizers zoals Muon en SignGD, die anders als "zwarte dozen" zouden kunnen worden beschouwd.
Stabiliteitsanalyse: Het biedt een enkel, geometrie-bewust instrument (generalized sharpness) om de stabiliteit van elke gradiënt-gebaseerde optimizer te analyseren.
Toekomstig Onderzoek: Het paper identificeert een nieuw, tussenliggend regime (tussen stabiliteit en EoS) voor niet-Euclidische methoden en roept op tot verdere theoretische verklaringen voor de divergentie op kwadratische benaderingen bij willekeurige initialisaties.

Kortom, de auteurs bewijzen dat de "Edge of Stability" een fundamenteel kenmerk is van gradiëntgebaseerd leren in niet-Euclidische ruimten, en dat het gebruik van de juiste norm-gedreven scherptemaatstaf essentieel is om dit gedrag te begrijpen.