Adam Converges Without Any Modification On Update Rules

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een enorme, complexe berg wilt beklimmen. Je hebt een slimme klimhulp bij je, genaamd Adam. Deze hulp is de standaard voor het beklimmen van de hoogste toppen van de kunstmatige intelligentie (zoals de grote taalmodellen die we vandaag de dag gebruiken). Adam is geweldig: hij past zijn stappen aan, onthoudt waar hij al geweest is en probeert de snelste route te vinden.

Maar er was een groot probleem. Een paar jaar geleden ontdekten wetenschappers dat Adam soms niet naar de top gaat, maar juist de afgrond in rent. Ze bouwden een speciaal, kunstmatig landschap waar Adam vastliep. Dit zorgde voor veel ongerustheid: "Is onze slimme klimhulp wel veilig?"

Dit nieuwe paper van onderzoekers van de Chinese Universiteit van Hong Kong (Shenzhen) zegt: "Wacht even, er is een misverstand!"

Hier is wat ze hebben ontdekt, vertaald in simpele taal:

1. Het Grote Misverstand: De Volgorde van Dingen

De oude waarschuwing (van Reddi et al.) was als volgt: "Kies eerst een paar instellingen voor je klimhulp, en daarna zoeken we een berg die ervoor zorgt dat hij crasht."

In de praktijk: Mensen doen het andersom. Eerst kiezen ze een echte berg (een echt probleem, zoals het leren van een taal), en daarna proberen ze de beste instellingen voor hun klimhulp te vinden.

De onderzoekers zeggen: "Als je eerst de berg kiest en dan de instellingen aanpast, werkt Adam gewoon perfect!" Het oude probleem bestond alleen omdat ze de instellingen vastzetten voordat ze wisten welke berg ze beklommen.

2. De Twee Werelden: Veilig en Gevaarlijk

De onderzoekers hebben een kaart getekend van alle mogelijke instellingen. Ze ontdekten dat er twee grote gebieden zijn:

Het Veilige Blauwe Gebied (Convergentie):
Als je de instelling voor de 'herinnering' (noem het β2) hoog genoeg zet, is Adam veilig. Hij klimt rustig naar de top.
- De Metafoor: Stel je voor dat β2 de 'remkracht' is. Als je de rem goed afstelt, glijdt Adam niet uit. Hoe kleiner je steekproef (batch size) is (dus hoe meer kleine stapjes je maakt), hoe strakker je die rem moet zetten.
Het Gevaarlijke Rode Gebied (Divergentie):
Als je de instelling β2 te laag zet, kan Adam in de afgrond vallen. Hij begint dan steeds harder te rennen in de verkeerde richting en wordt oneindig groot.
- De Metafoor: Dit is alsof je de rem van je fiets loslaat terwijl je een steile helling afdaalt. Je raakt de controle kwijt en vliegt weg.

3. De "Fase-overgang" (De Magische Grens)

Het meest spannende is dat ze een magische grens hebben gevonden.

Als je β2 onder deze grens zit: Gevaar! Adam crasht.
Als je β2 boven deze grens zit: Veilig! Adam convergeert.

Deze grens hangt af van de berg die je beklimt (het probleem) en vooral van hoe groot je stapjes zijn (de batch size).

Kleine stapjes (kleine batch size)? Dan moet je β2 heel hoog zetten (dicht bij 1, bijvoorbeeld 0.999).
Grote stapjes (grote batch size)? Dan mag β2 iets lager.

4. Wat betekent dit voor de echte wereld?

Vroeger dachten mensen: "Adam is onbetrouwbaar, we moeten een nieuwe versie maken."
Deze paper zegt: "Nee, de originele Adam is prima, je moet alleen je remmen (β2) goed afstellen!"

Advies voor AI-ontwikkelaars: Als je merkt dat je AI-model niet goed leert, probeer dan β2 omhoog te draaien, vooral als je met kleine datasets werkt.
Resultaat: Dit verklaart waarom grote bedrijven (zoals die Llama en GPT maken) al jaren succes hebben met Adam, ook al leek de theorie te zeggen dat het zou falen. Ze hebben per ongeluk de juiste instellingen gebruikt!

Samenvattend

Stel je voor dat Adam een auto is.

De oude theorie zei: "Deze auto kan ontploffen!" (maar ze testten het alleen met een slechte brandstof en een verkeerde weg).
Deze nieuwe paper zegt: "De auto is veilig, zolang je maar de juiste brandstof (β2) gebruikt voor de weg die je rijdt."

Als je de brandstof (β2) hoog genoeg houdt, rijdt Adam veilig en snel naar de top, zonder dat je de motor hoeft te verbouwen. Het is een geruststellend nieuws voor iedereen die kunstmatige intelligentie bouwt: Je hoeft je favoriete hulpmiddel niet te veranderen, je moet alleen weten hoe je hem afstelt.

Each language version is independently generated for its own context, not a direct translation.

Titel: Adam Convergeert Zonder Wijziging aan de Update-regels

Auteurs: Yushun Zhang, Bingran Li, Congliang Chen, Zhi-Quan Luo, Ruoyu Sun (CUHK Shenzhen & Shenzhen Research Institute of Big Data).

1. Het Probleem

Adam is de standaardoptimalisatiealgoritme voor het trainen van neurale netwerken, inclusief grote taalmodellen (LLM's). Desondanks heeft het paper van Reddi et al. [2018] (winnaar van de ICLR 2018 Best Paper Award) een tegenvoorbeeld geleverd waarin Adam divergeert (niet convergeert) voor een breed scala aan hyperparameters. Dit heeft zorgen gewekt over de theoretische betrouwbaarheid van Adam in de praktijk.

Er bestaat echter een fundamenteel misverstand tussen deze theoretische bevinding en de praktijk:

Reddi et al. [2018]: Kies eerst de hyperparameters $(\beta_1, \beta_2)$ en construeer vervolgens een specifiek probleem (met een specifieke batchgrootte $n$ ) dat divergentie veroorzaakt. De probleemdefinitie verandert dus afhankelijk van de hyperparameters.
Praktijk: In echte toepassingen wordt het probleem (en de dataset/batchgrootte $n$ ) eerst vastgesteld, waarna de hyperparameters $(\beta_1, \beta_2)$ worden getuned.

De auteurs stellen de vraag: Kan Adam bewezen convergeren zonder de update-regels aan te passen, mits de hyperparameters correct worden gekozen voor een vast probleem?

2. Methodologie en Theoretisch Kader

De auteurs analyseren het gedrag van "vanilla" Adam (zonder modificaties zoals AMSGrad of AdaBound) onder twee steekproefstrategieën:

With-replacement sampling: Willekeurige steekproeven met teruglegging (Algorithm 1).
Random shuffling: Permutatie van de dataset per epoch (Algorithm 2).

Aannames:

De objectieve functie is een som van $n$ mini-batch functies (Empirical Risk Minimization).
De componentfuncties zijn $L$ -Lipschitz-glad (Assumptie 2.1).
De variantie van de gradiënten voldoet aan een "affine variance" voorwaarde (Assumptie 2.2), waarbij de variantie lineair kan groeien met de gradiëntnorm. Dit is een zwakkere en realistischere aanname dan de gebruikelijke "bounded variance" aanname.
Cruciaal: Er wordt geen aanname gemaakt dat de gradiënten begrensd zijn (bounded gradients). Dit is essentieel om divergentie daadwerkelijk te kunnen bewijzen.

Kerninzicht:
De auteurs identificeren dat het gedrag van Adam sterk afhankelijk is van de grootte van $\beta_2$ (de tweede-orde momentum parameter). Ze analyseren de concentratie van de term $1/\sqrt{v_k}$ (waarbij $v_k$ de tweede-orde moment is).

Als $\beta_2$ groot is, stabiliseert $v_k$ en gedraagt $1/\sqrt{v_k}$ zich voorspelbaar rondom zijn verwachtingswaarde.
Als $\beta_2$ klein is, kan $v_k$ willekeurig dicht bij 0 komen, wat leidt tot extreme schommelingen in de update-stap en mogelijk divergentie.

3. Belangrijkste Bijdragen

A. Convergentie voor Grote $\beta_2$

De auteurs bewijzen dat Adam convergeert naar kritieke punten (of een omgeving daarvan) als:

$\beta_1 < \sqrt{\beta_2}$ .
$\beta_2$ $β_{2}$ groter is dan een probleemafhankelijke drempel $\gamma(n)$ $γ (n)$ .
- Deze drempel is ongeveer $\gamma(n) \approx 1 - O(\frac{1-\beta_1^n}{n^5})$ .
- Conclusie: Hoe kleiner de batchgrootte (dus hoe groter $n$ ), hoe groter $\beta_2$ moet zijn om convergentie te garanderen.
- In het "realisabele geval" ( $D_0=0$ , perfecte interpolatie) convergeert Adam exact naar kritieke punten. In het "niet-realisabele geval" ( $D_0 > 0$ ) convergeert het naar een omgeving van kritieke punten, waarvan de grootte afneemt naarmate $\beta_2 \to 1$ .

B. Divergentie voor Kleine $\beta_2$

De auteurs construeren een tegenvoorbeeld waarbij Adam divergeert naar oneindig als $\beta_2$ te klein is.

Voor elke $n \ge 3$ en bepaalde probleemparameters bestaat er een region van $(\beta_1, \beta_2)$ waarbinnen Adam divergeert.
Deze "divergentiezone" breidt zich uit naarmate $n$ toeneemt (d.w.z. bij kleinere batchgroottes).
Dit bewijst dat de keuze van $\beta_2$ niet alleen de convergentiesnelheid beïnvloedt, maar fundamenteel bepaalt of het algoritme wel of niet divergeert.

C. Fase-overgang (Phase Transition)

Het paper introduceert het concept van een fase-overgang in het $(\beta_1, \beta_2)$ -vlak:

Er bestaat een kritieke grens $(\beta_1^*, \beta_2^*)$ die de overgang markeert tussen divergentie en convergentie.
Dit is de eerste keer dat zo'n 2D-fase-overgang voor Adam in de literatuur wordt gerapporteerd.
De grens is probleemafhankelijk (afhankelijk van $n$ en de dataset), in tegenstelling tot eerdere werken die een universele grens veronderstelden.

4. Resultaten en Experimentele Validatie

Theoretische Bewijzen: De auteurs leveren niet-asymptotische convergentiebewijzen voor zowel met teruglegging als random shuffling. De convergentiesnelheid is $O(\frac{\log T}{\sqrt{T}})$ , vergelijkbaar met SGD.
Experimenten:
- MNIST & CIFAR-10: Grid-search experimenten tonen aan dat bij grote $\beta_2$ (bijv. 0.999) Adam goed convergeert voor een breed scala aan $\beta_1$ . Bij kleine $\beta_2$ treedt divergentie op.
- LLM Pre-training: De theorie wordt ondersteund door empirische studies in de LLM-literatuur (bijv. GPT-3, Llama). Deze studies tonen aan dat het verhogen van $\beta_2$ (bijv. van 0.95 naar 0.99 of 0.999) essentieel is voor succesvol trainen met kleine batchgroottes.
Visualisatie: Figuren in het paper tonen een blauwe "veilige zone" (convergentie) en een rode "gevaarzone" (divergentie) in het $(\beta_1, \beta_2)$ -vlak, waarbij de grens verschuift met de batchgrootte.

5. Betekenis en Praktische Implicaties

Verdediging van Vanilla Adam: Het paper weerlegt de angst dat Adam fundamenteel defect is. Het toont aan dat Adam zonder enige wijziging aan de update-regels convergeert, mits de hyperparameters correct worden gekozen voor het specifieke probleem.
Richtlijnen voor Hyperparameter Tuning:
- Als Adam niet goed werkt (divergentie of slechte prestaties), moet men $\beta_2$ verhogen, vooral bij kleine batchgroottes.
- De relatie is omgekeerd evenredig met de batchgrootte: kleiner batch $\rightarrow$ grotere $\beta_2$ nodig.
- De voorwaarde $\beta_1 < \sqrt{\beta_2}$ moet worden gerespecteerd.
Theoretische Doorbraak: Het paper biedt de eerste rigoureuze theoretische onderbouwing voor de fase-overgang van divergentie naar convergentie in Adam, gebaseerd op de interactie tussen $\beta_1$ , $\beta_2$ en de batchgrootte $n$ .
Invloed op LLM's: De bevindingen verklaren waarom moderne LLM-trainers vaak $\beta_2$ verhogen (naar 0.99 of hoger) bij het gebruik van kleine batches, en bieden een theoretisch fundament voor deze praktijk.

Conclusie:
De auteurs tonen aan dat de divergentie van Adam in het paper van Reddi et al. een artefact was van de volgorde van het kiezen van hyperparameters versus het probleem. In de praktijk, waar het probleem eerst vaststaat, kan Adam gegarandeerd convergeren door $\beta_2$ voldoende groot te kiezen (afhankelijk van de batchgrootte), zonder de algoritme-regels te hoeven aanpassen.

Adam Converges Without Any Modification On Update Rules

1. Het Grote Misverstand: De Volgorde van Dingen

2. De Twee Werelden: Veilig en Gevaarlijk

3. De "Fase-overgang" (De Magische Grens)

4. Wat betekent dit voor de echte wereld?

Samenvattend

Titel: Adam Convergeert Zonder Wijziging aan de Update-regels

1. Het Probleem

2. Methodologie en Theoretisch Kader

3. Belangrijkste Bijdragen

A. Convergentie voor Grote β2\beta_2β2​

B. Divergentie voor Kleine β2\beta_2β2​

C. Fase-overgang (Phase Transition)

4. Resultaten en Experimentele Validatie

5. Betekenis en Praktische Implicaties

Meer zoals dit

The Influence of Exclusion Zones on the Coexistence of Predator and Prey with an Allee Effect

Cominuscule subvarieties of flag varieties

A coherent theory of tent spaces and homogeneous Triebel-Lizorkin spaces

Morita equivalence of Nijenhuis structures

Quantum metrics from length functions on étale groupoids

A. Convergentie voor Grote $\beta_2$

B. Divergentie voor Kleine $\beta_2$