Adam Converges Without Any Modification On Update Rules

Each language version is independently generated for its own context, not a direct translation.

Titel: Warum Adam (der Optimierer) nicht immer abstürzt – Eine Geschichte über Geschwindigkeit und Geduld

Stellen Sie sich vor, Sie versuchen, einen Berg hinunterzugehen, um den tiefsten Punkt im Tal (die beste Lösung für ein Problem) zu finden. Sie tragen dabei einen Rucksack, der Ihnen hilft, den Weg zu merken. Das ist im Grunde, was Adam macht. Adam ist der beliebteste "Fahrer" (Algorithmus), der künstliche Intelligenzen (wie Chatbots oder Bilderkennungs-Systeme) trainiert. Er ist so etwas wie der Standard-Motor in der Welt des maschinellen Lernens.

Aber es gab ein großes Problem: Vor ein paar Jahren zeigten Forscher (Reddi et al.), dass dieser Motor unter bestimmten Bedingungen abstürzen kann. Das bedeutet, statt zum Tal zu laufen, läuft Adam immer weiter ins Unendliche und wird verrückt. Das war eine große Sorge für alle, die KI bauen.

Die große Entdeckung: Es liegt an der Reihenfolge!

Die Autoren dieses neuen Papiers haben etwas Spannendes herausgefunden. Der alte Beweis für den Absturz funktionierte nur, weil die Forscher zuerst die Einstellungen des Motors (die "Hyperparameter" $\beta_1$ und $\beta_2$ ) festlegten und danach das Problem (den Berg) suchten, bei dem der Motor abstürzte.

Das ist wie beim Autofahren: Jemand sagt: "Ich stelle das Gaspedal auf 100 % und die Bremsen auf 10 % fest. Jetzt suche ich mir eine Straße, auf der ich ungebremst gegen eine Wand fahre." Natürlich wird man dann einen Unfall haben!

In der echten Welt machen wir es aber anders: Wir haben zuerst das Problem (die Straße) und stellen dann den Motor darauf ein. Die Autoren zeigen: Wenn man den Motor richtig auf die Straße abstimmt, fährt Adam sicher und kommt immer an.

Die zwei wichtigsten Einstellungen: $\beta_1$ und $\beta_2$

Stellen Sie sich Adam als ein Auto mit zwei wichtigen Reglern vor:

$\beta_1$ (Der Geschwindigkeits-Speicher): Dieser Regler sagt dem Auto: "Vergiss nicht, wie schnell du gerade warst!" Er hilft, Kurven glatt zu nehmen.
$\beta_2$ (Der Gedulds-Speicher): Dieser Regler sagt: "Vergiss nicht, wie steil die Straße war!" Er hilft, die Bremsen (die Anpassung der Schritte) zu steuern.

Die Forscher haben herausgefunden, dass es eine kritische Grenze gibt:

Wenn $\beta_2$ (Geduld) zu klein ist: Das Auto ist zu ungeduldig. Es reagiert zu wild auf jede kleine Unebenheit. Wenn die Straße (das Problem) viele kleine Datenpakete (Mini-Batches) hat, wird das Auto verrückt und rast ins Unendliche. Ergebnis: Absturz.
Wenn $\beta_2$ (Geduld) groß ist: Das Auto ist geduldig. Es schaut sich die Straße über einen längeren Zeitraum an, bevor es reagiert. Es wird stabil. Ergebnis: Es erreicht das Tal (Konvergenz).

Die magische Formel für den Erfolg

Die Autoren haben eine einfache Regel gefunden, die in der Praxis funktioniert:
Wenn Sie Adam verwenden und es nicht gut läuft, erhöhen Sie $\beta_2$ .

Besonders wichtig: Je kleiner Ihre "Stichproben" (Batch-Größe) sind, desto mehr Geduld ( $\beta_2$ ) brauchen Sie.

Kleine Batch-Größe = Viel Rauschen auf der Straße = Braucht einen sehr geduldigen Fahrer (hohes $\beta_2$ , z. B. 0,999).
Große Batch-Größe = Glatte Straße = Man kann etwas weniger geduldig sein.

Warum ist das so wichtig?

Bisher dachten viele, Adam sei theoretisch "kaputt" und man müsse ihn komplett umbauen (neue Algorithmen erfinden), damit er sicher ist. Diese Arbeit zeigt: Nein, das Original-Adam ist in Ordnung! Es muss nur richtig eingestellt werden.

Die Forscher haben eine Art "Landkarte" erstellt:

Es gibt einen blauen Bereich (sicher): Hier fährt Adam sicher zum Ziel.
Es gibt einen roten Bereich (gefährlich): Hier kracht Adam gegen die Wand.
Die Grenze zwischen Blau und Rot hängt davon ab, wie viele Daten Sie pro Schritt verarbeiten.

Fazit für den Alltag

Wenn Sie also ein KI-Modell trainieren und es scheint, als würde es nicht lernen oder explodieren:

Schauen Sie nicht sofort auf den Code, um ihn zu ändern.
Schauen Sie auf Ihre Einstellungen.
Machen Sie $\beta_2$ größer (z. B. von 0,9 auf 0,99 oder 0,999), besonders wenn Sie mit kleinen Datenpaketen arbeiten.

Das ist wie bei einem Sportwagen: Wenn Sie auf einer rutschigen Straße fahren, müssen Sie vorsichtiger sein und die Kontrolle über das Auto behalten. Mit den richtigen Einstellungen ist Adam der beste Fahrer für die KI-Welt – er muss nicht repariert werden, er muss nur richtig gelenkt werden.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Der Adam-Optimierer ist der De-facto-Standard für das Training neuronaler Netze, einschließlich großer Sprachmodelle (LLMs). Dennoch hat Reddi et al. [2018] gezeigt, dass Adam unter bestimmten Bedingungen divergieren kann. Dies hat zu einer breiten Skepsis geführt und zur Entwicklung zahlreicher Varianten (wie AMSGrad oder AdaBound) geführt, die die Update-Regeln modifizieren, um Konvergenz zu garantieren.

Das zentrale Problem, das dieses Paper adressiert, ist die Diskrepanz zwischen der theoretischen Divergenz und der praktischen Erfolgsgeschichte von Adam. In der Praxis wird Adam oft mit Standard-Hyperparametern (z. B. $\beta_1=0.9, \beta_2=0.999$ ) erfolgreich eingesetzt, obwohl diese theoretisch in den von Reddi et al. identifizierten Divergenzbereich fallen.

Die Autoren identifizieren einen entscheidenden Unterschied in der Annahme:

Reddi et al. [2018]: Wählen die Hyperparameter $(\beta_1, \beta_2)$ vor der Wahl des Problems (bzw. der Anzahl der Mini-Batches $n$ ). Sie konstruieren für jedes Paar $(\beta_1, \beta_2)$ ein spezifisches Problem, das zur Divergenz führt.
Praxis: Das Problem (und damit $n$ bzw. die Batch-Größe) ist fest, und die Hyperparameter werden danach angepasst.

Die Fragestellung lautet daher: Kann Adam ohne Modifikation der Update-Regeln konvergieren, wenn das Problem festgelegt ist und die Hyperparameter entsprechend gewählt werden?

2. Methodik und theoretischer Rahmen

Die Autoren analysieren das Verhalten von Adam über den gesamten $(\beta_1, \beta_2)$ -Parameterraum unter der Annahme eines festen Problems (fixe Anzahl $n$ von Mini-Batches).

Annahmen:
- $L$ -glatte Zielfunktionen (Assumption 2.1).
- Eine verallgemeinerte Varianzbedingung (Assumption 2.2), die schwächer ist als die übliche „bounded variance"-Annahme. Sie erlaubt es, dass die Varianz des Gradienten mit dem Gradientennorm wächst (abhängig von Parametern $D_0, D_1$ ).
- Keine Annahme über beschränkte Gradienten (unbounded gradients), was für die Analyse der Divergenz entscheidend ist.
Algorithmen: Die Analyse deckt sowohl Adam mit „With-Replacement"-Sampling (Algorithmus 1) als auch mit „Random Shuffling" (Algorithmus 2) ab.
Kernidee der Konvergenzbeweise:
- Die Autoren untersuchen das stochastische nichtlineare dynamische System von Adam.
- Ein Schlüsselresultat ist die Analyse des Terms $1/\sqrt{v_k}$ , wobei $v_k$ der zweite Moment ist.
- Sie zeigen, dass bei großem $\beta_2$ der Term $1/\sqrt{v_k}$ um seinen Erwartungswert $1/\sqrt{E[v_k]}$ konzentriert. Dies stabilisiert das System und stellt sicher, dass die erwartete Update-Richtung in den Dualkegel des negativen Gradienten fällt (d.h. eine Abstiegsrichtung ist).
- Bei kleinem $\beta_2$ versagt diese Konzentration, und $v_k$ kann nahe Null fallen, was zu instabilem Verhalten und Divergenz führt.
- Zur Handhabung des ersten Moments $m_k$ (der historische Signale enthält) wird eine Potentialfunktion $f(z_k)$ eingeführt, die historische Signale bis zur $(k-n)$ -ten Iteration kompensiert.

3. Wichtige Beiträge und Ergebnisse

A. Phasenübergang (Phase Transition)

Das Paper zeigt erstmals einen rigorosen Phasenübergang im $(\beta_1, \beta_2)$ -2D-Raum:

Konvergenz-Region (Sicherer Bereich): Wenn $\beta_2$ $β_{2}$ groß genug ist (über einem problemabhängigen Schwellenwert $\beta_2^*$ $β_{2}^{*}$ ) und $\beta_1 < \sqrt{\beta_2}$ $β_{1} < β_{2}$ gilt, konvergiert Adam.
- Im „realisierbaren Fall" ( $D_0=0$ ) konvergiert Adam zu den kritischen Punkten.
- Im „nicht-realisierbaren Fall" ( $D_0>0$ ) konvergiert Adam in eine Umgebung der kritischen Punkte.
- Der Schwellenwert $\beta_2^*$ hängt von $n$ ab: $\beta_2 \ge 1 - O(\frac{1-\beta_1^n}{n^5})$ . Das bedeutet: Je kleiner die Batch-Größe (größeres $n$ ), desto größer muss $\beta_2$ gewählt werden.
Divergenz-Region (Gefährlicher Bereich): Für kleine $\beta_2$ $β_{2}$ existiert eine Region von $(\beta_1, \beta_2)$ $(β_{1}, β_{2})$ -Kombinationen, in der Adam gegen Unendlich divergiert (sowohl Iteraten als auch Gradienten).
- Diese Divergenzregion wächst mit $n$ und nähert sich asymptotisch dem gesamten Bereich $[0,1)^2$ , wenn $n \to \infty$ . Dies erklärt, warum Reddi et al. [2018] Divergenz für beliebige $\beta_1, \beta_2$ finden konnten (da sie $n$ variabel ließen).

B. Problemabhängige Grenzen

Im Gegensatz zu früheren Arbeiten, die problemunabhängige Bedingungen suchten, zeigen die Autoren, dass die kritische Grenze $(\beta_1^*, \beta_2^*)$ problemabhängig ist, insbesondere abhängig von der Batch-Größe.

Erkenntnis: Bei kleinen Batch-Größen muss $\beta_2$ erhöht werden, um die Konvergenz zu sichern.

C. Praktische Empfehlungen für Hyperparameter-Tuning

Basierend auf den theoretischen Ergebnissen geben die Autoren konkrete Ratschläge:

Wenn Adam nicht gut funktioniert (insbesondere bei kleinen Batch-Größen), sollte $\beta_2$ erhöht werden (invers zur Batch-Größe), um den Schwellenwert $\beta_2^*$ zu überschreiten.
Anschließend sollte $\beta_1 < \sqrt{\beta_2}$ gewählt werden.
Diese Empfehlung wird durch empirische Studien im Bereich LLM-Pre-Training (z. B. Llama, DeepSeek) gestützt, die zeigen, dass höhere $\beta_2$ -Werte (z. B. 0.999 statt 0.95) bei kleinen Batches die Leistung signifikant verbessern.

D. Vergleich mit Reddi et al. [2018]

Das Paper klärt auf, dass es keinen Widerspruch gibt:

Reddi et al. zeigen Divergenz, wenn $n$ an $(\beta_1, \beta_2)$ angepasst wird (asymptotische Charakterisierung für $n \to \infty$ ).
Die Autoren zeigen Konvergenz, wenn $(\beta_1, \beta_2)$ an ein festes $n$ angepasst wird (nicht-asymptotische Charakterisierung).

4. Signifikanz und Bedeutung

Theoretische Rechtfertigung von Vanilla Adam: Das Paper liefert den ersten rigorosen Beweis, dass der originale Adam-Algorithmus ohne Modifikation konvergieren kann, sofern die Hyperparameter problemabhängig gewählt werden. Dies entkräftet die Notwendigkeit, die Update-Regeln grundlegend zu ändern (wie bei AMSGrad), um Konvergenz zu garantieren.
Erster Phasenübergang im $(\beta_1, \beta_2)$ -Raum: Es ist die erste Arbeit, die eine Divergenz-Konvergenz-Phase-Transition in der 2D-Ebene der Hyperparameter für Adam beschreibt.
Praktische Relevanz für LLMs: Die Ergebnisse bieten eine theoretische Grundlage für die in der Praxis beobachteten Erfolge von Adam bei großen Sprachmodellen. Sie erklären, warum das Erhöhen von $\beta_2$ bei kleinen Batch-Größen (ein häufiges Szenario beim Training von LLMs) notwendig ist, um Divergenz zu vermeiden und die Konvergenz zu beschleunigen.
Methodische Innovation: Die Beweistechniken, insbesondere die Konzentrationsanalyse von $1/\sqrt{v_k}$ ohne Beschränkung der Gradienten und die Verwendung von Potentialfunktionen zur Entkopplung historischer Signale, sind neuartig und könnten auf andere adaptive Gradientenverfahren anwendbar sein.

Fazit

Das Paper schließt eine wichtige Lücke zwischen Theorie und Praxis beim Adam-Optimierer. Es zeigt, dass die Divergenzproblematik kein inhärenter Fehler des Algorithmus ist, sondern eine Folge falscher Hyperparameter-Wahl im Verhältnis zum Problem (Batch-Größe). Durch die richtige Wahl von $\beta_2$ (insbesondere bei kleinen Batches) kann Adam garantiert konvergieren, was die Dominanz von Vanilla Adam in der modernen KI-Forschung theoretisch untermauert.

Adam Converges Without Any Modification On Update Rules

1. Problemstellung

2. Methodik und theoretischer Rahmen

3. Wichtige Beiträge und Ergebnisse

A. Phasenübergang (Phase Transition)

B. Problemabhängige Grenzen

C. Praktische Empfehlungen für Hyperparameter-Tuning

D. Vergleich mit Reddi et al. [2018]

4. Signifikanz und Bedeutung

Fazit

Mehr davon

The Influence of Exclusion Zones on the Coexistence of Predator and Prey with an Allee Effect

Cominuscule subvarieties of flag varieties

A coherent theory of tent spaces and homogeneous Triebel-Lizorkin spaces

Morita equivalence of Nijenhuis structures

Quantum metrics from length functions on étale groupoids