Adam Converges Without Any Modification On Update Rules

Each language version is independently generated for its own context, not a direct translation.

🎯 核心となる話：「Adam は本当に壊れているのか？」

1. 過去の「悲劇的な噂」

以前、「Reddi さん」という研究者たちが、Adam というアルゴリズムには致命的な欠陥があることを発見しました。彼らは**「特定の条件（パラメータ）を選んだ後、その条件に合う『最悪のシナリオ（問題）』を無理やり作り出して」**、「ほら、Adam は発散して（無限大に膨れ上がって）失敗するよ！」と証明しました。

これにより、AI 界隈では「Adam は理論的に危険だ」という噂が広まり、修正版（AMSGrad など）が次々と作られました。

2. 現実との「ズレ」

しかし、実際の AI 開発者（LLM を作る人たち）は、**「まず学習させたい問題（データ）を決めて、その後に Adam の設定（パラメータ）を調整する」**という手順で使っています。

ここで大きな**「ズレ」**が見つかりました。

過去の研究： 「まず設定を決めて、それに合う最悪の問題を探す」
実際の現場： 「まず問題を決めて、それに合う良い設定を探す」

この論文の著者たちは、**「過去の研究は『最悪のケース』を無理やり作っていたに過ぎず、実際の『固定された問題』に対しては、Adam は正しく機能する」**と指摘しました。

🎛️ 鍵となる「2 つのつまみ」：β1 と β2

Adam には「β1（ベータワン）」と「β2（ベータツー）」という 2 つの重要な設定値（つまみ）があります。これを**「車の運転」**に例えてみましょう。

β2（ベータツー）： **「慣性（イナーシャ）」**の強さ。
- 大きくすると（0.999 など）、車の動きが滑らかになり、過去の動きを長く記憶します。
- 小さくすると、車の動きがギクシャクして、すぐに方向転換しようとしてしまいます。
β1（ベータワン）： **「現在の勢い」**の重み。

🌊 発見された「相転移（フェーズトランジション）」

この論文が最もすごいと指摘したのは、**「β2 の値によって、Adam の振る舞いが劇的に変わる」**という事実です。

🔴 危険な領域（β2 が小さい）：
設定を間違えると、Adam は**「暴走」**します。まるで制御不能になった車のように、ゴールから遠ざかり、無限に遠くへ行ってしまいます（発散）。
🔵 安全な領域（β2 が大きい）：
β2 を十分に大きく設定すれば、Adam は**「安定してゴールに到着」**します。

つまり、**「β2 を大きくすれば、Adam は修正なしで完璧に動く」**ことが証明されたのです。

🚗 具体的な運転のヒント（バッチサイズとの関係）

この研究から、実務家への具体的なアドバイスが生まれました。

「データの量（バッチサイズ）によって、β2 を変えるべきだ」

小さなバッチ（狭い道）：
データを一度に少量しか見ない場合、ノイズ（揺れ）が激しくなります。この時は、**β2 をもっと大きく（0.999 など）**設定して、車の動きを滑らかにし、暴走を防ぐ必要があります。
大きなバッチ（広い道）：
一度に多くのデータを見る場合は、ノイズが少ないので、β2 を少し小さくしても大丈夫です。

**「バッチサイズが小さければ、β2 を上げる」**というシンプルなルールが、理論的に裏付けられました。

🌟 まとめ：なぜこれが重要なのか？

Adam は「壊れていない」：
過去の「発散する」という警告は、特殊な「最悪のシナリオ」の話でした。実際の AI 開発（LLM など）で使われている設定（β2=0.999 など）は、実は**「安全な領域」**にあり、理論的にも正しいことが証明されました。
修正は不要：
複雑な新しいアルゴリズムを作る必要はありません。**「既存の Adam を、適切な設定（特に大きな β2）で使う」**だけで、安定して学習できます。
LLM 開発への貢献：
現在、GPT や Llama などの巨大な言語モデルを訓練する際、この「β2 を大きくする」という知見が、より良い性能を出すために実際に使われています。

🎭 一言で言うと

「Adam は、設定を間違えなければ、もともと完璧なドライバーだった。過去の『事故報告』は、わざと曲がりくねった道でテストしたから起きた話だったんだ。実際の直線道路（固定された問題）では、β2 という『慣性』を強くすれば、誰にでも安全にゴールできるよ！」

この論文は、AI の基礎技術である Adam に対する「恐怖」を取り払い、その「真の強さ」を理論的に保証した、非常に重要な研究なのです。

Each language version is independently generated for its own context, not a direct translation.

この論文「Adam Converges Without Any Modification On Update Rules（更新則を一切変更せず、Adam は収束する）」は、深層学習で広く使用されている最適化アルゴリズム「Adam」の理論的収束性に関する画期的な研究です。

従来の研究（Reddi et al., 2018）では、特定の条件下で Adam が発散することが示され、その実用性への懸念が生じていました。しかし、この論文は「問題（データセットやバッチサイズ）を固定した上でハイパーパラメータを調整する」という実用的な設定において、Adam は適切なハイパーパラメータ選択により何の変更も加えずに収束することを理論的に証明しました。

以下に、論文の技術的要点を詳細にまとめます。

1. 研究の背景と問題提起

背景: Adam は大規模言語モデル（LLM）を含む深層学習のデファクトスタンダードです。
既存の課題: Reddi et al. [2018] は、Adam が特定のハイパーパラメータ（ $\beta_1, \beta_2$ ）と問題設定の組み合わせで発散する反例を提示しました。これにより、Adam の理論的保証に対する疑問が生じ、AMSGrad や AdaBound などの修正版アルゴリズムが提案されました。
矛盾点: 実務では、Adam は修正なしで非常に高い性能を発揮しています。さらに、実務で使われるデフォルト設定（例： $\beta_1=0.9, \beta_2=0.999$ ）は、Reddi et al. が示した「発散領域」に含まれているにもかかわらず、実際には収束しています。
核心となるミスマッチ:
- 理論（Reddi et al.）: まずハイパーパラメータ $(\beta_1, \beta_2)$ を固定し、その後に発散する問題（ミニバッチ数 $n$ ）を構築する。つまり、 $n$ がパラメータに依存して変化する。
- 実務: まず問題（データセットとバッチサイズ、つまり $n$ ）を固定し、その後に $(\beta_1, \beta_2)$ をチューニングする。
- 仮説: 問題が固定された場合、適切な $(\beta_1, \beta_2)$ を選べば Adam は収束するのではないか？

2. 主要な貢献と理論的発見

この論文は、Adam の挙動が $(\beta_1, \beta_2)$ の 2 次元平面において**「発散」と「収束」の位相転移（Phase Transition）**を起こすことを初めて示しました。

A. 収束条件（大きな $\beta_2$ の場合）

定理: バッチサイズ（ $n$ $n$ ）が固定された問題クラスに対して、 $\beta_2$ $β_{2}$ が十分に大きく、かつ $\beta_1 < \sqrt{\beta_2}$ $β_{1} < β_{2}$ を満たす場合、Adam は修正なしで収束します。
- 実現可能ケース（ $D_0=0$ ）: 臨界点（勾配が 0）に収束します。
- 非実現可能ケース（ $D_0>0$ ）: 臨界点の近傍に収束します（ノイズレベルに依存）。
閾値: $\beta_2$ $β_{2}$ の下限閾値 $\gamma_1(n)$ $γ_{1} (n)$ は問題依存であり、バッチサイズが小さい（ $n$ が大きい）ほど、より大きな $\beta_2$ が必要になります。
- 具体的には、 $\beta_2 \ge 1 - O(\frac{1-\beta_1^n}{n^5})$ 程度の条件が必要です。

B. 発散条件（小さな $\beta_2$ の場合）

定理: バッチサイズ $n \ge 3$ に対して、 $\beta_2$ が十分に小さい領域では、任意の $\beta_1$ に対して Adam が無限大に発散する問題インスタンスが存在します。
領域の拡大: 発散する領域は $n$ が増加する（バッチサイズが減少する）につれて拡大し、 $n \to \infty$ で $(\beta_1, \beta_2) \in [0, 1)^2$ 全体に広がります。これは Reddi et al. の結果を非漸近的な設定で再解釈・強化したものです。

C. 位相転移と問題依存性

臨界境界: 発散と収束を分ける臨界境界 $(\beta_1^*, \beta_2^*)$ が存在し、これは問題（特にバッチサイズ）に依存します。
バッチサイズとの関係: 小バッチサイズ（ $n$ が大きい）では、発散を避けるために $\beta_2$ を大きくする必要があることを示唆しています。これは LLM の事前学習における実証的な知見（小バッチでは $\beta_2$ を 0.999 などに上げるのが有効）と一致します。

3. 手法と証明の鍵となるアイデア

収束証明における最大の難関は、分母に現れる確率的な変数 $v_k$ （2 次モーメント）と、その逆数 $\frac{1}{\sqrt{v_k}}$ の挙動を解析することです。特に $v_k$ が 0 に近づく可能性を考慮しつつ、勾配が有界でない場合でも証明する必要があります。

鍵となる技術的洞察

集中効果（Concentration Effect）:
- $\beta_2$ が大きい場合、 $v_k$ の変化が緩やかになり、 $\frac{1}{\sqrt{v_k}}$ がその期待値 $\frac{1}{\sqrt{E[v_k]}}$ の周りに強く集中（concentrate）することを証明しました。
- これにより、確率的な非線形ダイナミクスが安定化し、更新方向が真の勾配方向と一致するようになります。
- 証明には、Bernstein の不等式を用いた、幾何級数的な重み付けを持つ確率変数の集中不等式の導出が含まれます。
ポテンシャル関数の構成:
- 1 次モーメント $m_k$ が持つ履歴情報による更新方向の歪みを補正するため、新しいポテンシャル関数 $f(z_k)$ を導入しました。
- ここで $z_k = \frac{x_k - \beta_1^n x_{k-n}}{1 - \beta_1^n}$ であり、これにより $n$ 回前の履歴信号を相殺し、収束解析を容易にしています。
勾配有界性の仮定の排除:
- 従来の多くの理論では「勾配が有界」という強い仮定を置いていましたが、この論文ではそれを排除しました。これにより、勾配が無限大に発散しうる状況でも、 $\beta_2$ の選択次第で収束するか発散するかが明確に区別されました。

4. 実験結果

MNIST と CIFAR-10 でのグリッドサーチ:
- 異なる $(\beta_1, \beta_2)$ の組み合わせで実験を行った結果、理論的に予測された「収束領域（青）」と「発散領域（赤）」が明確に観測されました。
- 特に、 $\beta_2$ が小さい領域では損失が急増し、 $\beta_2$ が大きい領域では安定して収束することが確認されました。
LLM 学習への適用:
- 小バッチサイズでの LLM 学習において、 $\beta_2$ を大きく設定することで性能が向上するという既存の実証研究（Zhang et al., 2024a; Porian et al., 2024 など）を、この理論が裏付けていることを示しました。

5. 意義と結論

理論的意義:
- Adam が「修正なしで収束する」ことを初めて厳密に証明しました。
- 発散と収束の境界が問題依存（特にバッチサイズ依存）であることを明らかにし、Reddi et al. の「発散する」という結論が、問題とパラメータの選択順序のミスマッチによるものであることを示しました。
- 勾配有界性を仮定しない、より一般的な条件下での Adam の解析を行いました。
実用的な指針:
- Adam がうまくいかない場合（特に小バッチ学習時）、 $\beta_2$ をバッチサイズに反比例して大きく調整し、 $\beta_1 < \sqrt{\beta_2}$ を満たすように設定することが推奨されます。
- これは、LLM の事前学習などで広く採用されている「 $\beta_2$ を 0.999 などに設定する」というプラクティスの理論的根拠を提供しています。

結論として、 この論文は Adam 最適化アルゴリズムの「なぜ動くのか（そしていつ壊れるのか）」に対する包括的な理解を提供し、実務におけるハイパーパラメータチューニングの指針を理論的に裏付けた重要な成果です。

Adam Converges Without Any Modification On Update Rules

🎯 核心となる話：「Adam は本当に壊れているのか？」

1. 過去の「悲劇的な噂」

2. 現実との「ズレ」

🎛️ 鍵となる「2 つのつまみ」：β1 と β2

🌊 発見された「相転移（フェーズトランジション）」

🚗 具体的な運転のヒント（バッチサイズとの関係）

🌟 まとめ：なぜこれが重要なのか？

🎭 一言で言うと

1. 研究の背景と問題提起

2. 主要な貢献と理論的発見

A. 収束条件（大きな β2\beta_2β2​ の場合）

B. 発散条件（小さな β2\beta_2β2​ の場合）

C. 位相転移と問題依存性

3. 手法と証明の鍵となるアイデア

鍵となる技術的洞察

4. 実験結果

5. 意義と結論

関連論文

The Influence of Exclusion Zones on the Coexistence of Predator and Prey with an Allee Effect

Cominuscule subvarieties of flag varieties

A coherent theory of tent spaces and homogeneous Triebel-Lizorkin spaces

Morita equivalence of Nijenhuis structures

Quantum metrics from length functions on étale groupoids

A. 収束条件（大きな $\beta_2$ の場合）

B. 発散条件（小さな $\beta_2$ の場合）