The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の例え：同じ材料でも、料理人の「癖」が違う

想像してください。同じ食材（学習データ）とレシピ（ニューラルネットワークの構造）があるとして、2 人の料理人がいます。

料理人 A（従来の方法）： 慎重に、均等に味付けをする人。
料理人 B（新しい方法）： 勢いよく、特定のスパイスに偏って味付けをする人。

この論文は、「Adam」や「Muon」という最新の料理人（最適化アルゴリズム）が、実は「特定の味（マージン）」を極端に好む癖があることを突き止めました。

Adamは、**「一番薄い味（最小のスパイス量）」**を基準に、全体のバランスを取ろうとする癖があります。
Muonは、**「一番大きな塊（行列の大きさ）」**を基準に、全体を整えようとする癖があります。

この「癖」こそが、AI が未学習のデータに対してもうまく機能する（汎化性能が高い）秘密の鍵だったのです。

🧗‍♂️ 登山の例え：霧の中での下山

AI の学習は、霧の深い山を下るようなものです。頂上（正解）は見えず、足元（勾配）だけを見て進みます。

従来の考え方（勾配降下法）： 最も急な斜面を下る。すると、山頂から最も遠く離れた「安全地帯」にたどり着きやすいことが知られていました。
この論文の発見：
- Adamという登山者は、**「最も急な崖（ℓ∞ノルム）」を避けて、「最も平らな道」**を探すように下山します。結果として、特定の形をした安全地帯に落ち着きます。
- Muonという登山者は、**「大きな岩山（スペクトルノルム）」**を基準に道を選びます。結果として、また別の形の安全地帯に落ち着きます。

つまり、「どの登山道具（オプティマイザ）を使うか」によって、最終的にたどり着く「安全地帯（解）」の形が決まってしまうのです。

🎯 何がすごいのか？（3 つのポイント）

1. 「癖」は偶然ではなく、設計図にある

昔は「Adam がうまくいくのはたまたま」と思われていましたが、この論文は**「数学的に、Adam や Muon は『特定の形』の解にたどり着くように設計されている」ことを証明しました。
まるで、「Adam という道具を使えば、自動的に『一番細い針金』でバランスを取る解が見つかる」**と言っているようなものです。

2. 複雑な AI でも同じ法則が働く

これまでの研究は、単純な直線のようなモデル（線形モデル）に限られていました。しかし、この論文は**「ReLU（リニア）のような複雑な非線形な AI」**でも、この法則が成り立つことを示しました。
「どんなに複雑な迷路でも、Adam というコンパスを使えば、必ず『特定の出口』にたどり着く」という法則です。

3. 道具を混ぜると、新しい癖が生まれる

論文では、**「Muon-Adam」**という、2 つの道具を混ぜた新しい方法も分析しました。

Muonは行列（表）の処理に強く、Adamはベクトル（リスト）の処理に強い。
これらを混ぜると、「表の最大値」と「リストの最大値」のどちらか大きい方を基準にするという、**「ハイブリッドな癖」が生まれます。
これは、「料理人 A と B をチームで組ませると、二人の癖が混ざった新しい味付けが生まれる」**ようなものです。

💡 なぜこれが重要なのか？

AI を開発する人にとって、この発見は**「魔法の杖」**のようなものです。

より良い AI を作りたいなら？
単に「学習させる」だけでなく、「どのような癖（解の形）が欲しいか」に合わせて、最適な道具（オプティマイザ）を選べるようになります。
セキュリティや攻撃への対策？
「AI がどんな癖を持っているか」がわかれば、その癖を逆手に取った攻撃（データ復元など）や、逆にその癖を利用した防御策を考案できます。

📝 まとめ

この論文は、**「AI の学習アルゴリズムは、単に正解を見つけるだけでなく、自分なりの『好み（バイアス）』を持って解を選ぶ」**ということを、数学的に証明しました。

Adamは「細い針金」の解を好む。
Muonは「大きな岩」の解を好む。
混ぜれば、新しい「ハイブリッド」の解を好む。

これにより、AI の開発者は、**「目的に合わせて、AI の『性格』を設計できる」**ようになったのです。まるで、AI に「慎重な性格」か「大胆な性格」かを選んで与えるような感覚です。

Each language version is independently generated for its own context, not a direct translation.

この論文「The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks（滑らかな同次ニューラルネットワークにおける Adam と Muon の暗黙的バイアス）」は、深層学習における最適化アルゴリズムの「暗黙的バイアス（implicit bias）」、すなわち明示的な正則化を行わなくても、特定の解に収束する傾向について研究したものです。特に、近年注目されている momentum ベースの最適化手法であるMuonとAdamに焦点を当て、それらが同次モデル（homogeneous models）においてどのようなマージン最大化のバイアスを持つのかを理論的に証明し、実験で検証しています。

以下に、論文の技術的な要約を問題設定、手法、主要な貢献、結果、意義の観点から詳細に記述します。

1. 問題設定と背景

背景: 過剰パラメータ化された深層ニューラルネットワークは、明示的な正則化なしでも優れた汎化性能を示します。これは、勾配降下法などの最適化アルゴリズムが、特定の解（通常はマージン最大化の解）へ収束する「暗黙的バイアス」を持つためであると考えられています。
既存研究の限界: 従来の研究は主に勾配降下法（GD）や線形モデルにおける Adam の解析に限定されていました。GD は $\ell_2$ ノルムに基づくマージン最大化を行うことが知られていますが、Adam や Muon といった現代的な最適化手法の暗黙的バイアスについては、線形モデル以外（非線形な同次モデル）での理論的裏付けが不足していました。
研究目的:
1. 滑らかな同次モデル（Smooth Homogeneous Models）において、Adam および Muon がどのようなノルムに基づくマージン最大化を行うかを解明する。
2. これらのアルゴリズムが「近似最急降下法（Approximate Steepest Descent）」の軌道として記述できることを示し、一般化された理論枠組みを構築する。

2. 手法と理論的枠組み

論文は、最適化アルゴリズムの連続時間近似（微分方程式による記述）を用いて解析を行っています。

2.1 モデルと損失関数

同次モデル: $f(x; \alpha\theta) = \alpha^L f(x; \theta)$ を満たすモデル（例：ReLU ネットワーク、2 次活性化関数を持つネットワークなど）。
損失関数: 指数関数的な尾部を持つ対数凹損失（例：指数損失、ロジスティック損失）。

2.2 主要な理論的貢献：近似最急降下法（Approximate Steepest Descent）

著者は、momentum を持つ最適化アルゴリズムが、学習率 $\eta(t)$ が減衰する条件下で、あるノルム $\|\cdot\|$ に対する「近似最急降下法」として振る舞うことを示しました。

定義: 真の最急降下法では、更新方向と負の勾配の双対ノルム方向が完全に一致しますが、momentum 付きアルゴリズムでは漸近的にこの一致が成り立つことを示しました。
鍵となる洞察: 学習率が減衰する際、momentum 推定量（ $m_t$ ）は、その時点で「有意義な大きさ」を持つ勾配成分に対して、勾配そのもの（ $g_t$ ）に漸近的に追従します（ $m_t \approx g_t$ ）。これにより、アルゴリズム全体が特定のノルムに対する最急降下法に近い軌道を描くことが証明されます。

2.3 最適化アルゴリズムごとの解析

Muon (Spectral Norm):
- Muon は重み行列の SVD 分解に基づき、特異値を正規化する手法です。
- 理論的に、Muon は**スペクトルノルム（ $\|\cdot\|_{sp}$ ）の最大値をとるノルム（ $\|\cdot\|_{msp}$ ）**に対する最急降下法として振る舞うことを示しました。
- したがって、Muon は $\|\cdot\|_{msp}$ に対するマージン最大化の KKT 点へ収束します。
Adam (L-infinity Norm):
- Adam（安定化定数 $\epsilon=0$ の場合）は、勾配の符号（Sign）とスケールを調整する手法です。
- 解析により、Adam は $\ell_\infty$ ノルムに対する最急降下法（Signum アルゴリズム）に漸近的に一致することを示しました。
- したがって、Adam は $\ell_\infty$ マージンの最大化を行います。
Muon-Adam および Muon-Signum:
- 行列パラメータには Muon、ベクトルパラメータには Adam（または Signum）を適用するハイブリッド手法についても解析しました。
- これらは、各部分に適用されたノルムの**最大値をとるノルム（Max-norm）**に対する最急降下法として振る舞い、その混合ノルムに対するマージン最大化を行います。

3. 主要な結果

3.1 理論的結果

一般化された KKT 収束: 正規化された最急降下法（Normalized Steepest Descent）の軌道における任意の極限点は、対応するノルムに基づくマージン最大化問題の KKT 点の方向であることが証明されました。これは既存の定常学習率の結果を、学習率スケジュール付きの正規化最急降下法に拡張したものです。
Momentum アルゴリズムの収束: 上記の「近似最急降下法」の枠組みを用いることで、Muon、Adam、およびそれらの組み合わせが、それぞれ対応するノルム（ $\|\cdot\|_{msp}$ 、 $\|\cdot\|_\infty$ 、混合ノルム）に対するマージン最大化問題の KKT 点へ収束することを証明しました。
仮定: 主な仮定は、パラメータの方向収束（Directional Convergence）と、軌道が原点から離れること（非自明な軌道）です。滑らかなモデル（ $C^1$ ）に対して厳密な証明を行い、ReLU などの非滑らかなモデルに対しても、特定の条件（軌道がストラタの境界を越えないなど）を満たせば同様の結果が得られることを示唆しています。

3.2 実験結果

設定: MNIST データセット（偶数・奇数分類）を用い、2 層の同次ネットワーク（ReLU および 2 次 ReLU 活性化）を訓練しました。
比較: 正規化勾配降下法（NGD）、Signum、Adam、Muon、Muon-Adam を比較しました。
結果:
- NGD: $\ell_2$ マージンの最大化。
- Signum / Adam: $\ell_\infty$ マージンの最大化（Adam は理論通り $\ell_\infty$ 傾向を示し、Signum よりもわずかに劣る場合があるが、同様の傾向）。
- Muon: $\|\cdot\|_{msp}$ （行列のスペクトルノルムの最大値）に基づくマージンの最大化。
- Muon-Adam: 行列部分とベクトル部分のノルムの最大値に基づくマージンの最大化。
- 実験データは、理論が予測する「最適化手法の選択が最大化されるマージンのノルムを決定する」という結論を強く支持しています。

4. 意義と貢献

理論的枠組みの拡張:
- 従来の線形モデルや勾配降下法に限定されていた暗黙的バイアスの解析を、非線形な同次モデルおよび高度な momentum ベースの最適化手法（Muon, Adam）へと拡張しました。
- 「近似最急降下法」という統一的な視点を提供し、多様な最適化アルゴリズムの収束挙動を一つの枠組みで説明可能にしました。
Muon の理論的裏付け:
- 大規模言語モデル（LLM）の訓練で注目されている Muon 最適化手法の、マージン最大化という暗黙的バイアスを初めて理論的に証明しました。これがなぜ特定の汎化性能をもたらすのかの理解に寄与します。
Adam の振る舞いの解明:
- 安定化定数 $\epsilon$ を無視した（実用的な）Adam の振る舞いが、 $\ell_\infty$ マージン最大化に寄与することを示しました。これは、Adam がなぜ特定の解に収束するのか、また Signum 法との類似性から何が起こるのかを明確にしました。
ハイブリッド最適化の解析:
- 異なるパラメータ群に対して異なる最適化手法を適用する（Muon-Adam など）場合の暗黙的バイアスを解析し、それが「最大ノルム」に基づくマージン最大化になることを示しました。これは実際のモデル設計（例：重み行列とバイアス項で異なる最適化手法を使う）における重要な知見です。

5. 結論

この論文は、Adam や Muon といった現代的な最適化手法が、滑らかな同次ニューラルネットワークにおいて、それぞれ固有のノルム（ $\ell_\infty$ やスペクトルノルムなど）に基づくマージン最大化を行うという暗黙的バイアスを持つことを理論的に証明しました。これにより、最適化手法の選択がモデルの汎化性能や解の性質にどのように影響するかを深く理解するための重要な基盤が築かれました。今後の課題として、非滑らかなモデル（ReLU ネットワークなど）における方向収束の保証や、敵対的頑健性への影響などの探求が挙げられています。