On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 問題：巨大なビルを建てるのに、なぜ設計図を毎回書き直す必要がある？

AI を訓練する（学習させる）とき、私たちは「学習率」という**「一歩をどれくらい大きく踏み出すか」**という設定を使います。

小さな AI（512 個の部品）：ある歩幅で歩くと、うまくゴールにたどり着きます。
大きな AI（2048 個の部品）：同じ歩幅で歩くと、転んでしまったり（発散）、進みが極端に遅くなったりします。

これまでの常識では、「AI を大きくするには、その都度、最適な歩幅をゼロから探さなければならない（チューニングが必要）」と言われていました。これは、ビルを 10 階から 100 階に増やしたとき、**「10 階用の設計図をそのまま使えないから、100 階用に全部作り直さなきゃいけない」**ようなもので、非常に非効率です。

🔍 2. 発見：なぜ歩幅が変わってしまうのか？（「幾何学」の視点）

著者たちは、AI の学習を**「地形を歩くこと」**に例えて考えました。

従来の方法（AdamW や Muon など）：
地形の「傾き（勾配）」を見る際に、**「普通のものさし（標準的な距離の測り方）」**を使っていました。
しかし、AI の層（階数）が増えたり、幅（部品数）が増えたりすると、この「ものさし」の基準がズレてしまいます。
- 例え：1 階の廊下では「1 メートル」が 1 メートルですが、100 階になると、同じ「1 メートル」のものが実際には 10 メートル分も広がって見えてしまうような**「歪み」**が起きます。
- この歪み 때문에、大きなモデルでは「どこまで歩けばいいか」がわからなくなり、歩幅（学習率）を調整し直さざるを得なくなります。

💡 3. 解決策：「平均化されたものさし」を使う（MOGA）

著者たちは、この歪みを解消するために、**「新しいものさし（平均化されたノルム）」**を導入しました。

新しいものさし（MOGA）：
幅（部品数）が増えるたびに、**「1 人あたりの平均的な広さ」**で測るルールに変えました。
- 例え：100 人の部屋でも 1000 人の部屋でも、「1 人あたりのスペース」が一定になるように測る。そうすれば、部屋が大きくなっても「1 歩の長さ」の感覚が変わらず、同じ歩幅で歩き続けられるようになります。

この新しいルールを**「MOGA（Matrix Operator Geometry Aware）」**と呼んでいます。

🚀 4. 具体的な成果：何がすごいのか？

この新しい方法（MOGA）を使うと、以下のような魔法のようなことが起こります。

学習率の「移植」が可能に：
小さな AI（GPT-2 Small など）で「この歩幅がベストだ」と見つけたら、それをそのまま巨大な AI（GPT-XL など）にコピーするだけで、同じようにうまく学習が進みます。
- これまで何時間もかけて探していた「最適な歩幅」を、ゼロから探す必要がなくなります。
Muon（ムオン）という強力なライバルとの比較：
最近注目されている「Muon」という手法も優秀ですが、著者たちの分析によると、モデルが巨大になるにつれて、Muon は**「地形が急峻になりすぎて（滑らかさが失われ）」、安定して歩くのが難しくなる**傾向があることがわかりました。
- 一方、MOGA（特に「行正規化」という方法）は、どんなに大きくても**「地形が滑らか」**なまま保たれるため、最終的な低損失（高い精度）の領域で、より速く、安定してゴールに到達できることが実験で証明されました。

🎯 5. まとめ：日常言語での要約

これまでの課題：AI を大きくすると、学習の「歩幅」を毎回調整しないといけない。面倒くさい！
この論文の発見：AI の内部の「測り方（幾何学）」を少し変える（平均化されたものさしを使う）だけで、「歩幅」がモデルのサイズに関係なく一定に保たれることがわかった。
新しい手法（MOGA）：この新しい測り方を使った学習アルゴリズム。
メリット：
- 小さなモデルで設定したパラメータを、巨大なモデルにそのまま使える（超効率的）。
- 既存の最強の手法（Muon）よりも、特に**「学習の終盤（低損失領域）」で速く、安定して学習できる**。

一言で言うと：
「AI のサイズが変わっても、『歩き方（学習のルール）』をそのまま使えるようにする魔法のコンパスを発見しました。これにより、AI を大きくしても、チューニングの手間が劇的に減り、より速く高性能なモデルを作れるようになります！」

Each language version is independently generated for its own context, not a direct translation.

1. 問題設定 (Problem)

現代の深層学習では、モデルのスケール（特に隠れ層の幅 $w$ ）を大きくすることで性能が向上することが知られています（スケーリング則）。しかし、モデルの幅を変化させた際に、最適化のハイパーパラメータ（特に学習率）をどのように調整すべきかという点に根本的なギャップがあります。

既存の課題: 一般的なオプティマイザ（AdamW や Muon など）では、最適な学習率は幅に強く依存します。例えば、幅 512 でチューニングされた学習率を幅 2048 のモデルにそのまま適用すると、発散したり収束が極端に遅くなったりします。
核心的な問い: 「ネットワークの幅が増加しても、最適な学習率が確実に転送（transfer）されるような最適化手法を設計できるか？」
理論的背景: 従来の $p \to q$ 行列演算子ノルムに基づく最急降下法（Steepest Descent）の幾何学的解釈では、層を積み重ねた際にリプシッツ定数や滑らかさ（Smoothness）の定数が幅に依存して劣化し、幅に依存しない安定した学習率の制御が困難であることが示唆されています。

2. 手法と理論的枠組み (Methodology)

著者らは、既存のオプティマイザを「行列演算子ノルム（Matrix Operator Norm）の下での最急降下法」として統一的に解釈し、新しい幾何学的アプローチを提案しました。

2.1 行列演算子ノルムによるオプティマイザの統一解釈

従来のオプティマイザ（SignSGD, AdamW, Muon など）は、それぞれ特定の行列演算子ノルム（例： $\ell_1 \to \ell_\infty$ , $\ell_2 \to \ell_2$ など）における最急降下方向として解釈できます。
しかし、標準的な $p \to q$ ノルム（ $p \le q$ ）では、層を構成する際に隣接層間の幾何学的な不整合（Geometric Mismatch）が生じ、リプシッツ定数が幅 $w$ に依存して増大してしまいます。

2.2 平均正規化演算子ノルム (Mean-Normalized Operator Norms)

この問題を解決するために、著者らは平均正規化された演算子ノルム $(p, \text{mean}) \to (q, \text{mean})$ を導入しました。

定義: $\|\mathbf{x}\|_{(p, \text{mean})} := n^{-1/p} \|\mathbf{x}\|_p$ （ $n$ は次元数）。
この正規化因子 $n^{-1/p}$ により、次元スケーリングが相殺され、隣接層間のノルム整合条件 $\|\cdot\|_{\text{in}} \le \|\cdot\|_{\text{out}}$ が満たされます。
結果: この幾何学の下では、ネットワークの損失関数は幅 $w$ に依存しないリプシッツ連続性を持ちます。

2.3 滑らかさ（Smoothness）の幅不依存性

定理 2: 滑らかさ定数 $L$ が幅に依存しないためには、 $(p, \text{mean}) \to (q, \text{mean})$ 幾何学において $q \ge 2p$ である必要があります。
Muon の限界: Muon は $(2, \text{mean}) \to (2, \text{mean})$ 幾何学に対応しますが、この場合 $q=2, p=2$ となり $q < 2p$ の条件を満たさないため、滑らかさ定数が $O(\sqrt{w})$ のオーダーで悪化することが理論的に示されました。
提案する幾何学:
- $(1, \text{mean}) \to (q, \text{mean})$ ( $q \ge 2$ ): 列正規化（Column Normalization）に対応。
- $(p, \text{mean}) \to \infty$ : 行正規化（Row Normalization）に対応。
- これらは幅に依存しない滑らかさ定数を実現します。

2.4 MOGA オプティマイザの提案

上記の理論に基づき、学習率の幅認識スケーリングルールを導出し、MOGA (Matrix Operator Geometry Aware) オプティマイザを提案しました。

スケーリングルール: 平均正規化ノルムと標準ノルムの違いは定数倍（幅のべき乗）のみであるため、学習率を適切な幅依存係数でスケーリングすることで、幾何学的な更新方向を等価に保つことができます。
実装: 行正規化（Row Normalization）または列正規化（Column Normalization）を適用し、学習率を $d_{\text{in}}$ や $d_{\text{out}}$ のべき乗で調整します。
$\mu$ P との関係: Adam や SignSGD の場合、このスケーリングは既存の $\mu$ P (Maximal Update Parametrization) スケーリングと一致しますが、MOGA の理論的根拠は「スペクトル条件」ではなく「最適化幾何学（リプシッツ性・滑らかさ）」に基づいており、より広いクラスのオプティマイザに適用可能です。

3. 主要な貢献 (Key Contributions)

オプティマイザの幾何学的統一解釈: AdamW, Muon, SignSGD などを行列演算子ノルム下の最急降下法として統一的に記述し、そのスケーリング挙動を分析した。
幅不依存な安定性の理論的証明: 標準的な演算子ノルムでは層間での安定性が失われることを示し、平均正規化演算子ノルムを導入することで、リプシッツ定数と滑らかさ定数の両方が幅に依存しないことを証明した。
Muon の理論的限界の指摘: Muon が幅の増加に伴い滑らかさ定数が $O(\sqrt{w})$ で悪化する可能性を理論的に示し、これが大規模トレーニングにおける不安定性の要因となり得ることを指摘した。
MOGA オプティマイザの提案: 行/列正規化に基づく新しいオプティマイザを提案し、理論的に導出された学習率スケーリングルールを実装した。
大規模実験による検証: GPT-2 および LLaMA アーキテクチャを用いた大規模事前学習実験により、提案手法の有効性を実証した。

4. 実験結果 (Results)

GPT-2 (Small ~ XL) と LLaMA-130M における大規模事前学習実験を行いました。

学習率の転送性 (Learning Rate Transfer):
- 提案する MOGA（特に行正規化版）では、モデルの幅（パラメータ数）が 124M から 1.5B に変化しても、最適なピーク学習率がほぼ一定に保たれました。
- 小規模モデルでチューニングした学習率を大規模モデルにそのまま適用でき、追加のハイパーパラメータ調整が不要であることが確認されました。
標準トークン予算での性能:
- Chinchilla 最適トークン数（約 1 倍）でのトレーニングにおいて、MOGA は AdamW よりも高速に収束し、Muon と同等かそれ以上の性能を示しました。
大トークン予算での性能:
- 約 8 倍のトークン数でのトレーニング（低損失領域）において、MOGA（行正規化）は Muon よりも明確に優れた性能を示しました。特にトレーニングの後半、損失が低い領域での収束速度が速く、最適化の安定性が重要となる局面で有利であることが示されました。

5. 意義と結論 (Significance and Conclusion)

理論的基盤の提供: 学習率の転送性を保証する新しい原理として、「最適化幾何学（Optimization Geometry）」に基づくアプローチを確立しました。これは、 $\mu$ P のようなスペクトル条件に依存しない、より一般的な枠組みです。
実用的な価値: 大規模モデルのトレーニングにおいて、学習率のチューニングコストを大幅に削減できます。また、特に大規模なトークン数でトレーニングを行う際（低損失領域）、MOGA は既存の強力なオプティマイザ（Muon）を上回る効率性を示しました。
行正規化の優位性: 理論と実験の両面から、行正規化（Row Normalization）に基づく幾何学が、列正規化や Muon と比較して、滑らかさの制御と表現能力（Approximation Capacity）のバランスが優れていることを示唆しました。

結論として、この論文はネットワークの幅スケーリングに対して安定した最適化を実現するための、幾何学的に整合性のある新しいオプティマイザ設計指針と、その具体的な実装（MOGA）を提供する重要な研究です。