The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

この論文は、滑らかな同次ニューラルネットワークにおいて、Adam や Muon などのモメンタムに基づく最適化アルゴリズムが減衰学習率の下で近似最急降下法として振る舞い、それぞれ対応するノルム(\ell_\infty ノルムやハイブリッドノルムなど)によるマージン最大化の KKT 点へ収束する偏りを持つことを理論的に示し、実験で裏付けたものである。

Eitan Gronich, Gal Vardi

公開日 2026-03-04
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍳 料理の例え:同じ材料でも、料理人の「癖」が違う

想像してください。同じ食材(学習データ)とレシピ(ニューラルネットワークの構造)があるとして、2 人の料理人がいます。

  1. 料理人 A(従来の方法): 慎重に、均等に味付けをする人。
  2. 料理人 B(新しい方法): 勢いよく、特定のスパイスに偏って味付けをする人。

この論文は、「Adam」「Muon」という最新の料理人(最適化アルゴリズム)が、実は「特定の味(マージン)」を極端に好む癖があることを突き止めました。

  • Adamは、**「一番薄い味(最小のスパイス量)」**を基準に、全体のバランスを取ろうとする癖があります。
  • Muonは、**「一番大きな塊(行列の大きさ)」**を基準に、全体を整えようとする癖があります。

この「癖」こそが、AI が未学習のデータに対してもうまく機能する(汎化性能が高い)秘密の鍵だったのです。


🧗‍♂️ 登山の例え:霧の中での下山

AI の学習は、霧の深い山を下るようなものです。頂上(正解)は見えず、足元(勾配)だけを見て進みます。

  • 従来の考え方(勾配降下法): 最も急な斜面を下る。すると、山頂から最も遠く離れた「安全地帯」にたどり着きやすいことが知られていました。
  • この論文の発見:
    • Adamという登山者は、**「最も急な崖(ℓ∞ノルム)」を避けて、「最も平らな道」**を探すように下山します。結果として、特定の形をした安全地帯に落ち着きます。
    • Muonという登山者は、**「大きな岩山(スペクトルノルム)」**を基準に道を選びます。結果として、また別の形の安全地帯に落ち着きます。

つまり、「どの登山道具(オプティマイザ)を使うか」によって、最終的にたどり着く「安全地帯(解)」の形が決まってしまうのです。


🎯 何がすごいのか?(3 つのポイント)

1. 「癖」は偶然ではなく、設計図にある

昔は「Adam がうまくいくのはたまたま」と思われていましたが、この論文は**「数学的に、Adam や Muon は『特定の形』の解にたどり着くように設計されている」ことを証明しました。
まるで、
「Adam という道具を使えば、自動的に『一番細い針金』でバランスを取る解が見つかる」**と言っているようなものです。

2. 複雑な AI でも同じ法則が働く

これまでの研究は、単純な直線のようなモデル(線形モデル)に限られていました。しかし、この論文は**「ReLU(リニア)のような複雑な非線形な AI」**でも、この法則が成り立つことを示しました。
「どんなに複雑な迷路でも、Adam というコンパスを使えば、必ず『特定の出口』にたどり着く」という法則です。

3. 道具を混ぜると、新しい癖が生まれる

論文では、**「Muon-Adam」**という、2 つの道具を混ぜた新しい方法も分析しました。

  • Muonは行列(表)の処理に強く、Adamはベクトル(リスト)の処理に強い。
  • これらを混ぜると、「表の最大値」と「リストの最大値」のどちらか大きい方を基準にするという、**「ハイブリッドな癖」が生まれます。
    これは、
    「料理人 A と B をチームで組ませると、二人の癖が混ざった新しい味付けが生まれる」**ようなものです。

💡 なぜこれが重要なのか?

AI を開発する人にとって、この発見は**「魔法の杖」**のようなものです。

  • より良い AI を作りたいなら?
    単に「学習させる」だけでなく、「どのような癖(解の形)が欲しいか」に合わせて、最適な道具(オプティマイザ)を選べるようになります。
  • セキュリティや攻撃への対策?
    「AI がどんな癖を持っているか」がわかれば、その癖を逆手に取った攻撃(データ復元など)や、逆にその癖を利用した防御策を考案できます。

📝 まとめ

この論文は、**「AI の学習アルゴリズムは、単に正解を見つけるだけでなく、自分なりの『好み(バイアス)』を持って解を選ぶ」**ということを、数学的に証明しました。

  • Adamは「細い針金」の解を好む。
  • Muonは「大きな岩」の解を好む。
  • 混ぜれば、新しい「ハイブリッド」の解を好む。

これにより、AI の開発者は、**「目的に合わせて、AI の『性格』を設計できる」**ようになったのです。まるで、AI に「慎重な性格」か「大胆な性格」かを選んで与えるような感覚です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →