原著者： Oskar Allerbo, Thomas B. Schön

公開日 2026-05-21✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

原著者： Oskar Allerbo, Thomas B. Schön

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

この論文を、簡単な言葉と創造的な比喩を用いて解説します。

大きな問題：あなたのモデルはどれほど「複雑」か？

あなたがシェフで、レシピの複雑さを判断しようとしていると想像してください。

従来の方法： 単に材料（パラメータ）の数を数えるかもしれません。しかし、50 種類のスパイスを使ったレシピでも、すべてのスパイスが同じ味なら、実際には単純な料理かもしれません。逆に、たった 3 種類の材料しかないレシピでも、シェフが非常に特定かつ繊細な方法でそれらを操らなければならないなら、驚くほど複雑な可能性があります。
現在の混乱： 機械学習において、科学者たちは「複雑さ」を、パラメータの数、非常に難しい数学的概念である「Vapnik-Chervonenkis 次元」、あるいは「実効的な自由度」などの指標を使って測定しようと試みてきました。問題は、これらの手法が、単に材料を数えるような粗いものか、あるいは実用的には役に立たないほど計算が困難なものかのどちらかだということです。

この論文の著者、Oskar Allerbo と Thomas B. Schön は、これを解決したいと考えています。彼らは、Gradient Alignment Complexity (GAC：勾配整合性複雑度) と呼ばれる、計算が容易で数学的に堅固な、複雑さを測定する新しい方法を提案します。

新しいアイデア：「ダンスフロア」の比喩

GAC を理解するために、モデルをダンサー、そして「勾配」を彼らが動く際に面している方向だと想像してください。

設定： モデルは、さまざまな入力（ダンスフロア上のさまざまな曲）を見ています。すべての曲に対して、モデルはデータを学習するために動く特定の「方向」を持っています。
単純なモデル（低複雑度）： モデルが非常に単純であれば、すべての曲に対して全く同じように反応します。どんな音楽が流れていても、同じ方向を向きます。すべての「ダンスの動き」は完全に整合しています。自由度は非常に低いです。
- 比喩： 一つのダンスの動きしか知らないロボット。曲が何であれ、同じことをします。単純ですが、柔軟性は低いです。
複雑なモデル（高複雑度）： モデルが非常に複雑であれば、すべての曲に対して異なる反応をします。ある曲では北を向き、別の曲では南を向き、さらに別の曲では激しく回転します。その「ダンスの動き」はあちこちに散らばり、全く異なる方向を指しています。
- 比喩： 一つの音符ごとにスタイルを完全に変えるジャズの即興奏者。どこへでも動く完全な自由を持っています。

GAC 測定： 著者たちは、これらの「ダンスの動き」（勾配）が互いにどの程度整合しているかを単に測定します。

すべてが同じ方向を指している場合（高い整合性） $\rightarrow$ 低複雑度。
無関係でランダムな方向を指している場合（低い整合性） $\rightarrow$ 高複雑度。

これが重要である理由

この論文は、この新しい測定値が以下の 3 つの主な理由で特別であると主張しています。

誰にでも機能する： 単純な多項式方程式、決定木、ランダムフォレスト、あるいはニューラルネットワークを使用しているかどうかに関わらず、この測定値は機能します。あなたがどのような「味」のモデルを使用しているかは関係ありません。
「出力」だけでなく「機械」そのものを測定する： 時々、複雑な機械（スーパーコンピュータなど）が、非常に単純なタスク（2+2 を足すなど）を実行するために使われることがあります。従来の測定値は、結果が単純であるため、機械自体が単純だと判断するかもしれません。GAC は機械そのものを見ます。「今、単純なタスクをしているとしても、内部の部品が非常に柔軟であるため、非常に複雑なことをする可能性を持っているよ」と言うのです。
古い規則を一般化する： 著者たちは、彼らの新しい測定値を特定のモデルに適用すると、古い馴染みのある規則に自然に帰着することを証明しています。
- 多項式の場合、「次数」（どのくらい高い冪まで上がるか）のように機能します。
- 決定木の場合、「分割の数」（どのくらいの枝があるか）のように機能します。
- ランダムフォレストの場合、「木の数」のように機能します。
- K 近傍法の場合、「近傍の数」のように機能します。

「ダブルデセント」の謎を解く

AI にはダブルデセントと呼ばれる有名な現象があります。通常、モデルをより複雑にすると、学習能力が向上し、その後低下（過学習）し、さらに驚くべきことに、モデルをさらに複雑にすると再び向上します。

科学者たちは、なぜこれが起こるのかについて議論してきました。一部の人々はモデルが大きくなりすぎることが原因だといい、他の人々は複雑さの測り方によって生じた錯覚だと主張しています。

著者たちは、彼らの新しい GAC 測定値を用いて、これらの実験を再検証しました。

「静的」モデルの場合： （ランダムフォレストやランダムフーリエ特徴量など、トレーニング中に構造が変化しないモデル）GAC は、ダブルデセントが実在することを確認しました。木や特徴量を追加するにつれて複雑さが増し、「第二の降下」（再び良くなること）は、複雑さが特定のポイントに達したときに正確に発生します。
「動的」モデルの場合： （ニューラルネットワークのように、学習するにつれて特徴が変化するモデル）著者たちは、GAC で測定するとダブルデセントがしばしば消滅することを見つけました。なぜでしょうか？これらのモデルが大きくなるにつれて、実際には勾配の整合性の観点からより単純になるからです。彼らは非常にうまく適応することを学び、完全な「複雑さの可能性」を使い止めるようになります。

結論

著者たちは、機械学習モデルを測定するための新しい「定規」を構築しました。

古い定規： 部品を数えるような鈍いものか、不可能な数学を必要とするような使いにくいものでした。
新しい GAC 定規： モデルの内部の「筋肉」（勾配）がどのように一緒に動くかを見ています。それらが同期して動けば、モデルは単純です。それらが独立して動けば、モデルは複雑です。

このツールは、異なる種類の AI における「複雑さ」の実際の意味を明確で一貫した定義によって提供することで、特に混乱を招く「ダブルデセント」曲線について、モデルがなぜそのような振る舞いをするのかを科学者が理解するのを助けます。

技術的概要：モデル複雑性の厳密かつ計算可能な尺度

問題提起

モデル複雑性の正確な評価は、解釈性、汎化、モデル選択などの機械学習タスクにおいて不可欠である。しかし、既存の尺度には重大な限界が存在する。

ヒューリスティックなアプローチ: パラメータ数やその大きさなどの単純な指標は、モデルの真の能力を捉えきれない粗い推定値を提供する。
モデル固有のハイパーパラメータ: 多項式の次数やカーネルの長さスケールなどの尺度は、異なるモデルクラス間で一般化しない。
計算上の非実行可能性: ヴァプニク・チェルボネニス次元（VCD）やラデマハー複雑性（RMC）などの厳密な理論的尺度は、実際には計算不可能であることが多い。
関数とモデルの複雑性の違い: 特定の学習された関数の複雑性（例：有効パラメータ数、ENP）と、モデルクラス自体の複雑性の間には、しばしば見落とされる決定的な区別が存在する。複雑なモデルは（パラメータをゼロに設定するなどして）単純な関数を生成しうるが、標準的な指標はしばしばこの二者を混同する。

さらに、普遍的に受け入れられ、計算可能な複雑性尺度の欠如は、モデル複雑性が補間閾値を超えて増加するにつれて汎化誤差が減少する「ダブルデセント」現象の解釈を複雑にしている。

手法

著者らは、異なる入力におけるモデル勾配の整合性に基づくモデル非依存の尺度である**勾配整合複雑性（GAC）**を提案する。

定義

パラメータ $\hat{\theta} \in \mathbb{R}^p$ を持つパラメトリックモデル $\hat{f}(x, \hat{\theta})$ において、入力 $x$ におけるパラメータに関する勾配を $\phi(x, \hat{\theta}) = \nabla_{\hat{\theta}} \hat{f}(x, \hat{\theta})$ とする。GAC、 $K(\hat{f})$ は以下のように定義される。

$K(\hat{f}) := 1 - \mathbb{E}_{x,x'} \left[ \left( \frac{\phi(x, \hat{\theta})^\top \phi(x', \hat{\theta})}{\|\phi(x, \hat{\theta})\| \cdot \|\phi(x', \hat{\theta})\|} \right)^2 \right]$

この定式化は、2 つの異なる入力 $x$ と $x'$ における勾配間のコサイン差の二乗を利用する。

解釈: 期待値内の項は、勾配間の角度のコサインの二乗を表す。勾配が高度に整合（平行）している場合、モデルは多様なデータパターンに適合する自由度が低く、複雑性が低いことを示す。勾配が直交（独立）している場合、モデルは非常に柔軟である。
一般化: 多変量出力（例：分類）の場合、ドット積はヤコビアン間のフロベニウス内積に置き換えられる。
経験的計算: データセット $\{x_i\}_{i=1}^n$ に対して、期待値は $i \neq j$ となるペアのサンプル平均に置き換えられる。

理論的関連性

著者らは、GAC が数学的に以下の二者と等価であることを確立している。

正規化線形エントロピー: GAC は、正規化されたニューラルタンジェントカーネル（NTK）行列の正規化線形エントロピーに等しい。
NTK 類似性: これはモデルのカーネルによって導入される類似性を測定する。類似度が高いほど、モデルは単純であることを意味する。

重要なのは、定数特徴モデル（ $\hat{f}(x, \hat{\theta}) = \hat{\theta}^\top \phi(x)$ であり、 $\phi(x)$ が $\hat{\theta}$ に依存しない場合）において、GAC は学習されたパラメータではなく、特徴展開 $\phi(x)$ のみに依存することである。したがって、これは関数の複雑性ではなくモデルの複雑性を測定する。非定数特徴モデル（例：深層ニューラルネットワーク）の場合、GAC は損失減少で重み付けされたトレーニングステップ全体で集約されうる。

主要な貢献と結果

1. 既存の複雑性指標の一般化

本論文は、GAC がさまざまなモデルクラスに対する標準的な複雑性ハイパーパラメータを自然に一般化することを証明している。

多項式回帰: GAC は多項式の次数 $p$ とともに厳密に増加する。
Matérn カーネル（ガウス/ラプラス）: GAC はカーネルの長さスケール $l$ とともに厳密に減少する。
k 近傍法（kNN）: GAC は近傍数 $\kappa$ とともに厳密に減少する。
決定木: GAC は分割数（または葉の数）とともに厳密に増加する。
ランダムフォレスト: アンサンブルの複雑性は、単一木の複雑性と、木の数およびそれらの相関に依存する項の和であることが示される。

2. データおよびハイパーパラメータに対する挙動

次元と分散: GAC は入力次元 $d$ および入力分散 $\sigma^2$ とともに増加する。
サンプルサイズ非依存性: 定数特徴を持つパラメトリックモデルにおいて、GAC はサンプルサイズ $n$ に依存しない。これは、非単調な挙動を示すか、あるいは $n$ に強く依存する傾向がある ENP およびその一般化（GENP-V、GENP-RX）とは対照的である。
頑健性: 正則化強度の影響を受ける ENP と異なり（例：高度に正則化された複雑なモデルは ENP 下では単純に見える）、GAC は特定の学習された関数や正則化に関わらず、基礎となるモデル複雑性を正しく識別する。

3. ダブルデセントへの洞察

著者らは、複雑性尺度として GAC を用いてダブルデセント現象を再検討する。

定数特徴モデル: ランダムフーリエ特徴やランダムフォレストの場合、複雑性を GAC で測定するとダブルデセントは維持される。
非定数特徴モデル: ニューラルネットワークや勾配ブースティングの場合、GAC で測定するとダブルデセント現象はしばしば消滅するか、あるいは不明瞭になる。著者らは、これらのケースにおいて、モデル容量が増加するにつれて「複雑性」（特徴の整合性）が実際には減少する可能性があると論じている。なぜなら、より大きなモデルは、より複雑な特徴空間を必要とせずにデータに容易に適応できるからである。これは、これらのモデルにおける過去のダブルデセントの観測が、初期化スキームのアーティファクトか、あるいは関数複雑性とモデル複雑性の混同に起因する可能性を示唆している。

意義と主張

本論文は、GAC が既存の複雑性尺度に対する数学的に厳密でありながら計算が容易な代替手段を提供すると主張している。その主な意義は以下の点にある。

モデル非依存性: これは任意のパラメトリックモデルおよびカーネルベースのノンパラメトリックモデルに対して定義可能である。
複雑性の区別: 特に定数特徴モデルにおいて、モデル複雑性と関数複雑性を成功裡に分離する。
解釈可能性: 異なるモデルクラス間（例：決定木とカーネル回帰の比較）の複雑性を比較するための統一された枠組みを提供する。
ダブルデセントの明確化: 一貫した複雑性尺度を提供することで、真のダブルデセントの挙動と、複雑性の定義（例：GENP-V などの汎化誤差の代理指標）に起因するアーティファクトとの区別を助ける。

著者らは限界を認めており、NTK の計算にコストがかかる深層ニューラルネットワークでは GAC の計算が高価になりうる点、およびトレーニングダイナミクスに対する集約手法（式 2）は改善の余地がある点を指摘している。しかし、彼らは GAC がモデル複雑性の問題に対する理解を大幅に向上させるものと提唱している。

A Rigorous, Tractable Measure of Model Complexity