ビッグアイデア：Transformerの「ノイズ」に耳を傾ける

Transformerモデル（チャットボットの背後にあるAI）を、ある楽曲を演奏している巨大で混沌としたオーケストラだと想像してみてください。文章を読み取るたびに、ミュージシャンたち（「アテンション・ヘッド」）が皆一斉に演奏しています。人間の耳には、それはただの音の壁（ノイズ）のように聞こえます。

この論文は、そのオーケストラを聴くための新しい方法を提案しています。一つひとつの音符を理解しようとする代わりに、著者たちはPOD（固有直交分解）と呼ばれる数学的ツールを用いて、繰り返し現れる**「メインのメロディ」**を見つけ出します。

彼らは、Transformerのアテンション（モデルが単語同士をどのように結びつけているか）を、**「乱れた川」**のように扱います。川には大きな渦巻きもあれば、小さなさざ波もあります。同様に、Transformerにも、大きく広範なアテンションのパターンと、小さく特定のパターンが存在します。目的は、この「大きな渦」と「小さなさざ波」を分離し、モデルが実際に何を行っているのかを明らかにすることです。

2ステップのプロセス：「波」と「ふるい」

著者たちは、ノイズを取り除くための巧妙な2ステップの手法を用いています。

波の検出器（モルレット・スケーログラム）：
ヘリコプターから川を見下ろしているところを想像してください。あなたは、「どこに大きな波があり、どこに小さなさざ波があるのか？」を知りたいと考えています。
著者たちは、**モルレット・スケーログラム（Morlet Scalogram）**というツールをレーダーのように使用します。これはTransformerのアテンションをスキャンし、文章の「どこ」で、そして「どのサイズ（スケール）」で重要なパターンが発生しているかを正確に伝えます。
- 小さなスケール： 単語を隣の文字と結びつけるような、短いパターン（文法）。
- 大きなスケール： 段落の始まりと終わりを結びつけるような、長いパターン（物語の構造）。
ふるい（スケール選択的POD）：
波がどこにあるかが分かったら、次に「ふるい」（ガウス窓）を使って水をろ過します。彼らは川をいくつかのバケツに分けます。小さなさざ波用のバケツ、中くらいの波用のバケツ、そして大きなうねり用のバケツです。
その後、それぞれのバケツに対して個別にPODを適用します。PODは「ベスト・オブ」フィルターのようなものです。例えば「小さなさざ波」のバケツの中にあるすべての動きを見て、「よし、これら全ての小さな動きの中で、最も頻繁に発生し、最もエネルギーを持っているのはこの3つの動きだ」と特定します。これは「大きなうねり」のバケツに対しても同様に行われます。

彼らが発見したこと：レイヤーには異なる役割がある

パターンをサイズごとに分離することで、著者たちはTransformerのレイヤー（AIが文章を処理するステップ）がどのように機能するかについて、明確なルールを発見しました。

初期レイヤー（顕微鏡）： 最初の数レイヤーは、細かいディテールに執着しています。これらは小さなスケール（3〜7文字程度）に焦点を当てています。彼らは「さざ波」、つまり綴り、句読点、および直近の文法を見ているのです。
後半レイヤー（望遠鏡）： 情報がモデルの深部へと進むにつれ、焦点が変化します。後半のレイヤーは小さなさざ波を無視し、粗いスケール（20〜50文字以上）に焦点を当てます。彼らは「うねり」、つまりフレーズや節の意味、そして物語全体の構造を見ているのです。

例え話： 本を読んでいる場面を考えてみてください。

レイヤー1は、綴りが正しいか確認するために文字をスキャンしているあなたの「目」のようなものです。
レイヤー6は、章のプロットを理解しているあなたの「脳」のようなものです。
この論文は、モデルが自然にこのような形で自己組織化されていることを証明しています。つまり、小さなものから始まり、徐々に大きな全体像へと構築していくのです。

アテンションの「エネルギー」

著者たちは、これらのパターンの「エネルギー」も測定しました。物理学において、エネルギーは波の強さを教えてくれます。Transformerにおいて、「エネルギー」はパターンの重要性を教えてくれます。

発見事項： 初期レイヤーでは、エネルギーはいたるところに分散しています（静的なノイズのように）。モデルが次に何を予測するかを予測するのは困難です。なぜなら、あまりにも多くの細かいディテールを見ているからです。
発見事項： 後半のレイヤーでは、エネルギーはわずか数個の強いパターンに集中します。モデルは非常に予測可能になり、主要なアイデアに集中するようになります。

彼らは、これを測定するために**「複雑性スコア」**（スペクトル集中指数）を作成しました。

高いスコア： モデルが混乱しているか、あるいはあまりにも多くの特定の詳細を見すぎている状態（初期レイヤー）。
低いスコア： モデルがメインテーマを見つけ出し、そこに集中している状態（後半レイヤー）。

なぜこれが重要なのか（論文による主張）

この手法は、AI自体を変更したり、AIに質問したりする必要がないため強力であると、論文は主張しています。ただAIが動作する様子を観察し、数学を用いて「支配的なパターン」を見つけ出すだけです。

最適である： 数学的に、彼らが見つけたパターンは、最小限のライン数でAIの挙動を要約するための「最善の方法」であることが保証されています。精度を損なうことなく、これ以上情報を圧縮することはできません。
「ヘッド」を説明する： 通常、Transformerは各レイヤーに8つの「ヘッド」（特化したプロセッサ）を持っています。この論文は、すべてのレイヤーに8つのヘッドが必要ないかもしれないことを示唆しています。
- 初期レイヤーは、混沌としたノイズを扱うために、より多くのヘッドを必要とするかもしれません。
- 後半のレイヤーは、パターンが非常に明確で単純であるため、より少ないヘッドで済むかもしれません。
構造的なアナロジーであり、物理学ではない： 著者たちは、AIが実際に流体や川であると言っているわけではない、と注意深く述べています。彼らは単に、川を研究するために使われる「数学」をAIを理解するために借りているだけです。そこには水も風も存在しません。それは単にデータを整理するための手法なのです。

一文でのまとめ

この論文は、数学的な「波の検出器」を用いてTransformerのアテンションを大小のパターンに分離し、モデルが細かいディテールに焦点を当てることから始まり、次第に大きなテーマの理解へと移行していくことを明らかにし、同時に、これらのパターンが私たちが考えていたよりもずっとシンプルに要約できることを証明しています。

技術要約：Transformerアテンション場のマルチスケールPOD

問題提起

ドキュメント全体のエンサンブルとして捉えたTransformerのアテンション行列は、トークン位置間の2次元的なペアワイズ相互作用場として機能する。従来の研究では、ヒューリスティックな手法や特定の回路介入を通じてアテンションを分析してきたが、教師なしでこれらの場からコヒーレントな構造（支配的な反復パターン）を抽出するための、厳密かつデータ駆動型のフレームワークは欠如している。全 $L \times L$ のアテンション場に標準的な固有直交分解（POD）を適用すると、異なる時間スケール（例：文字レベル対談話レベル）の構造を分離できず、結果として言語学的に解釈不可能なモードが生じてしまう。さらに、各レイヤーにおけるアテンション場の有効表現ランクを算出するための原理的なデータ由来の指標や、スペクトル減衰に基づいてアテンションの複雑さを定量化する方法も存在しない。

手法

本論文では、乱流解析から着想を得た、Transformerのアテンションに対して構造的に適用される**スケール選択的固有直交分解（Scale-Selective POD）**というフレームワークを導入する。手法は以下の4つの段階で進行する：

確率場定式化:
アテンション場を確率的相互作用場として扱う。レイヤー $l$ に対して、ヘッド平均されたアテンション場 $A^{(l)}_s(i, j)$ を、平均場 $\bar{A}^{(l)}$ と変動場 $u^{(l)}_s(i, j) = A^{(l)}_s(i, j) - \bar{A}^{(l)}(i, j)$ に分解する。この変動場は、流体力学におけるレイノルズ分解に類似している。
Morletスカラーグラムによるスケール特定:
時間スケールを解明するために、アテンション・ラグ対角線 $\tau = j - i$ に沿ってMorlet連続ウェーブレット変換（CWT）を適用する。得られるスカラーグラム $|W_\psi[A^{(l)}](a, b)|^2$ は、アテンションエネルギーが集中する支配的なスケール $a^*$ （ラグサイズ）を特定する。これは、どの言語的スケール（文字、単語、節）が活性化しているかを判断するための診断ツールとして機能する。
スケール選択的フィルタリングとPOD:
生のフィールドにPODを適用する代わりに、スカラーグラムによって特定された各支配的スケール $a^*_m$ において、ガウス・ラグ窓フィルタを適用する。これにより、特定のラグ範囲におけるアテンション構造を孤立させる。その後、これらのスケールフィルタリングされたスナップショットのエンサンブルに対して個別にPODを適用する。
- 最適性: 古典的なPOD最適性定理（定理1）により、得られるモード $\{\phi_k\}$ は、与えられたランク $K$ に対して、エンサンブルにおける平均 $L_2$ 再構成誤差を最小化する。
- コヒーレンス: 本論文では、ドキュメント・エンサンブル全体におけるトークン位置 $i$ と $j$ 間のアテンション・パターンの位相一貫性を測定するために、相互コヒーレンス $\gamma_{ij}(a)$ を定義する。高いコヒーレンスは、支配的で反復的な言語パターンを示している。
複雑さとランクの指標:
- スペクトル集中指数 ( $T^{(l)}_{spec}$ ): PODの固有値のべき乗則減衰率（ $\lambda_k \sim k^{-\beta}$ ）から導出される。 $T^{(l)}_{spec} = 1/\beta$ は、アテンションの複雑さのプロキシ（代理指標）として機能する。
- 有効表現ランク ( $H^*_l(\epsilon)$ ): 相対誤差 $\epsilon$ でアテンション場を再構成するために必要な最小のPODモード数として定義される。これは、特定のレイヤーにおけるアテンション・ヘッドの必要数の理論的な下限を与える。

主な結果

訓練済みの4つのGPTスタイルのモデル（標準モデルおよびエネルギー・ゲーティング・バリアントを含む）を用い、キャラクターレベルのTinyShakespeare（ $N=150$ スナップショット、 $L=6$ レイヤー）を用いて実験を行った。

レイヤー依存的なスケール組織化:
- 初期レイヤー (1–2): アテンションエネルギーは微細なスケール（ $a \le 7$ トークン）に集中しており、これは文字レベルおよび短距離の形態論的パターンに対応する。スペクトル集中指数は低く（ $T_{spec} \approx 1.0$ ）、多くのモードがエネルギーを共有する分散したスペクトルであることを示している。
- 後半レイヤー (5–6): エネルギーは粗いスケール（ $a \ge 20$ トークン）へとシフトし、フレーズおよび談話レベルに対応する。スペクトルはより集中し（文脈によっては高い $T_{spec}$ ）、支配的なモードは分散のより大きな割合を捉える。
解釈可能なコヒーレント構造:
スケール選択的PODは、言語学的に意味のあるモードの抽出に成功した：
- レイヤー 2: 短いラグ（2–10トークン）における振動パターンであり、文字のn-gramに対応する。
- レイヤー 4: 10–35トークンでピークを持つ構造化されたモードであり、単語およびフレーズの境界に対応する。
- レイヤー 6: 10–40トークンにわたる複雑なマルチピーク・モードであり、節レベルの反復的なパターンを捉える。
有効ランクとヘッド割り当て:
分析により、表現要件における鮮明な対比が明らかになった：
- レイヤー 1–2: $\epsilon=0.10$ で90%のエネルギー捕捉を達成するために150個以上のモードを必要とする。これは、支配的な低ランク構造を持たない、高度にドキュメント固有で分散したアテンションを示唆している。
- レイヤー 3–6: 同様の許容度に対して約91個のモードのみを必要とし、中間および深いレイヤーが整合性の取れた低ランクのアテンション・パターンに収束していることを示している。
- これは、標準的な一様なヘッド割り当て（ $H=8$ ）が、深いレイヤーに対しては過剰指定であり、初期レイヤーに対しては不足指定である可能性が高いことを示唆している。
エネルギー・ゲーティング (EGA) の効果:
エネルギー・ゲーティング（EGA）を備えたモデルは、すべてのレイヤーにおいて系統的に高いスカラーグラム・エネルギーを示し、EGAがコヒーレントな構造を増幅することを裏付けた。EGA-1は、ベースラインと比較して中間レイヤー（3–4）でやや高いスペクトル複雑性を示し、最終レイヤー（5–6）ではより低い複雑性を示した。これは、多様なパターンの選択的増幅の後に、統合が行われることを示唆している。

意義と主張

本論文は、アテンションと乱流の間の構造的な類似性を確立することを主張している。物理的な等価性（Navier-Stokes力学への言及）を主張することなく、数学的装置（エンサンブル共分散、POD、ウェーブレット解析）を援用している。

最適な解釈性: ヒューリスティックな解釈手法（プロービングやパッチングなど）とは異なり、このアプローチは厳密な再構成の最適性保証を提供する。抽出されたモードは、エンサンブルに対する平均二乗誤差を最小化する唯一の線形基底である。
データ駆動型の複雑さ: アテンション・フィールドの統計から直接導出される、アテンションの複雑さ（ $T_{spec}$ ）および有効ランク（ $H^*_l$ ）の最初のデータ駆動型かつ定量的な尺度を導入した。これらはアーキテクチャのハイパーパラメータに依存しない。
スケールの分離: アテンション分析においてスケールを「混合」することは、言語的な意味を不明瞭にすることを実証した。スケール選択的PODは、解釈可能なパターン（例：単語境界のアテンションと談話構造の区別）を分離するために必要である。
理論的境界: 本研究は、アテンション・ヘッドのプルーニング（削減）およびレイヤーごとのランク割り当てのための、原理的な誤差限定基準を提供しており、アテンション・フィールドの背後にあるスペクトル複雑さに合わせて、ヘッドの数を変化させるべきであることを示唆している。

著者らは、乱流の類似性は構造的なものであり、物理的なものではないと明言している。「我々は、流体力学そのものではなく、エンサンブル共分散とモード解析を借りているのである」。このフレームワークは、アテンション場をマルチスケールの確率的相互作用場として扱い、支配的なモードはドキュメント・エンサンブル全体における情報伝達の最も反復的なパターンを表している。

Multiscale POD of Transformer Attention Fields: Scale-Selective Analysis via Morlet Scalogram