この論文を簡単な言葉と創造的な比喩を用いて解説します。

全体像：古い家にある新しい部屋

すでに書くこと、コーディング、推論の仕方を知っている、巨大で非常に賢い図書館（ベースモデル）を想像してください。この図書館は、本や思考を整理する特定の方法を持っており、研究者たちはこれを「内部幾何学」と呼んでいます。

さて、この図書館に特定のスタイルで書くことや、新しい安全ルールに従うことなどの新しいスキルを教えたいとしましょう。図書館全体を再建するのではなく、その上に小さで一時的な増築部分を追加します。これがLoRA（低ランク適応）です。これは、元の図書館の本を変更することなくその振る舞いを微調整するために、元の図書館の上に載る軽量な「アダプター」です。

問題点：この増築部分が図書館が何を言うかを変えることは分かっていますが、それが図書館の内部的な思考をどのように変えるのかはよく分かりません。この増築部分は既存の本を単に並べ替えているだけなのでしょうか、それとも元の図書館の地図には表示されていない、完全に新しい目に見えない翼を建てているのでしょうか？

実験：「デルタ」探偵

研究者たちは、この増築部分（LoRA アダプター）が図書館の脳内で何を exactement 行っているのかを明らかにしたいと考えました。

「前後」の写真：増築を追加する前の図書館の思考の瞬間写真（ $h_{base}$ ）と、追加した後の瞬間写真（ $h_{adapted}$ ）を撮影しました。
「差分」( $h_\Delta$ )：「後」の写真から「前」の写真を引きました。その結果、デルタと呼ばれるアダプターの純粋な「ゴースト」が現れます。これは、元の図書館がすでに知っているものをすべて取り除き、新しい増築部分が追加したもののみを示します。
翻訳機（スパースオートエンコーダー）：この「ゴースト」を理解するために、**スパースオートエンコーダー（SAE）**と呼ばれる特別なツールを使用しました。SAE は、複雑な思考を「幸福」、「数学」、「危険」などのシンプルで明確な概念の特定の辞書を使って記述しようとする翻訳機のようなものです。

発見：2 つの異なる言語

研究者たちは、翻訳機を 2 つの異なる対象に対して訓練しました。

辞書 A：元の図書館の既存の概念（事前学習済み SAE）。
辞書 B：増築部分の「ゴースト」に特化して訓練された新しい辞書（デルタ SAE）。

彼らが発見したことは以下の通りです：

1. 古い辞書では翻訳機は失敗した

彼らが元の図書館の辞書を使って増築部分の思考を記述しようとしたとき、翻訳機は惨めに失敗しました。

比喩：りんごとオレンジに関する言葉だけを使って、新しい種類の宇宙人の果実を記述しようとしているようなものです。それはできません。「誤差」は非常に大きく、翻訳機は果実の形さえ捉えることができませんでした。
結果：元の辞書は、アダプターが作り出した新しい特徴に対して盲目でした。

2. 新しい辞書は完璧に機能した

彼らが新しい辞書（増築部分に特化して訓練されたもの）を使用すると、思考を完璧に記述できました。

比喩：彼らは、増築部分がわずかに異なる方言を話していることに気づきました。その特定の方言を学ぶと、すべてが意味をなすようになりました。
結果：アダプターは、元のモデルと幾何学的に区別される独自の「特徴空間」を作成します。

3. 「ゴースト」は別の部屋に住んでいる

研究者たちは、元の図書館の思考とアダプターの思考の間の角度を測定しました。

比喩：元の図書館の思考が北を指していたなら、アダプターの思考はほぼ真西を指していました（約 74 度離れています）。それらは単に少し違うのではなく、完全に異なる方向で動作しています。
結果：アダプターの大きさ（増築部分の「ランク」やサイズ）がどうであれ、それは常にこの別個で明確な部屋を構築しました。

なぜこれが重要なのか（論文によると）

この論文は、安全性に関する特定の「監視の隙間」を強調しています。

盲点：もしあなたがベースモデル（元の図書館）に対して安全フィルターを訓練し、その後、安全アダプター（LoRA）を接続した場合、安全ツールは間違った地図を見ている可能性があります。彼らは元の図書館の「北」をチェックしている一方で、アダプターは「西」で動作しているのです。
リスク：アダプターの内部変化がベースモデルとあまりにも異なるため、標準的な安全チェックは、アダプターが導入する危険な行動を見逃す可能性があります。アダプターは、安全検査員が見ることのできない部屋に効果的に隠れています。

主要な発見のまとめ

LoRA は単なる微調整ではなく、新しい構造です。それは元のモデルの辞書では見えない特徴を作成します。
サイズは方向を変えません。アダプターが小さかろうと大きかろうと、常にこの別個で明確な「部屋」を構築します。
新しい地図が必要です。これらの適応モデルを理解したり監査したりするためには、元のモデル向けに作られたツールだけでは不十分です。アダプターが追加するものを特化して見る新しいツール（「デルタ SAE」など）を構築する必要があります。

要約すると：アダプターは元の家の家具を並べ替えるだけでなく、理解するために独自のユニークな設計図を必要とする、新しい目に見えない翼を建設するのです。

技術的サマリー：LoRA アダプターの機能幾何学

問題定義

低ランク適応（LoRA）は大規模言語モデル（LLM）の微調整における支配的な手法であるが、それが引き起こす内部表現の変化は未だ十分に理解されていない。既存の機械的解釈性ツール、特にスパースオートエンコーダー（SAE）は、ベースモデルおよび RLHF 調整済み変種に適用され、残差ストリーム活性化をスパースで単義的な機能に分解することに成功している。しかし、これらのツールは通常、完全な適応済みモデルの出力に適用され、ベースモデルの表現とアダプター固有の寄与が混同されている。

この粒度の欠如は重大なギャップを生み出している。LoRA アダプターがベースモデルの解釈性ツールでは「見えない」表現部分空間で動作する場合、微調整済みモデルの安全性監査やアライメント分析は体系的に不完全となる可能性がある。さらに、安全性微調整がその後の適応によって容易に無効化されるという現象の機械的理由は、機能レベルにおいて未だ探求されていない。

手法：デルタ SAE フレームワーク

LoRA アダプターの特定の寄与を分離するために、著者はデルタ活性化フレームワークを導入する。完全な適応済み活性化（ $h_{adapted}$ ）を分析する代わりに、本研究は活性化のデルタに焦点を当てる：
$h_\Delta = h_{adapted} - h_{base} = \frac{\alpha}{\sqrt{r}} BAx$
このデルタは、ベースモデルのシグナルから解放された、アダプターの正確かつ機械的に純粋な寄与を表す。

実験パイプラインは以下の通りである：

モデル設定：ベースモデルとしてGemma-2-9Bを使用。Alpacaデータセット（10,000 サンプル）でランク $r \in \{4, 8, 16, 32\}$ の 4 つの LoRA アダプターを訓練し、他のすべてのハイパーパラメータを固定してランクを唯一の変数とした。
デルタ抽出：ベースモデルと適応済みモデルの両方について、6 つのターゲット層（5, 10, 18, 22, 32, 38）において残差ストリーム活性化をフックで捕捉し、 $h_\Delta$ を計算した。
デルタ SAE 訓練：各（ランク、層）のペアに対して正規化された $h_\Delta$ ベクトルにのみ特化した SAE を訓練した。これらを、ベースモデルの残差ストリームで訓練された事前学習済みのGemma ScopeSAE と比較した。
幾何学的分析：アダプター誘発機能とベースモデル機能の整合性を評価するために、3 つの相補的な指標を使用した：
- コサイン類似度：デルタ SAE デコーダー方向と Gemma Scope 機能方向との間の最大類似度。
- 主角度分析：デルタ SAE と Gemma Scope デコーダー行列の上位 256 次元部分空間間の角度。
- 中心化カーネルアライメント（CKA）： $h_{base}$ と $h_\Delta$ 活性化セット間の表現類似性を測定。

主要な結果

1. ベース SAE によるアダプターシグナルの再構成の失敗

Gemma Scope（ベースモデル）SAE を用いて $h_\Delta$ を再構成したところ、すべての層とランクにおいて相対再構成誤差が1.0を超えた。これは、ベース辞書の近似誤差がアダプター自体のシグナル大きさよりも大きいことを示している。誤差は初期層（層 5、 $\epsilon \approx 2.3$ ）で最も深刻であり、深さとともにわずかに改善されたが、依然として高かった。

2. アダプター固有 SAE の優位性

$h_\Delta$ に特化して訓練された SAE は、ホールドアウトデータにおいてベース SAE よりも大幅に優れていた。再構成の改善度は**46.3% から 86.2%**の範囲にあり、LoRA アダプターがベースモデルの機能辞書では捕捉されない、真の一般化可能な構造を学習していることを示している。

3. 幾何学的乖離

3 つの独立した分析により、LoRA 機能は幾何学的に明確な部分空間を占有することが確認された：

コサイン類似度：デルタ機能とベース機能間の平均最大コサイン類似度は約 0.071であり、3,584 次元におけるランダムベクトルの期待値（約 0）をわずかに上回るのみであった。デルタ機能の 0.01–0.02% だけがベース機能と強い整合性（>0.7）を示した。
主角度：部分空間間の平均主角度は**約 74°**であり、整合性を示す方向（<20°）は**0%**であった。部分空間の約 66% はほぼ直交（>70°）していた。
CKA： $h_{base}$ と $h_\Delta$ 間の CKA は、意味処理が集中する層 18 で最も低く、約 0.05–0.08に低下し、意味処理が集中する場所で最大の表現乖離を示した。

4. ランクと深度の影響

機能密度：トークンあたりのアクティブ機能数は、層の深度と LoRA ランクの両方に対して単調に増加した。例えば、層 38 において、ランク 4 は約 30 機能/トークンを活性化し、ランク 32 は約 41 機能を活性化した。
幾何学的安定性：密度と容量の変化にもかかわらず、根本的な幾何学的新規性（主角度とコサイン類似度で測定）はランク不変であった。すべてのランクは、ベースモデルから幾何学的に分離された表現を生み出した。
弱く整合した機能： $h_\Delta$ によって活性化された機能の93% 以上が「弱く整合した」（デルタでのみ活性化し、ベースでは活性化しない）ものであり、この割合はすべてのランクと層で一貫していた。

意義と主張

本論文は、LoRA 機能幾何学の最初の体系的な機械的分析を提供すると主張している。主な貢献は、**「監視ギャップ」**の特定である。ベースモデル活性化のみに基づいて訓練された解釈性ツールは、体系的に LoRA アダプターの表現的寄与に対して盲目である。

著者は以下を主張する：

安全性監査の不完全性：組織が安全性微調整済みの LoRA モデルを配備する場合、標準的な SAE ベースの監査は、ベース辞書がデルタシグナルを再構成できないため、アダプター符号化された表現を検出することに失敗する可能性がある。
脆弱性の機械的説明：幾何学的分離は、安全性微調整が容易に無効化される理由に対する機械的な説明を提供する。その後の微調整は、単にモデルを元の安全性制約（ベース幾何学に符号化されている）が効果的に監視できない、明確な部分空間へシフトさせる可能性がある。
方法的解決策：デルタ SAE フレームワークは、微調整済みモデルの機能レベル監査に不可欠なツールとして提案されており、アダプター固有の寄与の分離と分析を可能にする。

本研究は、LoRA アダプターがより高いランクで表現容量（密度）を増加させる一方で、本質的に明確な幾何学的部分空間で動作しており、微調整済みモデルには新しい解釈アプローチが必要であると結論付けている。

Feature Geometry of LoRA Adapters: A Sparse Autoencoder Analysis of Representational Divergence in Fine-Tuned Language Models