原著者： Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

公開日 2026-06-03✓ Author reviewed ⓘ

📖 1 分で読めます☕ さくっと読める

CC BY 4.0

原著者： Keenan Pepper, Alex McKenzie, Florin Pop, Stijn Servaes, Martin Leitgab, Mike Vaiana, Judd Rosenblatt, Michael S. A. Graziano, Diogo de Lucena

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

大規模言語モデル（LLM）を、巨大で信じられないほど複雑な図書館だと想像してみてください。この図書館の中では、情報は読み取れる「本」として保存されているのではなく、モデルが「思考」する時に発生する、膨大な目に見えない電気信号（活性化）のネットワークとして蓄えられています。

長い間、研究者たちはこのカーテンの裏側を覗き込み、これらの信号が何を意味しているのかを解明しようと試みてきました。彼らは、信号を特定の概念（例えば「数学」や「礼儀正しさ」など）にマッピングするためのツールを構築してきましたが、それらのツールは非常に扱いにくいものでした。もしダイヤルをほんの少し動かしただけで、モデルは流暢なデタラメを話し始めることがあります。それは一見説明のように聞こえますが、実際にはモデルが考えていることとは全く結びついていないのです。

本論文は、これを修正するための新しい方法を紹介しています。以下に、シンプルな比喩を用いてその核心となるアイデアを解説します。

1. 問題点：「翻訳者」が壊れている

モデルの内部信号は「秘密のコード」だと想像してください。以前、研究者たちはこのコードを翻訳しようとして、単にそのコードをモデルの口に直接放り込み、「これはどういう意味？」と問いかけていました。

問題点： 時にはモデルは理解しますが、多くの場合、混乱してしまいます。モデルは「この信号は『小さな土の丘』を意味します」と言うかもしれませんが、実際にはそれは「コンピュータの関数」を意味しているかもしれません。これは、単に言葉を推測して外国語を翻訳しようとしているようなものです。文法は合っていますが、意味が間違っているのです。

2. 解決策：「軽量なアダプター」の訓練

巨大な図書館全体を再学習させる（これはコストがかかり、図書館の仕組み自体を変えてしまうことになります）代わりに、著者たちは小さく特化したアダプターを訓練しました。

比喩： アダプターを、専門の翻訳者、あるいは眼鏡だと考えてください。
- 巨大な図書館（モデル）は全く同じままです。新しいことを学習することはありません。
- アダプターは、モデルの目の前に置かれる小さな追加要素（レンズのようなもの）です。
- 著者たちは、このレンズを「解釈可能性のアーティファクト（解釈の痕跡）」を用いて訓練しました。これらは、研究者がすでに作成したフラッシュカードのようなものです。片面には信号ベクトルがあり、もう片面にはラベル（例：「この信号＝『野球』」）があります。
- アダプターは、モデルが自分の考えていることをようやく「見て」、正しく説明できるように、信号を調整する方法を学びます。

3. 魔法の成分：「バイアス」（デフォルト設定）

最も驚くべき発見は、アダプターはスーパーコンピュータである必要はないということです。非常にシンプルなバージョンが最も優れた性能を発揮します。

比喩： アダプターには2つのパーツがあると想像してください。
1. 信号： 今まさにモデルが考えている具体的な事柄（例：「プラトン」）。
2. バイアス： アダプターが学習した「デフォルト設定」または思考の癖。
本論文では、この「バイアス」が作業の85%もの重労働を担っていることが分かりました。それは、モデルが**生成する説明の文章そのものの「スタイル」や「形式」**を決定する役割を果たします。
驚くべき証拠： 著者たちは、訓練データのラベルをすべて「大文字（ALL-CAPS）」にして実験を行いました。すると、モデルが生成する説明もすべて大文字になったのです！ここで重要なのは、モデルに与えられた「指示文（プロンプト）」自体は普通の大文字・小文字混合のままだったということです。指示文はモデルに「与えられた」ものであり、モデルが「生成」したものではありません。つまり、大文字というスタイル情報を運んでいたのは、指示文ではなく、モデルが学習したバイアスだけだったのです。
これは、学生にエッセイの「トピック」だけでなく、**「書き方（例：すべて大文字で書く、あるいは非常に丁寧な口調で書く）」**というスタイルを完璧に教え込むようなものです。そうすれば、どんなトピックを与えられても、そのトピックの名前さえ分かれば、そのスタイルに合わせた素晴らしいエッセイを書くことができるようになります。

4. 彼らが発見したこと

元のラベルよりも優れた性能： アダプターは単に訓練用のフラッシュカードをコピーしただけではありません。彼らは、元のラベルが記述していた内容よりも、実際に信号をうまく説明できるようになりました。これは、学生が教科書から学び、教科書の著者よりも優れた要約を書くようなものです。
隠れた思考の解明： モデルは、ステップを声に出さずにパズルを解くことがあります（例：プラトンについて言及することなく、プラトンに関する謎解きに対して「アテネ」と答えるなど）。訓練されたアダプターは、モデルの「心を読み」、たとえモデルが一度も口に出していなくても、その背後にある「プラトン」という思考を明らかにすることができます。
モデルが大きくなると、翻訳者としても優秀になる： モデルが大きくなるにつれて（70億から720億パラメータへ）、アダプターはさらに優れた翻訳ができるようになります。モデルは単に質問に答えるのが上手くなるだけでなく、自分が「どのように考えているか」を説明するのが上手くなります。

5. なぜこれが重要なのか（論文による主張）

この論文は、モデルを理解するためにモデル自体を変更する必要はないと主張しています。既存のデータに基づいた、この小さく訓練された「翻訳者」を追加するだけで、モデルの内部状態への信頼できる窓口を得ることができます。

「自己解釈」によるメリット： 従来の手法では、説明役のモデルが別のモデルとして訓練されることがありました。しかし、この手法の真の利点は、追加されたアダプターが、もとのモデル自身にフィードバックされる点にあります。
- 著者による言葉を使えば、「重要なのは、この追加要素がパターンを同じモデル自身にフィードバックし、モデルが自分自身を解釈することを可能にする点です。これにより、AI が内部から自らの思考を検証する未来への扉が開かれます。」
- つまり、モデルが自分の思考の説明を読み、その説明についてさらに深く考える、という「再帰的な自己検証」を、異なるモデルの連鎖なしに、単一のモデル内で行うことができるようになります。これが、この手法が持つ最大の可能性です。

要約すると： もし言語モデルに、その脳の既存のマップに基づいた、訓練済みの小さな「翻訳者」を与えれば、そのモデルがどのように考えているかを、たとえそれが複雑で隠れた思考であっても、モデル自体を再学習させたり改変したりすることなく、信頼性高く教えてくれることが、この論文は示しています。さらに、この翻訳者はモデル自身に組み込まれるため、AI が自らの思考プロセスを内側から検証し続ける未来への道を開くのです。

技術要約：解釈可能性アーティファクトからの自己解釈の学習

1. 問題提起

大規模言語モデル（LLM）は高次元の隠れ活性化を通じて動作するが、これらの内部状態のセマンティックな内容を理解することは、解釈可能性における中心的な課題である。メカニスティックな解釈可能性（mechanistic interpretability）は、構造化された知識（例：疎なオートエンコーダ（SAE）の特徴量や対照的な活性化ベクトル）を生み出してきたが、モデルは自身の内部状態について信頼性を持って報告することはできない。

既存の**自己解釈（self-interpretation）**手法（SelfIEやPatchscopesのような活性化パッチングを用いるもの）は、内部表現をプロンプトに注入して自然言語による説明を生成しようと試みる。しかし、これらの手法は脆弱である：

ハイパーパラメータへの敏感さ： 注入されるベクトルのスケールをわずかに変えるだけで、流暢ではあるがセマンティックな根拠のない説明が生成される。
脆弱性： ほとんどのベクトルは、注入スケールの有効な範囲が非常に狭い。この範囲を外れると、モデルは自信に満ちているが誤った記述を生成する。
ファインチューニングの限界： 活性化に関する質問に答えるようにモデルをファインチューニングする最近のアプローチは、モデルの重みを変化させてしまう。これは、研究対象であるはずの表現そのものを変えてしまう可能性がある。理想的には、解釈器（interpreter）は対象となるモデル（subject model）と同一であるべきである。

2. 手法

著者らは、ベースとなる言語モデル（LM）を完全に凍結したまま、既存の解釈可能性アーティファクトから言語へのマッピングを行うための軽量なアダプターを訓練することを提案する。

2.1. 訓練フレームワーク

入力： 本手法は、解釈可能性アーティファクト（具体的にはベクトルとラベルのペア $(h, y)$ $(h, y)$ ）を教師データとして利用する。
- ソース1： 自己解釈ラベルとペアになったSAEデコーダベクトル。
- ソース2： 合成的なトピック記述とペアになった対照的活性化ベクトル（「[トピック]について教えて」といったプロンプトから派生したもの）。
プロセス：
1. ソースプロンプト（例：LMの特定のレイヤー）から活性化ベクトル $h$ を抽出する。
2. 軽量なアダプター関数 $f(h)$ がこのベクトルを変形する。
3. 変形されたベクトルが、トークン埋め込みレイヤー（レイヤー0）において「ターゲットプロンプト」（説明を求めるテンプレート）に注入される。
4. 凍結されたLMが自己回帰的に記述を生成する。
5. 目的関数： 生成されたトークンと正解ラベル $y$ の間のクロスエントロピー損失を最小化する。アダプターのパラメータのみが更新され、LMは凍結されたままとなる。

2.2. アダプター・アーキテクチャ

本論文では、様々な表現力を持つアダプターを評価している：

Identity（恒等）： $f(h) = h$ （パラメータ数 0）
Scale-only（スケールのみ）： $f(h) = \alpha \cdot h$ （パラメータ数 1）
Scalar Affine（スカラーアフィン）： $f(h) = \alpha \cdot h + b$ （パラメータ数 $d_{model} + 1$ ）
Scalar Affine + Low-Rank（スカラーアフィン + 低ランク）： 低ランク項 $UV^T h$ を追加。
Full-Rank Affine（フルランクアフィン）： $f(h) = Wh + b $（パラメータ数$ d_{model}^2 + d_{model}$）

2.3. 推論

推論時、訓練されたアダプターは未学習の活性化ベクトルをトークン埋め込み空間へとマッピングする。スケールへの敏感さに対処するため、システムは複数の注入スケール（対数グリッドによる）を評価し、最も優れたパフォーマンスを示す候補生成を選択する。

3. 主要な貢献と結果

3.1. 学習済みアダプターの優位性

学習済みの軽量アダプターは、未学習のベースライン（SelfIE）および元の訓練ラベル自体を大幅に上回る性能を示す。

SAE特徴量のラベリング： Llama-3.3-70Bにおいて、学習済みアダプターは70%の生成スコアリング・ヒット率を達成し、元の訓練ラベル（50%）および未学習のSelfIE（48%）を上回った。
トピック識別： 対照的活性化ベクトルにおいて、Recall@1は**約1%（未学習）から>90%（学習済み）**へと向上した。
暗黙的な推論： 本手法は、マルチホップ推論タスクにおける「ブリッジ・エンティティ」のデコードに成功した（例：『国家』の著者についてのクエリにおいて、モデルが中間ステップを言語化することなく「プラトン」を特定すること）。学習済みアダプターは、未学習のベースラインの56%に対し、**91%**のケースでブリッジ・エンティティを検出した。

3.2. バイアスベクトルの決定的な役割

驚くべき発見は、わずか $d_{model} + 1$ 個のパラメータを持つスカラーアフィン・アダプターで、ほとんどの改善が可能であるという点である。

学習されたバイアスベクトル ( $b$ ) 単独で、未学習のベースラインに対する改善の約**85%**を占めている。
バイアスは「解釈の事前分布（interpretation prior）」として機能し、モデルを有効な記述形式や一般的なコンテンツパターンへと誘導する一方で、スケーリングされた入力ベクトルはインスタンス固有のセマンティクスを提供する。
汎化性能： より表現力の高い代替案よりも、単純なアダプター（Scalar Affine）の方が、データセットやレイヤーを横断してより良く汎化する。

3.3. アーキテクチャと表現の幾何学

アダプター・アーキテクチャの性能は、訓練データの固有次元に大きく依存する：

対照的ベクトル（低次元）： Wikipediaトピックベクトルは、分散の90%以上が約200次元に集中している。この場合、Full-Rankアダプターが成功し、過学習することなく最高の性能を達成する。
SAE特徴量（高次元）： SAE特徴量は、ほぼ全活性化空間に広がっている。この場合、Full-Rankアダプターは壊滅的な過学習を起こし、高次元のルックアップテーブルを学習してしまう。汎化と確実な性能を確保するには、Scalar AffineまたはScalar Affine + Low-Rankのアダプターが必要である。

3.4. スケーリング挙動

本論文は、一般的な能力の向上とは独立して、自己解釈がモデルのスケールとともに向上することを実証している。

モデルの知識の天井として「タブー（Taboo）」ベースライン（モデルがトピックの名前を言わずに記述する手法）を用いたとき、モデルの知識と、その知識を報告する能力との差は、モデルサイズが増大するにつれて（7Bから72Bへ）縮小する。
学習済みSelfIEの性能は、モデルの生のトピック記述能力よりも速く成長しており、これは、より大きなモデルが、アダプターによって解き放つことのできる、よりアクセスしやすい内部セマンティック構造を備えていることを示唆している。

3.5. データセットおよびモデル間の汎化

あるデータセット（例：Wikipediaトピック）で訓練されたアダプターは、他のデータセット（例：SAE特徴量）にも汎化するが、訓練データと推論データの分布が一致している場合に最も高い性能を示す。
このアプローチは、対照的ベクトルを使用する場合、モデル固有のSAEを必要とせずに、モデルファミリー（Llama, Gemma, Qwen）を横断して機能する。

4. 意義と主張

本論文は、基礎となるモデルを変更することなく、軽量な変換から信頼性の高い自己解釈が創発し得ることを主張している。

アーティファクトの再定義： コアとなる洞察は、従来は分析の終着点と見なされていた解釈可能性アーティファクト（ラベル付きベクトル）を、訓練データとして再利用できるという点である。これにより、解釈可能性の研究が進展するにつれて、自己解釈システムも自動的に改善することが可能になる。
特権的アクセスの保持： ベースモデルを凍結したままにすることで、解釈器による対象モデルの内部状態への「特権的アクセス」を維持し、ファインチューニングによって導入されるアーティファクトを回避する。
検証可能性： このアプローチは、「内部報酬からの強化学習（RL from internal rewards）」を可能にする。つまり、モデルの内部状態に関する主張を、生成スコアリングなどを通じて行動に対して検証できるため、モデルが自身の内部に関する証拠を提示できる道を開くものである。
効率性： これらのアダプターの訓練は計算コストが低く（例：70Bスケールで約10 GPU時間）、フロンティアモデルを監査するためのスケーラブルなソリューションとなる。

著者らは、自己解釈は部分的な可視化を提供するものであるが、モデルが表明する出力とは異なる概念や意図をエンコードしているかどうかを検出するための極めて重要なメカニズムを提供し、AIの安全性とアライメントの監査に貢献すると結論付けている。

Learning Self-Interpretation from Interpretability Artifacts: Training Lightweight Adapters on Vector-Label Pairs