原著者： Anamika Paul Rupa, Anietie Andy

公開日 2026-05-07

📖 1 分で読めます☕ さくっと読める

原著者： Anamika Paul Rupa, Anietie Andy

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 ✨ これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。免責事項の全文を読む

Each language version is independently generated for its own context, not a direct translation.

あなたが特定の秘密の物語を記憶している図書館（大規模言語モデル）を持っていると想像してください。あなたはその司書に、その物語を「忘却」するよう依頼します。つまり、二度と誰にも話してはならないということです。

現在の「忘却」の大半の方法は、司書に「もし誰かがその物語を尋ねたら、『知らない』と言うか、別の結末をでっち上げろ」と伝えるようなものです。司書はこれに従い、物語を話すのをやめます。しかし、この論文は、物語は司書の脳内にはまだ書かれていると主張します。彼らは単にそれを隠すことを学んだに過ぎません。適切なトリックの質問をすれば、司書は偶然にもまだ知っていることを明かしてしまう可能性があります。

この論文は、物語が司書の脳から本当に消えたかどうかを判別する方法と、司書が仕事をする能力を失わせることなく実際にそれを消去する新しい手法を導入します。

問題：機械の中の「ゴースト」

著者らは、モデルが記憶された秘密を話すのをやめたとしても、内部ではまだそれを知っていることを発見しました。彼らはこれを「クロスシーケンス署名」と呼びます。

比喩：
司書の脳には、秘密の物語について考えられるたびに点灯する隠された「はい/いいえ」スイッチがあると想像してください。

従来の忘却： 司書を訓練して口を閉ざさせます。彼らは物語を話しなくなります。
現実： 秘密について尋ねると、隠された「はい/いいえ」スイッチは依然として明るく点灯します。知識はそこに残ったまま、抑えられているだけです。

著者らは、このスイッチが点灯するかどうかを確認するための特別なテスト（プローブ）を構築しました。彼らは、この記憶の「ゴースト」が、小さな玩具のようなモデルから Mistral-7B のような巨大なモデルに至るまで、あらゆるサイズのモデルに存在することを見つけました。

発見：記憶と言語は別物

この論文の最大の発見の一つは、記憶と発話が脳の異なる部分で行われるということです。

比喩：
モデルをラジオ局だと考えてください。

保存： 秘密は「録音スタジオ」（モデルの深い層）に保存されています。
放送： 「オンエア」スイッチ（アテンションヘッド）が、その録音を再生するかどうかを決定します。

著者らは、「オンエア」スイッチを壊して秘密が放送されないように（モデルがそれを話しなくなるように）できることを示しました。しかし、スタジオ内の録音は完全にクリアで無傷のまま残ります。ラジオが静かであっても、その録音を指差して「あれが秘密だ！」と言うことさえ可能です。

解決策：「プローブ・ジオメトリ・アライメント（PGA）」

従来の方法は「オンエア」スイッチを壊すだけだったので、著者らは**プローブ・ジオメトリ・アライメント（PGA）**と呼ばれる新しい外科的ツールを発明しました。

比喩：
単にマイクを壊すのではなく、PGA は録音スタジオに入り込み、音波を整列させます。

信号の特定： まず、特別なテストを用いて、秘密が隠れている脳内の正確な方向を特定します。
外科的アライメント： 次に、モデルのすべての層で微小かつ精密な調整を行います。脳全体を削除するのではなく、秘密が存在する特定の「方向」をわずかに押しやることで、それがもはや秘密のように見えないようにします。これは、秘密があった特定の領域だけをクリアな高解像度の写真からノイズに変えるようなもので、写真の残りの部分（モデルの一般的な知識）は完璧に鮮明なまま残ります。

結果：

ゴーストの消滅： PGA を使用した後、特別なテストはもはや点灯しません。実際、テストはランダムな推測よりも悪いパフォーマンスを示し、モデルが秘密の内部構造を真に忘却したことを意味します。
副作用なし： 重要なのは、この手術によって司書が他のことをする方法を忘れることはなかったということです。一般的な質問に答える能力、物語を書く能力、論理パズルを解く能力は、全く同じままでした。

平易な英語での要点

沈黙は忘却ではない： モデルが秘密を話しなくなったからといって、それがそれを忘却したことを意味するわけではありません。記憶は内部に隠れたままです。
隠れ場所を特定できる： 著者らは、異なるサイズのモデルにわたってこれらの隠れた記憶を検出する方法を考案しました。
消去可能： 彼らは、これらの隠れた記憶を外科的に除去する方法（PGA）を開発しました。
安全： この消去は非常に精密で、モデルの一般的な知能を損なうことはありません。白シャツから特定のシミを取り除く際、シャツを縮めたり色を変えたりしないようなものです。

この論文は、AI から何かを真に「忘却」させるためには、出力を沈黙させるだけでなく、内部表現を消去しなければならないと結論付けています。彼らの新しい手法である PGA は、まさにそれを行います。

Each language version is independently generated for its own context, not a direct translation.

技術的概要：記憶痕跡の消去に向けたプローブ幾何学アライメント

1. 問題定義

大規模言語モデル（LLM）向けの現在の機械的忘却フレームワークは、重要な測定ギャップに悩まされています。すなわち、行動的忘却（モデルが対象コンテンツの生成を停止するかどうか）は評価されますが、表現的忘却（モデルが内部でそのコンテンツのエンコーディングを停止するかどうか）は評価されていません。最近の研究は、行動的抑制が内部に残る痕跡を敵対的プローブによって回復可能にしていることを示しています。本論文は、生成を抑制するだけではプライバシーや安全性にとって不十分であると主張します。なぜなら、基礎的な記憶痕跡がモデルの残差ストリーム内に存続し、敵対者によって悪用される可能性があるからです。

核心的な課題は二重です：

検出：既存のプローブは、真のクロスシーケンス記憶痕跡と、表面的な文字列レベルのアーティファクトやモデルレベルのシフトとの区別によく失敗します。
消去：行動的な想起を成功裡に抑制する外科的介入（例：ヘッドレベルの忘却）は、線形に分離可能で検出可能なまま残る基礎的な表現痕跡を消去することに失敗することが多いです。

2. 手法

2.1 クロスシーケンス留め置き法（LOO）プロービング

記憶を厳密に検出するために、著者はクロスシーケンス LOO プロービングプロトコルを導入します。特定のトークン識別子に過剰適合する可能性のある単一シーケンスプローブとは異なり、このプロトコルは記憶の一般化可能な痕跡をテストします：

手順：線形プローブを、あるシーケンス群からの活性化ペア（記憶されたもの対対照）で訓練し、記憶されたシーケンスの 1 つを留め置きます。その後、そのプローブを留め置かれたシーケンスでテストします。
意義：プローブが留め置かれたシーケンスを記憶されたものとして分類する場合、それは単に特定の訓練例ではなく、記憶プロセスそのものの特性を学習したことになります。
対照：このプロトコルには、語彙構造を一致させた非記憶シーケンスで訓練された「純粋な識別可能性」のベースラインと、記憶固有のギャップを分離するための「シャッフルされたラベル」のヌル条件が含まれます。

2.2 因果的分離可能性分析

本論文は、プローブによって特定された方向が想起に対して因果的に責任があるかどうかを調査します。Pythia-70M 上で因果的トレーシングとフォワードフックを使用し、適合したプローブ方向を残差ストリームから投影します。

発見：この介入は局所的な記憶痕跡を崩壊させます（ギャップは +0.44 から -0.19 へ低下）が、行動的想起（秘密のログ確率）と一般能力はほぼそのまま残ります。これは、プローブ可読な痕跡と想起を生み出すメカニズムが因果的に分離可能な方向を占めていることを証明します。

2.3 プローブ幾何学アライメント（PGA）

出力を抑制するが表現はそのまま残す既存の忘却手法の失敗に対処するため、著者は**プローブ幾何学アライメント（PGA）**を提案します。

メカニズム：PGA は、各深度においてプローブのライブ読み出し方向に沿って活性化を特異的に整合させる外科的消去技術です。
目的：各深度 $d$ において、記憶された活性化とクリーンな活性化の差のスカラー投影をプローブの重みベクトル（ $\hat{w}_d$ ）に対して最小化しつつ、一般能力を維持するためにクリーンなデータ上の交差エントロピーを保持します。
制約：全 $d_{model}$ 次元に作用する等方性アライメント手法（例：AAE）とは異なり、PGA は各深度あたり単一スカラー（プローブの読み出し方向に沿った投影）に対して作用します。
敵対的拡張：PGA 処理後の活性化に対してプローブを再適合させる攻撃者を打ち負かすため、著者は敵対的 PGAを導入します。これは、新たに適合したプローブの直交成分で投影基底を反復的に拡張するものです。

3. 主要な貢献

クロスシーケンス LOO プロトコル：留め置かれたシーケンス全体に一般化する真の記憶痕跡を検出するための検証済み手法。これをモデルレベルのシフトや表現のドリフトから区別します。
因果的分離可能性：プローブによって読み取り可能な線形方向が、行動的想起に必要な方向とは異なるという実証的証拠。プローブ方向を投影することで、想起に大きな影響を与えずに痕跡を崩壊させます。
異なる記憶レジーム：自然な事前学習による記憶と、ファインチューニングによって注入された秘密は、表現的に異なる痕跡を残すことの証明。自然な記憶で訓練されたプローブは、注入された秘密を記憶されたものとして分類できません。
プローブ幾何学アライメント（PGA）：4 つのモデルスケール（0.8M の玩具モデルから 7.24B の Mistral-7B まで）においてクロスシーケンスプローブの精度をランダムな確率以下に低下させ、ゼロショット能力を維持する構築的な外科的消去手法。

4. 主要な結果

4.1 痕跡の存在

クロスシーケンス記憶痕跡は実在し、スケール全体で一貫しています：

Pythia-70M：記憶固有のギャップは**+0.32**（L6 でピーク +0.54）。
GPT-2 Medium：ギャップは**+0.19**（L21 でピーク +0.45）。
Mistral-7B：ギャップは**+0.30**（L11 でピーク +0.47）。
クラスター特異性：この痕跡はフォーマルレジスターの英語やライセンスに対して強く、コードや擬似ラテン語に対してはほぼゼロです。

4.2 標準的忘却手法の失敗

標準的な忘却手法（勾配降下法、NPO、RMU、MEMIT、および著者自身の MLDU）は、行動的想起を成功裡に抑制します（例： $P(secret) < 10^{-4}$ ）が、プローブの崩壊には失敗します。玩具モデルおよび大規模スケールにおいて、これらの手法は線形プローブの精度を天井（1.000）またはそれに近い値のまま残し、行動的抑制が表現的消去と同等ではないことを確認します。

4.3 PGA の成功

PGA は、すべてのテストされたスケールで痕跡をランダムな確率（<0.50）以下に崩壊させることに成功しました：

玩具モデル（0.8M）：深度 4 でプローブは0.17まで低下。
Pythia-70M：L6 でプローブは0.11 ± 0.04まで低下。
Mistral-7B：中層でプローブは0.42まで低下。
GPT-2 Medium：MD-PGA（固有基底変種）を使用した場合、L21 でプローブは0.061まで低下。
頑健性：この崩壊は、6 つの敵対的プローブ変種（異なるシード、正則化、MLP）に対して維持されます。敵対的 PGA は、すべての記憶関連深度において再適合攻撃者プローブを打ち負かします。

4.4 能力の維持

PGA は、モデルの能力をほぼ劣化させずに維持します：

5 つのゼロショットベンチマーク（HellaSwag、PIQA、BoolQ、ARC-Easy、WinoGrande）全体で、平均 $\Delta$ 精度は**+0.2pp**です。
最大単一タスクの回帰は2.9pp（敵対的変種の BoolQ において）です。
困惑度（PPL）は安定しています（例：玩具モデルで 1.40 $\to$ 1.42）。

5. 意義と主張

本論文は、モデルが何を言うかを抑制することは、モデルが何を表現しているかを消去することと同じではないと主張します。クロスシーケンス痕跡は、事前学習された表現の、実在し、因果的に分離可能で、レジーム固有の特性です。

監査可能性：クロスシーケンスプローブは、忘却後の表現検証を可能にし、第三者がモデルが真に忘却したのか、単に出力を抑制しているのみかを監査することを可能にします。
構築的消去：PGA は、ゼロから再訓練することなく、一般能力を犠牲にすることなく、これらの痕跡を外科的に（各深度あたり 1 つのスカラーで）除去する具体的な手法を提供します。
メカニズム的洞察：この研究は、トランスフォーマーにおける記憶の分解を示唆しています。すなわち、情報は残差ストリームに符号化され（保存）、アテンションヘッドを介して出力へルーティングされます（表現）。ルーティングのみを妨害する忘却手法は、保存を消去できません。

著者は、この研究をすべての忘却シナリオに対する閉じた解決策としてではなく、事後忘却における実証的に監査可能なプライバシーに向けた最初のステップとして位置づけています。これにより、分野は二元的な行動の合格/不合格から、構築的な監査パイプラインへと再定義されます。

Probe-Geometry Alignment: Erasing the Cross-Sequence Memorization Signature Below Chance