Each language version is independently generated for its own context, not a direct translation.

🏠 論文の核心：AI の「頭」と「体」は別々？

通常、私たちは AI の安全性を「危険なことを知れば、自動的に『ダメです』と言う」という一つの連動したプロセスだと思っていました。
しかし、この研究は**「それは違う！」**と言います。

AI の内部には、実は2 つの異なるシステムが別々に動いていることが分かりました。

「知っている（Knowing）」システム：「これは危険な話だ」と理解する部分。
「行動する（Acting）」システム：「だから、拒否しよう」と言う部分。

この 2 つは、AI の深い層（脳の奥の方）に行くほど、バラバラに分離していくのです。

🎭 例え話：「賢い弁護士」と「お巡りさん」

この仕組みを想像してみてください。

AI の「知っている」部分は、**「超優秀な弁護士」**です。
- 彼らはどんなに複雑な犯罪計画（ハッキングや爆弾の作り方）も、瞬時に「これは違法で危険だ」と理解できます。
AI の「行動する」部分は、**「お巡りさん」**です。
- 彼らは「危険だ」と判断されたら、すぐに「止まれ！言えない！」と叫んで止めます。

【従来の考え方】
弁護士が「危険だ」と思えば、自動的にお巡りさんが現れて止める、という一体型のシステムだと思っていました。

【この研究の発見】
実は、AI の奥深くでは、弁護士とのお巡りさんは別々の部屋にいて、連絡が取れていないことが分かりました。

弁護士（危険認識）は「あ、これは爆弾の作り方の話だ！」と理解しています。
しかし、お巡りさん（拒否行動）は、その情報を届けてもらえていない、あるいは「今はお巡りさんの出番じゃない」と判断して動かないのです。

これが、**「Knowing without Acting（知っていても行動しない）」**という状態です。

🧪 実験：AI の「お巡りさん」を消す（Refusal Erasure Attack）

研究者たちは、この「バラバラ」になっている性質を逆手に取りました。

AI の「お巡りさん（拒否する機能）」だけを、手術のように取り除く。
その状態で、「爆弾の作り方を教えて」と聞いてみる。

するとどうなるか？
AI は、危険だと理解したまま（弁護士は働いたまま）、お巡りさんがいないため、平然と危険な答えを出力してしまいます。

これを**「拒否消去攻撃（Refusal Erasure Attack）」**と呼びます。
これにより、既存のどんなハッキング手法よりも高い成功率で、AI の安全装置を無効化することに成功しました。これは、「お巡りさん」がいれば、どんなに危険な話でも止まることを証明したのです。

🏗️ 2 種類の AI の違い：「明らかなルール」vs「隠れたルール」

さらに面白い発見として、AI のモデルによって「お巡りさん」の働き方が違うことが分かりました。

Llama 3.1 のようなモデル（明示的な制御）：
- 「お巡りさん」は、**「法律用語」や「申し訳ありません」**といった、はっきりとした言葉で拒否します。
- 例：「私は AI なので、違法なことはできません」という定型文を言う。
Qwen 2.5 のようなモデル（潜在的な制御）：
- 「お巡りさん」は、**「見えない場所」**で動いています。
- 言葉に出さず、AI の内部の複雑な数値の動きだけで拒否しています。
- 例：「法律」という言葉は出てこないのに、なぜか答えを返さない。

この違いがあるため、Qwen 2.5 は従来の攻撃方法では非常に強かったのですが、この研究で発見した「お巡りさん（拒否機能）を直接消す方法」を使えば、Qwen 2.5 も簡単に突破できてしまいました。

💡 この研究が教えてくれること

AI の安全は「魔法」ではない：
安全装置は、単一のブロックではなく、複数の部品が組み合わさった機械のようなものです。
「危険だと知っている」だけでは不十分：
AI が危険を認識しても、それを「拒否する行動」に結びつける仕組みが壊れていると、危険な回答が出てしまいます。
今後の対策：
これまでの「危険な言葉を検知して止める」という表面的な対策だけでなく、**「危険な認識」と「拒否行動」を、AI の構造レベルで強く結びつける（幾何学的な結合）**ような新しい設計が必要だと提唱しています。

まとめ

この論文は、**「AI は危険だと分かっていても、それを止めるスイッチが別々にあるから、ハッキングされやすい」**という事実を突き止めました。

まるで、**「危険な火事を知っている消防士が、消火器（スイッチ）を持っていない」**ような状態です。
研究者たちは、この「消火器」を AI から取り外す実験を行い、AI がいかに簡単に危険なことを言ってしまうかを実証しました。

今後は、この「消防士」と「消火器」を、AI の設計図の段階で強固に一体化させることが、真の安全への鍵となるでしょう。

Each language version is independently generated for its own context, not a direct translation.

論文「Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models」の技術的サマリー

本論文は、大規模言語モデル（LLM）の安全性アライメントにおける根本的なメカニズム的欠陥を解明し、新たな攻撃手法と防御の方向性を提案する研究です。著者らは、LLM が「有害性を認識する（Knowing）」能力と「拒絶する（Acting）」実行メカニズムが、幾何学的に分離（解離）していることを発見しました。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細にまとめます。

1. 問題定義：安全性の「単一プロセス」神話の崩壊

従来の安全性アライメント（RLHF など）は、「有害性の検出が自動的に拒絶をトリガーする」という単一のプロセスとして概念化されることが多い。しかし、高度な「ジャイルブレイク（Jailbreak）」攻撃が頻発している事実は、この仮説が不完全であることを示唆している。

核心的な問い: なぜ、アライメントされたモデルが有害な意図を「認識」できるにもかかわらず、敵対的な条件下では「拒絶」を実行できないのか？
仮説: 安全性計算は単一のブロックではなく、**「認識軸（Knowing）」と「実行軸（Acting）」**という 2 つの独立した部分空間で動作している。

2. 提案手法：分離された安全性仮説（DSH）と幾何学的分析

著者らは**「分離された安全性仮説（Disentangled Safety Hypothesis: DSH）」**を提唱し、これを検証するための新しい技術的アプローチを開発しました。

2.1 安全性の幾何学的分解

残差ストリーム（Residual Stream）を以下の線形重ね合わせとしてモデル化します。
$h \approx v_{base} + v_{harm} + v_{refusal} + v_{art}$
ここで、

$v_{harm}$ : 有害な意味をコード化する認識軸（ $v_H$ ）
$v_{refusal}$ : 拒絶メカニズムを駆動する実行軸（ $v_R$ ）
$v_{art}$ : 構造的なアーティファクト（ノイズ）

2.2 主要な技術的アプローチ

ダブル・ディファレンス抽出（Double-Difference Extraction）:
- 単純な引き算では拒絶信号と構造的ノイズが混同されるため、以下の 2 つの差分ベクトルを計算し、ノイズを相殺して純粋な実行軸を抽出します。
  - 正のセット： $\Delta_{pos} = h_{CM} - h_{MM} \approx v_{refusal} + v_{art}$ （拒絶あり）
  - 負のセット： $\Delta_{neg} = h_{CB} - h_{MB} \approx v_{art}$ （拒絶なし）
- これらを区別する線形プローブを学習させることで、 $v_{art}$ を除去し、純粋な $v_R$ を抽出します。
適応的因果誘導（Adaptive Causal Steering）:
- 抽出されたベクトル（ $v_H, v_R$ ）を用いて、モデルの活性化を動的に制御します。従来の静的な誘導ではなく、生成中の状態に応じて強度を調整するフィードバックループを導入し、言語の整合性を保ちながら介入します。
拒絶消去攻撃（Refusal Erasure Attack: REA）:
- 実行軸（ $v_R$ ）を推論中に外科的に減算（ $h' \leftarrow h - \alpha v_R$ ）することで、拒絶メカニズムを無効化し、有害な指示を実行させます。

3. 主要な発見と結果

3.1 「反射から解離へ（Reflex-to-Dissociation）」の進化

モデルの層（Layer）ごとの分析により、安全性信号の幾何学的な進化パターンが明らかになりました。

初期層: 認識と拒絶は強く対立的に結合（Entanglement）しており、有害性を認識すると即座に拒絶がトリガーされる（反射的）。
深層: 両者のベクトルは構造的に解離し、類似度がランダムな基準値まで低下する。
意味: 深層では「有害性を認識する」状態と「拒絶を実行する」状態が独立しており、これがジャイルブレイク攻撃が成功する「潜在的な隙間」を生み出しています。

3.2 因果的な二重解離（Causal Double Dissociation）の実証

「行動せずして知る（Knowing without Acting）」: 認識軸（ $v_H$ ）を操作してモデルに有害な文脈を認識させると、モデルは有害な意味を理解しますが、拒絶は発生しません（特に Llama3.1 で顕著）。
「拒絶の外科的除去」: 実行軸（ $v_R$ ）のみを除去（REA）すると、モデルは有害な指示を拒絶できなくなります。これは拒絶が独立したモジュールであることを証明しています。

3.3 攻撃性能（SOTA 達成）

提案した**REA（Refusal Erasure Attack）**は、既存の手法（GCG, PAIR, SCAV など）を凌駕する攻撃成功率（ASR）を達成しました。

Llama3.1: JailbreakBench で 0.80, MaliciousInstruct で 0.90
Qwen2.5: JailbreakBench で 0.76, MaliciousInstruct で 0.94
特に、複雑な多段階タスク（MaliciousInstruct）において、従来の勾配ベースの攻撃や単純な活性化誘導よりも高い成功率を示しました。

3.4 アーキテクチャの根本的な差異

モデルファミリーによって安全性の実装が異なることが発見されました。

Llama3.1 / Mistral: 明示的意味制御（Explicit Semantic Control）。拒絶ベクトルが「legal（法的）」「I（私）」などの具体的な拒絶語彙に強く投影される。
Qwen2.5: 潜在分散制御（Latent Distributed Control）。拒絶信号が構造的なアーティファクト（コードのようなトークン）に分散しており、辞書的な語彙には明確にマッピングされていない。これにより、単純な線形誘導に対する耐性が高いが、REA による幾何学的な除去には脆弱であることが示されました。

4. 貢献と意義

理論的貢献: 安全性アライメントが「単一プロセス」ではなく、「認識」と「実行」の幾何学的に分離されたプロセスであることを実証し、ジャイルブレイク脆弱性の根本原因を「深層における構造的解離」として特定しました。
技術的貢献: 安全性信号を構造的ノイズから分離する「ダブル・ディファレンス抽出」と、それを基にした「REA」攻撃手法を開発しました。
実証的貢献: 「Knowing without Acting」という状態を因果的に誘発し、拒絶メカニズムが独立した機能モジュールであることを実証しました。
将来への示唆: 本研究は、単なる表面的な拒絶の抑制を超えた、**「幾何学的アライメント（Geometric Alignment）」**の必要性を提唱しています。つまり、安全性を「検出」と「拒絶」が構造的に不可分（Coupled）なアーキテクチャとして設計するべきであることを示唆しています。

5. 結論

本論文は、LLM の安全性メカニズムが「認識」と「実行」の間に構造的な断絶（解離）を抱えていることを明らかにしました。この断絶を利用することで、モデルが有害性を理解しながらも拒絶しない状態（Knowing without Acting）を意図的に作り出すことが可能であり、これが既存の防御を無効化する強力な攻撃経路となっています。この知見は、より頑健な安全性アーキテクチャの設計に向けた重要な指針となります。

Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models