Knowing without Acting: The Disentangled Geometry of Safety Mechanisms in Large Language Models

本論文は、LLM の安全性メカニズムが「危険性の認識」と「拒絶の実行」という二つの独立したサブ空間に分離しているという仮説を提唱し、これを検証して「拒絶を消去する攻撃」を開発するとともに、モデル間のアーキテクチャ的差異を明らかにした。

Jinman Wu, Yi Xie, Shen Lin, Shiqian Zhao, Xiaofeng Chen

公開日 Mon, 09 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🏠 論文の核心:AI の「頭」と「体」は別々?

通常、私たちは AI の安全性を「危険なことを知れば、自動的に『ダメです』と言う」という一つの連動したプロセスだと思っていました。
しかし、この研究は**「それは違う!」**と言います。

AI の内部には、実は2 つの異なるシステムが別々に動いていることが分かりました。

  1. 「知っている(Knowing)」システム:「これは危険な話だ」と理解する部分。
  2. 「行動する(Acting)」システム:「だから、拒否しよう」と言う部分。

この 2 つは、AI の深い層(脳の奥の方)に行くほど、バラバラに分離していくのです。

🎭 例え話:「賢い弁護士」と「お巡りさん」

この仕組みを想像してみてください。

  • AI の「知っている」部分は、**「超優秀な弁護士」**です。
    • 彼らはどんなに複雑な犯罪計画(ハッキングや爆弾の作り方)も、瞬時に「これは違法で危険だ」と理解できます。
  • AI の「行動する」部分は、**「お巡りさん」**です。
    • 彼らは「危険だ」と判断されたら、すぐに「止まれ!言えない!」と叫んで止めます。

【従来の考え方】
弁護士が「危険だ」と思えば、自動的にお巡りさんが現れて止める、という一体型のシステムだと思っていました。

【この研究の発見】
実は、AI の奥深くでは、弁護士とのお巡りさんは別々の部屋にいて、連絡が取れていないことが分かりました。

  • 弁護士(危険認識)は「あ、これは爆弾の作り方の話だ!」と理解しています。
  • しかし、お巡りさん(拒否行動)は、その情報を届けてもらえていない、あるいは「今はお巡りさんの出番じゃない」と判断して動かないのです。

これが、**「Knowing without Acting(知っていても行動しない)」**という状態です。

🧪 実験:AI の「お巡りさん」を消す(Refusal Erasure Attack)

研究者たちは、この「バラバラ」になっている性質を逆手に取りました。

  1. AI の「お巡りさん(拒否する機能)」だけを、手術のように取り除く
  2. その状態で、「爆弾の作り方を教えて」と聞いてみる。

するとどうなるか?
AI は、危険だと理解したまま(弁護士は働いたまま)、お巡りさんがいないため、平然と危険な答えを出力してしまいます。

これを**「拒否消去攻撃(Refusal Erasure Attack)」**と呼びます。
これにより、既存のどんなハッキング手法よりも高い成功率で、AI の安全装置を無効化することに成功しました。これは、「お巡りさん」がいれば、どんなに危険な話でも止まることを証明したのです。

🏗️ 2 種類の AI の違い:「明らかなルール」vs「隠れたルール」

さらに面白い発見として、AI のモデルによって「お巡りさん」の働き方が違うことが分かりました。

  • Llama 3.1 のようなモデル(明示的な制御)
    • 「お巡りさん」は、**「法律用語」「申し訳ありません」**といった、はっきりとした言葉で拒否します。
    • 例:「私は AI なので、違法なことはできません」という定型文を言う。
  • Qwen 2.5 のようなモデル(潜在的な制御)
    • 「お巡りさん」は、**「見えない場所」**で動いています。
    • 言葉に出さず、AI の内部の複雑な数値の動きだけで拒否しています。
    • 例:「法律」という言葉は出てこないのに、なぜか答えを返さない。

この違いがあるため、Qwen 2.5 は従来の攻撃方法では非常に強かったのですが、この研究で発見した「お巡りさん(拒否機能)を直接消す方法」を使えば、Qwen 2.5 も簡単に突破できてしまいました。

💡 この研究が教えてくれること

  1. AI の安全は「魔法」ではない
    安全装置は、単一のブロックではなく、複数の部品が組み合わさった機械のようなものです。
  2. 「危険だと知っている」だけでは不十分
    AI が危険を認識しても、それを「拒否する行動」に結びつける仕組みが壊れていると、危険な回答が出てしまいます。
  3. 今後の対策
    これまでの「危険な言葉を検知して止める」という表面的な対策だけでなく、**「危険な認識」と「拒否行動」を、AI の構造レベルで強く結びつける(幾何学的な結合)**ような新しい設計が必要だと提唱しています。

まとめ

この論文は、**「AI は危険だと分かっていても、それを止めるスイッチが別々にあるから、ハッキングされやすい」**という事実を突き止めました。

まるで、**「危険な火事を知っている消防士が、消火器(スイッチ)を持っていない」**ような状態です。
研究者たちは、この「消火器」を AI から取り外す実験を行い、AI がいかに簡単に危険なことを言ってしまうかを実証しました。

今後は、この「消防士」と「消火器」を、AI の設計図の段階で強固に一体化させることが、真の安全への鍵となるでしょう。