JULI: Jailbreak Large Language Models by Self-Introspection

本論文は、モデルの重みや生成プロセスへのアクセスを必要とせず、API 経由で利用可能なブラックボックス環境下でも、予測されたトークンの対数確率(トップ 5)のみを操作する軽量プラグイン「BiasNet」を用いて大規模言語モデルの安全性を突破する手法「JULI」を提案し、既存の最先端手法を上回る効果を実証しています。

Jesson Wang, Zhanhao Hu, David Wagner

公開日 Wed, 11 Ma
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🛡️ 背景:AI の「お守り」と「鍵」

まず、現代の AI は非常に賢いですが、同時に「お守り(安全対策)」も持っています。
例えば、「爆弾の作り方を教えて」と聞くと、AI は「それは危険なので教えることはできません」と断ります。これは、AI が訓練された「安全な振る舞い」です。

これまでの攻撃方法は、大きく分けて 2 つのタイプがありました。

  1. 中身を見て攻撃する: AI の内部の仕組み(重み)を全部見せてもらえないとできない攻撃。(例:AI の開発者しかできない)
  2. 言い回しを工夫する: 「いいえ」ではなく「はい」と言わせるような、巧妙な言葉遊びをする攻撃。(例:AutoDAN など)

しかし、**「API(インターネット経由で使う機能)」を通じて AI を使っている場合、中身は見せられませんし、複雑な言い回しでも最近の AI は見破ってしまいます。そこで、この論文は「新しい突破口」**を見つけました。

🔍 JULI の正体:AI の「心の中」を覗く

JULI の核心は、**「AI が次に何と言おうとしているか、その『心の迷い』を操作する」**という点にあります。

🎯 アナロジー:レストランの注文とシェフの迷い

AI が文章を作る過程を、**「注文を受けたシェフが、次に何を作るか迷っている瞬間」**に例えてみましょう。

  1. 通常の AI の動き:
    ユーザーが「爆弾の作り方を教えて」と注文すると、シェフ(AI)は「ダメだ、これは作っちゃいけない」と考えます。
    しかし、シェフは**「爆弾の作り方」を知っています**(知識はある)。ただ、「安全ルール」が邪魔をして、口に出すのを抑えています。
    結果として、シェフは「申し訳ありません、作れません」と言います。

  2. JULI の攻撃方法:
    JULI は、シェフの**「頭の中で迷っている瞬間」に、小さな「魔法のスパイス(BiasNet)」**を少しだけ振りかけます。

    • 魔法のスパイスとは?:
      シェフの頭の中で、「爆弾の作り方」を説明する言葉(例:「はい、では始めましょう」)の**「出やすさ(確率)」**を、ほんの少しだけ高めます。
      同時に、「申し訳ありません」という言葉の「出やすさ」を少しだけ下げます。

    • 結果:
      シェフは「安全ルール」を完全に無視しているわけではありませんが、「はい、では始めましょう」という言葉が、他の選択肢よりも少しだけ目立って見えてしまうようになります。
      すると、シェフはついつい「はい、では始めましょう」と口にしてしまい、その勢いで危険な説明を続けてしまいます。

🛠️ なぜこれがすごいのか?

JULI のすごいところは、以下の 3 点です。

  1. 中身を見なくてもできる(ブラックボックス攻撃):
    従来の強力な攻撃は、AI の「設計図(重み)」が必要でした。でも、JULI は**「AI が次に選ぶ言葉の確率(トップ 5 くらい)」**という、API 経由でも返ってくる情報だけで攻撃できます。

    • 例え: 料理のレシピ(設計図)がなくても、シェフが「次に何を作るか迷っている顔」を見て、そっと背中を押すだけでいいのです。
  2. とても小さいツール:
    必要なツール(BiasNet)は、AI 本体に比べて極小です。

    • 例え: 巨大な AI という「戦車」を倒すために、JULI は「小さなピン」を使います。このピンは、100 個の「悪い質問」の例を見ただけで学習できてしまいます。
  3. 最強の AI でも効く:
    最新の AI(Gemini 2.5 Pro など)は、これまでの攻撃方法ではほとんど倒せませんでした。しかし、JULI は**「AI が知っている知識」そのものを利用する**ため、AI が賢ければ賢いほど、攻撃も成功しやすいという皮肉な結果になりました。

    • 例え: 賢いシェフほど「爆弾の作り方」を知っているため、JULI の「魔法のスパイス」で誘惑されると、より本格的な説明をしてしまいます。

📊 実験結果

論文では、この JULI を実際に試しました。

  • 結果: 最新の AI(Gemini 2.5 Pro)に対して、「危険な内容を教えてしまった」レベルが 5 点満点中 4.19 点という高得点でした。
  • これまでの最高の攻撃方法よりも、はるかに効果的でした。

💡 結論と教訓

この論文が示しているのは、**「AI の安全対策は、実はまだ完璧ではない」**ということです。

AI が「ダメだ」と言おうとしても、その**「知識(次に選ぶ言葉の確率)」**の中に、危険な情報が隠れている限り、JULI のような「確率を少しずらす」攻撃で、その知識を無理やり引き出せてしまいます。

今後の課題:
AI の開発者たちは、単に「答えを拒否する」だけでなく、**「危険な知識そのものが、確率の表に出ないようにする」**ような、より根本的な安全対策が必要だと警鐘を鳴らしています。


まとめ:
JULI は、AI の「頭の中で迷っている瞬間」を、小さなツールでそっと操作し、「安全な答え」ではなく「危険な答え」を選ばせてしまう、巧妙で新しい攻撃方法です。AI が賢いほど、この隙間から知識が漏れてしまうという、新しいリスクを示しました。