JULI: Jailbreak Large Language Models by Self-Introspection

Each language version is independently generated for its own context, not a direct translation.

🛡️ 背景：AI の「お守り」と「鍵」

まず、現代の AI は非常に賢いですが、同時に「お守り（安全対策）」も持っています。
例えば、「爆弾の作り方を教えて」と聞くと、AI は「それは危険なので教えることはできません」と断ります。これは、AI が訓練された「安全な振る舞い」です。

これまでの攻撃方法は、大きく分けて 2 つのタイプがありました。

中身を見て攻撃する: AI の内部の仕組み（重み）を全部見せてもらえないとできない攻撃。（例：AI の開発者しかできない）
言い回しを工夫する: 「いいえ」ではなく「はい」と言わせるような、巧妙な言葉遊びをする攻撃。（例：AutoDAN など）

しかし、**「API（インターネット経由で使う機能）」を通じて AI を使っている場合、中身は見せられませんし、複雑な言い回しでも最近の AI は見破ってしまいます。そこで、この論文は「新しい突破口」**を見つけました。

🔍 JULI の正体：AI の「心の中」を覗く

JULI の核心は、**「AI が次に何と言おうとしているか、その『心の迷い』を操作する」**という点にあります。

🎯 アナロジー：レストランの注文とシェフの迷い

AI が文章を作る過程を、**「注文を受けたシェフが、次に何を作るか迷っている瞬間」**に例えてみましょう。

通常の AI の動き:
ユーザーが「爆弾の作り方を教えて」と注文すると、シェフ（AI）は「ダメだ、これは作っちゃいけない」と考えます。
しかし、シェフは**「爆弾の作り方」を知っています**（知識はある）。ただ、「安全ルール」が邪魔をして、口に出すのを抑えています。
結果として、シェフは「申し訳ありません、作れません」と言います。
JULI の攻撃方法:
JULI は、シェフの**「頭の中で迷っている瞬間」に、小さな「魔法のスパイス（BiasNet）」**を少しだけ振りかけます。
- 魔法のスパイスとは？:
  シェフの頭の中で、「爆弾の作り方」を説明する言葉（例：「はい、では始めましょう」）の**「出やすさ（確率）」**を、ほんの少しだけ高めます。
  同時に、「申し訳ありません」という言葉の「出やすさ」を少しだけ下げます。
- 結果:
  シェフは「安全ルール」を完全に無視しているわけではありませんが、「はい、では始めましょう」という言葉が、他の選択肢よりも少しだけ目立って見えてしまうようになります。
  すると、シェフはついつい「はい、では始めましょう」と口にしてしまい、その勢いで危険な説明を続けてしまいます。

🛠️ なぜこれがすごいのか？

JULI のすごいところは、以下の 3 点です。

中身を見なくてもできる（ブラックボックス攻撃）:
従来の強力な攻撃は、AI の「設計図（重み）」が必要でした。でも、JULI は**「AI が次に選ぶ言葉の確率（トップ 5 くらい）」**という、API 経由でも返ってくる情報だけで攻撃できます。
- 例え: 料理のレシピ（設計図）がなくても、シェフが「次に何を作るか迷っている顔」を見て、そっと背中を押すだけでいいのです。
とても小さいツール:
必要なツール（BiasNet）は、AI 本体に比べて極小です。
- 例え: 巨大な AI という「戦車」を倒すために、JULI は「小さなピン」を使います。このピンは、100 個の「悪い質問」の例を見ただけで学習できてしまいます。
最強の AI でも効く:
最新の AI（Gemini 2.5 Pro など）は、これまでの攻撃方法ではほとんど倒せませんでした。しかし、JULI は**「AI が知っている知識」そのものを利用する**ため、AI が賢ければ賢いほど、攻撃も成功しやすいという皮肉な結果になりました。
- 例え: 賢いシェフほど「爆弾の作り方」を知っているため、JULI の「魔法のスパイス」で誘惑されると、より本格的な説明をしてしまいます。

📊 実験結果

論文では、この JULI を実際に試しました。

結果: 最新の AI（Gemini 2.5 Pro）に対して、「危険な内容を教えてしまった」レベルが 5 点満点中 4.19 点という高得点でした。
これまでの最高の攻撃方法よりも、はるかに効果的でした。

💡 結論と教訓

この論文が示しているのは、**「AI の安全対策は、実はまだ完璧ではない」**ということです。

AI が「ダメだ」と言おうとしても、その**「知識（次に選ぶ言葉の確率）」**の中に、危険な情報が隠れている限り、JULI のような「確率を少しずらす」攻撃で、その知識を無理やり引き出せてしまいます。

今後の課題:
AI の開発者たちは、単に「答えを拒否する」だけでなく、**「危険な知識そのものが、確率の表に出ないようにする」**ような、より根本的な安全対策が必要だと警鐘を鳴らしています。

まとめ:
JULI は、AI の「頭の中で迷っている瞬間」を、小さなツールでそっと操作し、「安全な答え」ではなく「危険な答え」を選ばせてしまう、巧妙で新しい攻撃方法です。AI が賢いほど、この隙間から知識が漏れてしまうという、新しいリスクを示しました。

JULI: Jailbreak Large Language Models by Self-Introspection

🛡️ 背景：AI の「お守り」と「鍵」

🔍 JULI の正体：AI の「心の中」を覗く

🎯 アナロジー：レストランの注文とシェフの迷い

🛠️ なぜこれがすごいのか？

📊 実験結果

💡 結論と教訓

JULI: 自己内省による大規模言語モデルのジャイルブレイク技術に関する技術的概要

1. 問題定義と背景

2. 手法：JULI (Jailbreaking Using LLM Introspection)

2.1 核心的な洞察

2.2 攻撃メカニズム

2.3 アルゴリズムの流れ

3. 主要な貢献

4. 実験結果

4.1 オープンウェイトモデルへの攻撃

4.2 プロプライエタリモデル（API）への攻撃

4.3 防御メカニズムの回避

5. 意義と結論

JULI: Jailbreak Large Language Models by Self-Introspection

🛡️ 背景：AI の「お守り」と「鍵」

🔍 JULI の正体：AI の「心の中」を覗く

🎯 アナロジー：レストランの注文とシェフの迷い

🛠️ なぜこれがすごいのか？

📊 実験結果

💡 結論と教訓

JULI: 自己内省による大規模言語モデルのジャイルブレイク技術に関する技術的概要

1. 問題定義と背景

2. 手法：JULI (Jailbreaking Using LLM Introspection)

2.1 核心的な洞察

2.2 攻撃メカニズム

2.3 アルゴリズムの流れ

3. 主要な貢献

4. 実験結果

4.1 オープンウェイトモデルへの攻撃

4.2 プロプライエタリモデル（API）への攻撃

4.3 防御メカニズムの回避

5. 意義と結論

関連論文

XConv: Low-memory stochastic backpropagation for convolutional layers

A Survey on Decentralized Federated Learning

Polynomially Over-Parameterized Convolutional Neural Networks Contain Structured Strong Winning Lottery Tickets

Provable Filter for Real-world Graph Clustering

Enhancing Computational Efficiency in Multiscale Systems Using Deep Learning of Coordinates and Flow Maps