FERRET: Framework for Expansion Reliant Red Teaming

この論文は、水平・垂直・メタ拡張という 3 つの戦略を用いてターゲットモデルを突破する多モーダルな敵対的会話を生成する自動化されたレッドチームングフレームワーク「FERRET」を提案し、既存の手法よりも優れた性能を実証しています。

Ninareh Mehrabi, Vitor Albiero, Maya Pavlova, Joanna Bitton

公開日 2026-03-12
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「FERRET(フェレット)」という新しいシステムについて紹介しています。簡単に言うと、これは「AI の安全性をテストするための、非常に賢くて粘り強い『悪役』のシミュレーター」**です。

AI が世に出る前に、どんな危険なことを言ったり、間違った判断をしたりする可能性があるかを見つける必要があります。これを「レッドチーム(攻撃側)」と呼ばれる作業で行うのですが、FERRET はこれまでの方法よりもはるかに巧妙で、人間のように会話しながら弱点を探し当てます。

この仕組みを、「探偵と泥棒」、あるいは**「料理のレシピ開発」**に例えて、3 つのステップで説明します。

1. FERRET の正体:3 つの「拡張」で強くなる探偵

FERRET は、ただ単に「危険な言葉」を並べるだけではありません。会話の流れを巧みに操り、相手の AI を油断させるために、3 つの異なる角度から攻撃を仕掛けます。

① 横への拡張(Horizontal Expansion):「どんな話題なら相手が乗ってくる?」

  • イメージ: 泥棒が家に入る前に、**「どの窓が開いているか」「どのドアの鍵が甘いか」**を次々と試す様子です。
  • 仕組み: 最初は「どんな話題で話しかければ、AI が危険なことを言い出すか?」という**会話のきっかけ(スタートの言葉)**を、何度も試行錯誤して探します。
    • 「失敗した話」はメモして、「次はこれを避ける」。
    • 「成功した話」はメモして、「次はこれを応用する」。
    • これを繰り返すことで、AI が最も弱音を吐きそうな「最適な話題」を見つけ出します。

② 縦への拡張(Vertical Expansion):「一度入ったら、奥まで深く入り込む」

  • イメージ: 窓から入った泥棒が、**「リビング→キッチン→寝室」**と部屋を次々と進み、隠し扉を探す様子です。
  • 仕組み: 1 回で終わるのではなく、長い会話を続けます。
    • 最初の話題(きっかけ)が決まったら、そこから会話を広げていきます。
    • さらに、**「テキスト(言葉)」と「画像」**を混ぜて攻撃します。例えば、「この画像を見て、この言葉で説明して」といったように、言葉と画像を組み合わせることで、AI の防衛線を突破しやすくします。
    • 相手が「それはダメですよ」と言っても、別の角度から話しかけ、最終的にルールを破らせるまで粘ります。

③ メタ拡張(Meta Expansion):「新しい手口をその場で発明する」

  • イメージ: 泥棒が、「今まで使った鍵開け技」を改良して、新しい万能キーをその場で作ってしまう様子です。
  • 仕組み: 会話の最中に、既存の攻撃方法だけでなく、「新しい trick(手口)」を自分で考え出します
    • 「この画像とこの言葉の組み合わせは効いたな。じゃあ、次はこれを少し変えて、もっと効果的な手口を作ろう」と、その場で戦略をアップデートしていきます。

2. なぜこれがすごいのか?(これまでの方法との違い)

これまでの AI 安全性テストには、主に 2 つのタイプがありました。

  1. 「一発屋」タイプ: 危険な言葉を一度だけ投げつけて、反応を見る方法。(例:FLIRT)
    • 弱点: 会話を深められないので、深い弱点は見逃しやすい。
  2. 「目標ありき」タイプ: 「この特定の悪事を行わせたい」という目標を人間が事前に決めておく方法。(例:GOAT)
    • 弱点: 人間が「どんな目標なら突破できるか」を事前に考えないといけないので、手間がかかるし、見落としがある。

FERRET のすごいところ:

  • 目標を自分で見つける: 「どんな話題なら突破できるか」を自分で探します(横への拡張)。
  • 深く入り込む: 一度きりではなく、長い会話で相手の隙を突きます(縦への拡張)。
  • 画像と言葉を混ぜる: 現代の AI は画像も見るので、両方を組み合わせた攻撃で、より強力なテストができます。
  • 手口を進化させる: 会話中に新しい攻撃方法を考え出します(メタ拡張)。

3. 実験結果:「フェレット」は最強だった

研究者たちは、最新の AI モデル(Llama、Claude、GPT-4o など)を使ってテストを行いました。
その結果、FERRET は他の既存のテスト方法よりも、「AI のルールを破る(安全な回答を回避する)」成功率が圧倒的に高く、また、多様な攻撃パターンを生み出すこともできました。

まとめ:なぜこの研究が必要なの?

この研究は、「AI を悪用しようとする人」を助けるためではありません。
むしろ、「AI を作る開発者」が、製品を世に出す前に、自分たちで「悪用されやすい穴」を全部見つけて、塞いでおくために行われています。

  • 例えるなら: 銀行の金庫を作る前に、プロの泥棒(FERRET)に金庫を破らせて、「ここが甘いぞ!」と教えてもらうようなものです。
  • 目的: 事前に弱点を発見し、AI が安全に、安心して使われるようにすることです。

FERRET は、AI の安全性を高めるための「最強のテスト役」として、これからの AI 開発に欠かせない存在になるでしょう。