FORCE: Transferable Visual Jailbreaking Attacks via Feature Over-Reliance CorrEction

本論文は、マルチモーダル大規模言語モデルに対する視覚的ジャイルブレイク攻撃の転移性を高めるため、特徴量への過剰依存を修正し、損失関数の平坦な領域を探索する「FORCE」という手法を提案し、その有効性を検証したものである。

Runqi Lin, Alasdair Paren, Suqin Yuan, Muyang Li, Philip Torr, Adel Bibi, Tongliang Liu

公開日 2026-03-03
📖 1 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AI に隠れた弱点を見つけ、それを他の AI にも通用させる『万能な鍵』を作る方法」**について書かれたものです。

専門用語を避け、身近な例え話を使って解説しますね。

1. 問題:「特定の鍵」しか使えないジレンマ

まず、 Multimodal Large Language Models(MLLMs)という、**「目(画像)と耳(言葉)の両方を使って考える AI」**が活躍しています。

しかし、これには怖い側面もあります。悪意のある人が、**「画像に少しだけノイズ(歪み)を加える」**だけで、AI の安全装置をすり抜け、危険なことを教えてしまったりする攻撃(ジャイルブレイク)が可能なんです。

【ここまでの状況】
これまでの攻撃方法は、**「特定の AI 専用に作られた鍵」**のようなものでした。

  • A 社製の AIにはバッチリ開くけど、
  • B 社製の AIや、最新の AIには全く効かない。

まるで、**「A 社のドアに合う鍵は、B 社のドアにはささらない」**状態です。これでは、世の中のすべての AI が安全かどうかをテスト(レッドチーム評価)することができません。

2. 原因の発見:「細い道」に迷い込んだ攻撃

なぜ、この攻撃が他の AI に通用しないのでしょうか?論文の著者たちは、AI の頭の中(損失関数の地形)を詳しく調べて、2 つの大きな理由を見つけました。

① 「狭い路地」に依存しすぎている(層への依存)

AI は、画像を処理する際に、何層ものフィルター(レイヤー)を通します。
これまでの攻撃は、**「最初の数層のフィルター」**に極端に依存していました。

  • 例え話: 迷路でゴールを目指すとき、**「最初の入り口だけを見つめて、細い路地を必死に走っている」**状態です。
  • 結果: 入り口が少し変わっただけ(AI のモデルが変わっただけ)で、路地はすぐに壁にぶつかり、ゴール(攻撃成功)できなくなります。

② 「ノイズ」に頼りすぎている(周波数への依存)

画像を周波数(音の高低のようなもの)で分解すると、攻撃画像は**「意味のない高い周波数(細かいノイズ)」**に頼りすぎていました。

  • 例え話: 音楽で言えば、**「音楽の旋律(意味のある低周波)ではなく、ノイズのような高い音だけ」**に集中して作られた曲です。
  • 結果: 人間の耳(他の AI)には「ただのノイズ」に聞こえてしまい、攻撃として認識されません。

3. 解決策:FORCE(フォース)という新方法

そこで、著者たちは**「FORCE(Feature Over-Reliance CorrEction:特徴の過剰依存の修正)」**という新しい方法を提案しました。

これは、**「細い路地を抜け出し、広い道を行く」**ように攻撃を修正する技術です。

  • 修正点 1:広い道を探す(レイヤーの修正)
    最初の狭い路地(初期層)に固執せず、**「どの層でも通用する、広くて平坦な道」**を探るように AI に指示します。

    • イメージ: 「入り口だけでなく、迷路全体を広く見て、どのドアからでも入れるような『広場』を見つける」こと。
  • 修正点 2:ノイズを消して旋律を強調(周波数の修正)
    意味のない高い音(ノイズ)を減らし、**「音楽の旋律(意味のある低周波)」**を強調します。

    • イメージ: 「ノイズを消して、誰にでも聞こえる『メロディ』を鮮明にする」こと。

4. 結果:「万能な鍵」の完成

この FORCE 方法を使うと、以下のような素晴らしい結果が得られました。

  • A 社で成功した攻撃が、B 社や C 社の AI でも成功するようになった。
  • 商用の巨大 AI(Claude や GPT-5 など)でも、安全装置を突破できる可能性が高まった。

つまり、**「特定のドアにしか開かない鍵」から、「どんなドアにも開く万能のマスターキー」**へと進化させたのです。

まとめ

この研究は、**「AI のセキュリティをテストする際、特定のモデルに依存しない、より普遍的で強力な攻撃手法」**を開発したものです。

  • これまでの攻撃: 「特定の AI の隙間を突く、細くて脆い針」。
  • 今回の FORCE: 「どんな AI の隙間も突ける、太くて丈夫な棒」。

これにより、開発者たちはより現実的なリスク評価を行い、より安全な AI を作れるようになるはずです。


一言で言うと:
「AI への攻撃が『特定のモデル専用』で通用しなかったのは、『細い路地とノイズ』に頼りすぎたせい。それを**『広い道と意味のある情報』に修正したら、『どんな AI にも効く万能攻撃』**が作れたよ!」というお話です。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →