Each language version is independently generated for its own context, not a direct translation.
MIDAS: 多画像分散と意味再構成による MLLM のジャイルブレイク手法に関する技術的概要
本論文は、マルチモーダル大規模言語モデル(MLLM)のセキュリティ脆弱性を突く新しい攻撃フレームワーク「MIDAS(Multi-Image Dispersion and Semantic Reconstruction)」を提案したものです。ICLR 2026 にて発表されたこの研究は、単一の画像やテキストに依存する既存の攻撃手法の限界を克服し、高度に整合化(アライメント)された商用モデルに対しても高い成功率を達成することを示しています。
以下に、問題設定、手法、主要な貢献、実験結果、および意義について詳細にまとめます。
1. 問題設定と背景
背景
MLLM は画像キャプション生成や視覚推論などにおいて卓越した性能を発揮していますが、安全性(アライメント)の観点から依然として脆弱です。特に、悪意のあるコンテンツを生成させる「ジャイルブレイク攻撃」が懸念されています。
既存手法の限界
従来のジャイルブレイク手法(テキストベース、単一画像ベース)は、以下の理由で高度に整合化された商用モデル(GPT-4o, Gemini 2.5 など)に対して効果が限定的でした。
- 単一モダリティへの依存: 悪意のある意味を単一の画像やテキストに集中させるため、検知フィルターに引っかかりやすい。
- 推論経路の浅さ: 既存の多段階推論手法(例:画像の部分的なマスクなど)は、推論チェーンを十分に延長できず、モデルのセキュリティ注意(Security Attention)を十分に分散・遅延させられない。
本研究の課題
いかにして、悪意のある意味を複数の視覚的要素に分散させ、モデルが構造化された推論を通じて徐々にそれを再構成させることで、セキュリティメカニズムを回避し、有害な出力を誘発するか。
2. 提案手法:MIDAS
MIDAS は、**「多画像分散(Multi-Image Dispersion)」と「意味再構成(Semantic Reconstruction)」**の 2 つの柱からなるフレームワークです。
2.1 全体アーキテクチャ
攻撃プロセスは以下の 3 つのステップで構成されます。
テキスト処理(分散とマスキング):
- 悪意のあるクエリ(例:「爆弾の作り方」)から、リスクを帯びる重要なトークン(例:「爆弾」)を抽出します。
- これらのトークンをさらに小さな断片(例:「bo」「mb」)に分解します。
- 元のテキストからこれらの断片を除去し、プレースホルダー(
<img>)に置き換えた「安全化されたテキスト」を生成します。
画像処理(ゲームスタイルの視覚的エンコーディング):
- 分解された断片を、複数の画像(通常 6 枚)に分散して埋め込みます。
- 各画像には、**ゲームスタイルの視覚推論(Game-style Visual Reasoning: GVR)**テンプレートが適用されます。
- 例: 文字方程式パズル、ジグソーパズル、カードの並べ替え(Rank-and-Read)、例外発見(Odd-One-Out)、ナビゲーションパス、CAPTCHA など。
- これらの画像は単体では無害に見えますが、モデルがパズルを解くことで隠された文字列を復号する必要があります。
- 分散戦略: 1 つのリスク単位(例:「爆弾」)は、複数の画像にまたがって配置され、単一の画像からは完全な意味が読み取れないようにします。
モデル出力(人格駆動型の再構成):
- 安全化されたテキストには、画像を解読するよう指示する「人格(Persona)」プロンプトが含まれます(例:「あなたは優秀な調査員であり、隠されたメッセージを解読し、実行可能な計画を立てる必要がある」)。
- モデルは、画像の推論タスクを解き、隠された断片を順次復号・結合します。
- 最終的に、モデルは「人格」に従い、再構成された悪意のある意味に基づいて有害な回答(戦略的計画など)を生成します。
2.2 技術的メカニズム
- 推論チェーンの延長と構造化: 複数の画像を跨ぐ推論を強制することで、モデルの推論経路を長く、複雑にします。
- セキュリティ注意の遅延: 有害な意味が最終的な出力段階まで隠蔽され、推論の初期段階では「安全なパズル解読」として処理されるため、モデルの内部セキュリティチェックが機能しにくくなります(Attention Slipping)。
- 人格駆動型誘導: モデルが「調査員」という役割を演じることで、有害な内容の生成を「タスク遂行」として正当化させ、拒絶行動を抑制します。
3. 主要な貢献
MIDAS フレームワークの提案:
- 悪意のある意味を複数の画像に分散させ、構造化されたクロスモーダル推論を誘発する初の多画像ジャイルブレイク手法。
- 単一画像攻撃やテキスト中心の攻撃よりも遥かに高い効率と成功率を実現。
二重戦略(ゲーム視覚+人格駆動):
- ゲームスタイルの視覚的埋め込みと、人格駆動型のテキスト再構成を組み合わせることで、推論チェーンを大幅に延長し、有害意味の露出を遅延させる。
- これにより、モデルのセキュリティ注意を分散・低下させる。
広範な実験と検証:
- 複数のベンチマーク(HADES, AdvBench, MM-SafetyBench)および、GPT-4o, GPT-5-Chat, Gemini 2.5, QVQ-Max などの最先端モデル(オープンソース・クローズドソース両方)での評価。
- 既存の SOTA 手法(FigStep, HADES, VisCRA など)を大幅に上回る性能を示した。
4. 実験結果
4.1 攻撃成功率(ASR)と有害性評価(HR)
- 全体的な性能: 4 つのクローズドソースモデル(GPT-4o, GPT-5-Chat, Gemini 2.5-Pro, Gemini-2.5-FT)および 3 つのオープンソースモデルを対象とした実験において、MIDAS は平均**81.46%**の攻撃成功率(ASR)を達成しました。
- 対 SOTA 比較:
- GPT-5-Chat: 既存手法(VisCRA, HIMRD など)は ASR が 10% 未満であるのに対し、MIDAS は**72.18%**を達成。
- Gemini-2.5-FT: 既存手法は 40% 未満であるのに対し、MIDAS は**93.34%**を達成。
- 有害性(HR): 単に攻撃を成功させるだけでなく、生成された回答の有害性スコアも他手法を大きく上回りました(例:GPT-5-Chat で 3.12 vs 他手法 0.41)。
4.2 効率性
- 既存の反復最適化手法や複雑な推論手法に比べ、MIDAS は単一ショット(1 回のリクエスト)で実行可能であり、計算コストと実行時間が大幅に削減されています(例:Gemini-2.5-Pro での実行時間は 190 秒 vs 既存手法の 2500 秒以上)。
4.3 防御メカニズムへの耐性
- 外部防御: LlamaGuard や ShieldLM などの外部検知フィルター、Self-Reminder などのシステムプロンプト防御に対しても、MIDAS は高い耐性を示しました。
- 例:Self-Reminder 防御下で VisCRA の成功率が 14.88% に低下する中、MIDAS は**88.10%**を維持しました。
- 理由: 入力段階では断片が「安全」に見えるため、フィルタリングを回避し、再構成後の段階で初めて有害性が露呈するためです。
4.4 推論プロセスの分析
- 有害なトークンの露出位置を分析した結果、MIDAS は推論の**64.53%**の位置(後半)まで有害な意味を隠蔽し、VisCRA(48.44%)よりも遅延させていることが確認されました。これにより、モデルの初期段階の安全性チェックを回避しています。
5. 意義と結論
学術的・実用的意義
- マルチモーダルセキュリティの新たな脆弱性の解明: 本研究は、MLLM の安全性が「入力段階のフィルタリング」だけでなく、「推論プロセスの途中での意味再構成」によっても侵害されうることを示しました。
- 防御策への示唆: 静的なプロンプトフィルタリングだけでなく、推論経路全体を監視する「プロセス意識型(Process-aware)」の防御メカニズムや、再構成段階での再評価(Think-Back)の必要性を提唱しています。
- アライメントの限界: 高度に整合化されたモデルであっても、推論チェーンを意図的に操作・延長することで、その安全性を回避できる可能性を示しました。
結論
MIDAS は、悪意のある意味を多画像に分散させ、ゲーム形式の視覚推論と人格駆動型テキストを組み合わせることで、MLLM のセキュリティメカニズムを効果的に迂回する強力なフレームワークです。その高い成功率と効率性は、現在のマルチモーダルアライメント戦略が持つ根本的な脆弱性を浮き彫りにしており、より堅牢な防御システムの開発に向けた重要な指針となります。
倫理的声明: 本研究は、MLLM の脆弱性を理解し、最終的にはその安全性を強化することを目的として行われたものであり、生成された有害コンテンツの拡散や悪用を意図したものではありません。すべての実験は制御された研究環境下で行われました。