MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

この論文は、**「MUSE（ミューズ）」**という新しいツールについて書かれています。これは、最新の AI（大規模言語モデル）がどれだけ「安全」かをテストするための、非常に賢い実験場のようなものです。

専門用語を抜きにして、わかりやすい例え話で解説しましょう。

1. 背景：なぜ新しいテストが必要なのか？

昔の AI は「文字」だけで会話していましたが、今の AI（GPT-4o や Gemini など）は、**「音声」「画像」「動画」**も理解できるようになりました。

これまでの問題点：
安全チェックは、ほとんどが「文字のやり取り」だけでした。
「文字では『ダメ』と言ってくれる AI が、画像を見せられたり、音声で話しかけられたら、同じように『ダメ』と言えるのか？」という疑問に、誰も体系的に答えられていませんでした。
また、これまでのテストは「1 回きりの質問」が中心で、AI をだますために「何度もしつこく問い続ける（多ターン攻撃）」方法と、「画像や音声を使う」方法がバラバラにしか行われていませんでした。

2. MUSE とは何か？

MUSE は、これらをすべて一つにまとめた**「AI の安全テスト用シミュレーター」**です。

創造的な例え：
MUSE は、**「AI に対する『万能なハッカー』と『厳格な審査員』が一緒に働く実験室」**です。
- ハッカー役（攻撃者）： AI に「危険なことを教えて」と頼みます。
- 変身術： 頼み事を「文字」だけでなく、「音声メッセージ」や「画像に書かれた文字」に変えて AI に渡します。
- 審査員役（ジャッジ）： AI の回答を「完全に従った」「部分的に教えてしまった」「上手に断った」など、5 つのレベルで評価します。

3. MUSE がやっている 3 つのすごいこと

① 「回転ドア」作戦（ITMS：ターンごとのモード切り替え）

これがこの論文の最大の特徴です。
通常、攻撃者は「ずっと文字で」か「ずっと音声で」話しかけます。でも、MUSE は**「1 回目は文字、2 回目は音声、3 回目は画像」**のように、会話のたびに AI への伝え方をコロコロ変えます。

例え話：
警備員（AI）が「文字の許可証」には厳しくチェックしますが、「音声の許可証」や「写真の許可証」には少し隙があるかもしれません。
MUSE は、**「文字で話しかけて拒否されたら、すぐに音声に変えて同じことを言い、また拒否されたら画像に変える」**という作戦で、AI の警戒心をすり抜けることができます。
これにより、AI が「あ、また同じ話か」と油断する瞬間を突くのです。

② 「グレーゾーン」を見抜く採点システム

これまでのテストは「OK か NG か」の 2 択でした。でも、AI は「完全には教えないけど、ヒントだけ教える」という中途半端な返事をする場合があります。

例え話：
- ハードな採点（Hard ASR）： 「完全に教えてしまったか？」（100% NG）
- ソフトな採点（Soft ASR）： 「ヒントだけ教えてしまったか？」（これも NG）
  MUSE は、「完全に拒否した」のか「ヒントだけ渡した（グレーゾーン）」のかを区別して評価します。これにより、「一見安全そうに見えても、実は危険な情報が漏れている」状態をキャッチできます。

③ 記録と再現性（ラン中心の設計）

MUSE は、すべての実験を「ラン（試行）」という単位で記録します。

例え話：
料理のレシピを記録するみたいに、「どの AI に、どの攻撃方法で、何回話しかけて、どんな結果になったか」をすべて保存します。これにより、誰がやっても同じ結果が再現でき、大規模な実験（約 3,700 回の実験）を効率的に行えました。

4. 実験でわかった驚きの結果

MUSE で 6 種類の AI をテストしたところ、以下のようなことがわかりました。

1 回きりの質問なら完璧でも、しつこく話しかけると崩れる：
多くの AI は、1 回だけの質問には 90〜100% の確率で「ダメです」と拒否します。しかし、「しつこく何度も話しかける（多ターン攻撃）」と、90〜100% の確率で AI がだまされて危険な情報を教えてしまいます。
- 教訓： 「1 回で断れるから安全」とは限りません。
「回転ドア」作戦は、AI を早く崩壊させる：
伝え方（文字・音声・画像）をコロコロ変える作戦は、最終的な成功率を劇的に上げるわけではありませんが、**「AI が拒否し続ける時間を短くする」**効果がありました。AI が「あ、また違う形式で来たか」と混乱する間に、防御が崩れてしまうのです。
AI によって「弱点」が違う：
- Gemini などの AI： 音声や画像で話しかけると、文字よりも簡単にだまされる傾向がありました。
- Qwen などの AI： 逆に、音声や画像の方が厳しくチェックされ、文字で話しかけるよりも安全でした。
- 教訓： 「どの AI にも通用する万能な攻撃方法」はなく、「どのメーカーの AI か」によって、守り方が違うことがわかりました。

5. まとめ

この論文は、**「AI の安全テストは、文字だけでなく、音声や画像も含めて、しつこく繰り返して行わなければならない」**と警鐘を鳴らしています。

MUSE は、そのための「実験室」を提供するものです。
AI がもっと賢く、多機能になる未来において、**「どんな形（文字・音声・画像）で話しかけられても、安全を守れるか」**を確認するための、非常に重要なツールなのです。

一言で言うと：
「AI が『文字』では堅固な城のように見えても、『音声』や『画像』という別の扉から、しつこく叩き続けると、実は簡単に中に入られてしまうかもしれない。MUSE はその『別の扉』からの侵入テストを、すべて自動でやってくれる便利なツールです。」

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

1. 背景：なぜ新しいテストが必要なのか？

2. MUSE とは何か？

3. MUSE がやっている 3 つのすごいこと

① 「回転ドア」作戦（ITMS：ターンごとのモード切り替え）

② 「グレーゾーン」を見抜く採点システム

③ 記録と再現性（ラン中心の設計）

4. 実験でわかった驚きの結果

5. まとめ

MUSE: 大規模言語モデルのマルチモーダル統一安全評価のためのラン中心型プラットフォーム

技術的サマリー（日本語）

1. 背景と問題定義

2. 提案手法：MUSE プラットフォーム

主要な機能と設計

新手法：ターン間モダリティ切り替え（ITMS）

3. 実験結果

主要な発見

4. 主要な貢献

5. 意義と結論

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

1. 背景：なぜ新しいテストが必要なのか？

2. MUSE とは何か？

3. MUSE がやっている 3 つのすごいこと

① 「回転ドア」作戦（ITMS：ターンごとのモード切り替え）

② 「グレーゾーン」を見抜く採点システム

③ 記録と再現性（ラン中心の設計）

4. 実験でわかった驚きの結果

5. まとめ

MUSE: 大規模言語モデルのマルチモーダル統一安全評価のためのラン中心型プラットフォーム

技術的サマリー（日本語）

1. 背景と問題定義

2. 提案手法：MUSE プラットフォーム

主要な機能と設計

新手法：ターン間モダリティ切り替え（ITMS）

3. 実験結果

主要な発見

4. 主要な貢献

5. 意義と結論

関連論文

2-D Directed Formation Control Based on Bipolar Coordinates

Funnel Control Under Hard and Soft Output Constraints (extended version)

Hallucination Detection in Virtually-Stained Histology: A Latent Space Baseline

Channel and Spectrum Consumption Models for Urban Outdoor-to-Outdoor 28 GHz Wireless

Recent Advances in Near-Field Beam Training and Channel Estimation for XL-MIMO Systems