MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models
本論文は、大規模言語モデルの安全性評価がテキスト中心である現状を踏まえ、音声・画像・動画を含むマルチモーダル入力に対するアライメントの一般化を検証するオープンソースの「MUSE」というプラットフォームを提案し、多ターン攻撃やモダリティ切り替え(ITMS)を用いた実験により、単一ターンでは拒絶率が高くても多ターン攻撃で安全性が大幅に低下することや、モダリティの影響がモデルファミリーに依存することを示しています。