MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models
Le papier présente MUSE, une plateforme open-source centrée sur les exécutions qui évalue de manière unifiée la sécurité multimodale des grands modèles de langage en intégrant la génération automatique de charges utiles, des attaques multi-tours avec basculement inter-tours de modalités, et une métrique dualiste pour révéler que l'alignement des modèles ne se généralise pas systématiquement aux entrées audio, image et vidéo.