MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models
Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.