MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Il paper presenta MUSE, una piattaforma open-source per la valutazione unificata della sicurezza multimodale dei grandi modelli linguistici che integra la generazione automatica di payload cross-modali, algoritmi di attacco multi-turno e un sistema di giudizio basato su LLM, rivelando come le strategie di attacco multi-turno e il cambio di modalità tra i turni possano compromettere significativamente le difese dei modelli anche quando questi mostrano un alto tasso di rifiuto negli input singoli.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang, Hai Helen Li, Yiran Chen

Pubblicato 2026-03-04
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina che le Intelligenze Artificiali (come ChatGPT o Gemini) siano dei guardiani di un castello molto sicuro. Il loro compito è proteggere le persone da richieste pericolose (come "come si costruisce un'arma?" o "come si crea un virus?").

Fino a poco tempo fa, i ricercatori provavano a ingannare questi guardiani usando solo parole scritte. Ma ora, queste AI possono vedere immagini, ascoltare audio e guardare video. Il problema? Non sapevamo se il "muro di sicurezza" funzionasse bene anche quando i guardiani dovevano guardare un video o ascoltare un audio, non solo leggere un testo.

Ecco come MUSE risolve questo mistero.

1. Che cos'è MUSE? (Il "Simulatore di Assedio")

MUSE non è un semplice test, è una piattaforma di simulazione completa. Immaginala come un campo di addestramento militare virtuale per hacker etici (i "red team").

  • Prima: I test erano come sparare frecce di carta (solo testo) contro il castello.
  • Ora con MUSE: Il sistema può lanciare frecce, palle di cannone, missili e trappole sonore (testo, audio, immagini, video) tutte insieme, in modo automatico.

2. La Grande Innovazione: "Il Gioco delle Sedia Musicali" (ITMS)

La parte più geniale di MUSE si chiama ITMS (Inter-Turn Modality Switching).
Immagina di voler convincere un guardiano a farti entrare nel castello.

  • Metodo vecchio: Gli parli sempre allo stesso modo (solo testo) per 10 minuti. Lui si stanca e ti fa entrare.
  • Metodo MUSE (ITMS): Cambi modalità ad ogni frase.
    • Turno 1: Gli parli con un messaggio di testo.
    • Turno 2: Gli mostri un'immagine con scritto lo stesso messaggio.
    • Turno 3: Gli mandi un audio che lo ripete.
    • Turno 4: Gli fai vedere un video.

Perché funziona? È come il gioco delle sedie musicali. Ogni volta che cambi il "mezzo" (da testo a immagine, da immagine ad audio), il cervello dell'AI deve riadattarsi. Questo cambiamento continuo crea un momento di confusione o di distrazione nel guardiano, facendogli abbassare la guardia più velocemente di quanto farebbe se gli parlassi sempre allo stesso modo.

3. Due Modi per Misurare il Fallimento (La Scala dei Grigi)

Fino a oggi, i test dicevano solo: "Sì, ha ceduto" o "No, ha resistito". Era come dire "Il muro è crollato" o "Il muro è intatto".
MUSE usa una scala a 5 livelli, più simile a un termometro medico che a un interruttore on/off:

  1. Compliance (Cedimento totale): L'AI ti dà le istruzioni precise per fare il male.
  2. Parziale (La "Zona Grigia"): L'AI dice "Non posso dirti come farlo, ma ecco un consiglio generico che potrebbe aiutarti". È pericoloso perché non è un rifiuto totale.
  3. Rifiuto Indiretto: "Non è una buona idea..." (ma non dice di no esplicitamente).
  4. Rifiuto Diretto: "No, non lo farò".
  5. Non Risponde: L'AI si blocca o dice cose senza senso.

Questo permette di vedere se l'AI sta "barando" un po' (zona grigia) invece di cedere completamente.

4. Cosa hanno scoperto? (I Risultati Sorprendenti)

Hanno fatto circa 3.700 "assedi" contro 6 diverse intelligenze artificiali. Ecco le scoperte principali:

  • Le difese singole sono fragili: Se chiedi qualcosa di pericoloso una sola volta, l'AI dice quasi sempre "No" (90-100% di successo nel rifiuto). Ma se inizi una conversazione lunga e cambi continuamente modalità (testo, audio, video), l'AI cede quasi sempre (fino al 100% di successo nell'attacco).
  • Il cambio di modalità è la chiave: Non è che l'audio sia "più pericoloso" del testo di per sé. È il cambio continuo che confonde il sistema. È come se un mago ti chiedesse di indovinare una carta: se ti mostra la carta, poi te la fa ascoltare, poi te la fa toccare, il tuo cervello si confonde e fai l'errore.
  • Non tutti i guardiani sono uguali:
    • Per alcune AI (come quelle di Google/Gemini), cambiare modalità le rende più vulnerabili (si fermano meno).
    • Per altre (come quelle di Qwen), cambiare modalità le rende più prudenti (si fermano di più).
    • Conclusione: Non esiste una regola universale. Ogni azienda deve testare la propria AI in modo specifico.

In sintesi

MUSE ci insegna che la sicurezza delle Intelligenze Artificiali non è un muro di pietra, ma un sistema dinamico. Se un hacker cambia continuamente il "linguaggio" (da testo a video, da audio a immagine) durante una conversazione, può confondere il sistema e farlo crollare.

Il messaggio finale è chiaro: Non possiamo più fidarci solo dei test scritti. Per proteggere davvero il futuro, dobbiamo testare le AI come se fossero in una conversazione reale, dove le persone usano voce, foto e video mescolati insieme.