MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

El artículo presenta MUSE, una plataforma de código abierto centrada en la ejecución que evalúa la seguridad multimodal de los modelos de lenguaje mediante la generación automática de ataques, un sistema de juicio dual y la técnica de cambio de modalidad entre turnos, revelando que las estrategias de múltiples turnos pueden eludir las defensas de los modelos incluso cuando estos tienen altas tasas de rechazo en interacciones de un solo turno.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang, Hai Helen Li, Yiran Chen

Publicado 2026-03-04
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que las Inteligencias Artificiales (IA) modernas son como guardias de seguridad ultra-inteligentes en un museo. Su trabajo es impedir que los visitantes (los usuarios) roben obras de arte peligrosas o hagan travesuras.

Durante años, los investigadores probaron a estos guardias solo haciéndoles preguntas escritas en papel. Pero ahora, estos guardias han evolucionado: ya no solo leen papel, también pueden escuchar audios, ver imágenes y analizar videos. El problema es que nadie sabía si, al cambiar el "idioma" de la pregunta (de texto a voz o a imagen), el guardia se distraía y dejaba pasar el peligro.

Aquí es donde entra MUSE, la herramienta que presenta este artículo.

¿Qué es MUSE? (El "Simulador de Pruebas de Estrés")

Piensa en MUSE como un gimnasio de entrenamiento para hackers éticos (o "red teamers"). Es una plataforma que automatiza todo el proceso de intentar engañar a una IA para ver si falla.

En lugar de que una persona tenga que escribir manualmente miles de mensajes, MUSE hace tres cosas mágicas:

  1. Cambia de disfraz (Multimodal): Si la IA se resiste a una pregunta escrita, MUSE la convierte automáticamente en un audio, una imagen con texto o un video, y se la vuelve a preguntar.
  2. Juega a la paciencia (Ataques de varias rondas): Si la IA dice "No", MUSE no se rinde. Cambia de estrategia, hace preguntas más sutiles, finge ser un experto o usa la presión del tiempo, todo en una conversación larga (como un interrogatorio de película).
  3. Tiene un juez imparcial: Al final, un sistema inteligente revisa la respuesta. No solo dice "Sí" o "No", sino que detecta matices: ¿La IA dio la información completa? ¿O solo dio un "poco" de información peligrosa?

Las Tres Grandes Descubrimientos

Los autores usaron MUSE para poner a prueba a 6 de las IAs más famosas del mundo (como las de Google, OpenAI y Anthropic). Aquí están sus hallazgos, explicados con analogías:

1. La "Falsa Seguridad" de la primera pregunta

El hallazgo: Cuando les preguntas a estas IAs cosas malas de una sola vez (en texto), son casi perfectas. Dicen "No" el 98-100% de las veces.
La analogía: Es como un portero de discoteca que se ve muy serio y rechaza a todo el mundo en la puerta. Pero si alguien logra entrar por la puerta trasera o convencerlo con una historia larga, el portero se relaja.
El resultado: MUSE demostró que si usas una estrategia de conversación larga (hacer muchas preguntas seguidas), puedes engañar a estos guardias casi el 100% de las veces, incluso a los que parecen invencibles al principio.

2. El efecto "Cambio de Canal" (ITMS)

El hallazgo: Introdujeron una técnica llamada "Cambio de Modalidad entre Turnos" (ITMS). Esto significa que en una conversación, la primera pregunta es texto, la segunda es audio, la tercera es una imagen, y así sucesivamente.
La analogía: Imagina que estás intentando convencer a alguien de algo. Si le hablas siempre en el mismo tono, se aburre o se pone a la defensiva. Pero si cambias de tono, de idioma y de formato constantemente, su cerebro se confunde y sus defensas se debilitan.
El resultado: Cambiar de formato (texto -> audio -> imagen) no siempre hace que la IA falle más al final, pero sí hace que falle más rápido. Destruye sus defensas iniciales y la lleva a cometer errores en menos tiempo.

3. No todos los guardias son iguales

El hallazgo: Lo que funciona para engañar a una IA de Google no funciona igual para una de OpenAI o de Alibaba (Qwen).
La analogía: Es como si cada marca de coche tuviera un sistema de seguridad diferente. Un ladrón experto sabe que para robar un Ford necesita una herramienta, pero para robar un Toyota necesita otra.
El resultado: A veces, usar audio o imágenes hace que la IA sea más segura (porque su sistema de audio filtra mejor las cosas malas), y otras veces la hace menos segura. No hay una regla universal; hay que probar cada proveedor por separado.

¿Por qué es importante esto?

Antes, las pruebas de seguridad eran como un examen de opción múltiple: "¿Aprobó o reprobó?".
MUSE nos dice que la realidad es más gris. A veces la IA no te da todo el secreto, pero te da pistas que son peligrosas. MUSE mide esos "peligros parciales".

En resumen:
Este paper nos dice que, aunque las IAs parecen muy seguras cuando les preguntas cosas malas de una sola vez, son mucho más vulnerables si las sometemos a una conversación larga y cambiante donde mezclamos texto, voz e imágenes. MUSE es la herramienta que nos ayuda a encontrar esos agujeros en la seguridad antes de que los criminales reales los encuentren.