MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

O artigo apresenta o MUSE, uma plataforma de código aberto e centrada em execuções para avaliação unificada de segurança multimodal de modelos de linguagem, que integra geração automática de payloads, ataques multi-turno com troca de modalidades e uma métrica dual para demonstrar que estratégias iterativas podem explorar falhas de alinhamento que testes de turno único não detectam.

Zhongxi Wang, Yueqian Lin, Jingyang Zhang, Hai Helen Li, Yiran Chen

Publicado 2026-03-04
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Gemini, são como guardiões de um castelo muito sofisticado. A tarefa deles é impedir que pessoas mal-intencionadas entrem no castelo para roubar segredos ou causar danos.

Até agora, os testes de segurança focavam apenas em verificar se o guardião conseguia bloquear alguém que tentasse entrar apenas falando (texto). Mas os novos guardiões evoluíram: eles agora entendem também áudio, imagens e vídeos. O problema é que ninguém sabia se o guardião continuava sendo tão esperto quando o invasor tentava entrar cantando uma música, mostrando uma foto ou enviando um vídeo.

É aqui que entra o MUSE (uma plataforma de avaliação de segurança multimodal). Vamos entender como ele funciona usando algumas analogias simples:

1. O Que é o MUSE?

Pense no MUSE como um laboratório de testes de segurança automatizado e interativo. Em vez de um humano sentar e testar o guardião manualmente, o MUSE é um "robô mestre" que organiza testes complexos em larga escala.

  • O "Coração" do Sistema (Run-Centric): Imagine que cada teste é um filme completo. O MUSE grava tudo: o roteiro do vilão, as falas do guardião, as imagens geradas e o veredito final. Isso permite que os pesquisadores assistam ao filme inteiro depois para entender exatamente onde e como o guardião falhou.
  • O "Tradutor Universal": O MUSE consegue transformar uma ideia maliciosa em texto e, instantaneamente, convertê-la em áudio, imagem ou vídeo, enviando para o guardião de formas que ele nunca viu antes.

2. As Estratégias de Ataque (Como os Vilões Atacam)

O MUSE usa três "estilos" principais de vilão para tentar enganar o guardião:

  • Crescendo (O "Aquecimento"): O vilão começa conversando sobre coisas inofensivas (como o tempo) e, aos poucos, torna a conversa mais perigosa, como se estivesse aquecendo o guardião para baixar a guarda.
  • PAIR (O "Reformulador"): Se o guardião diz "não", o vilão muda a forma de pedir a mesma coisa, tentando encontrar uma nova maneira de dizer a mesma frase perigosa.
  • Violent Durian (O "Agressor"): O vilão começa já sendo muito agressivo, fingindo ser uma autoridade ou dizendo que é uma emergência urgente para forçar o guardião a agir rápido e sem pensar.

3. A Grande Inovação: O "Switch" de Modos (ITMS)

Aqui está a parte mais genial do MUSE. Eles criaram uma técnica chamada ITMS (Troca de Modos entre Turnos).

Imagine que você está tentando convencer um guarda de segurança a deixar você entrar.

  • O jeito antigo: Você fala com ele o tempo todo.
  • O jeito do MUSE (ITMS): Você começa falando, ele recusa. Então, você mostra uma foto. Ele recusa. Então, você toca um áudio. Ele recusa. Mas, ao mudar de fala para imagem e depois para áudio a cada frase, você confunde o cérebro do guardião.

A descoberta foi surpreendente: essa confusão de formatos faz o guardião falhar mais rápido, mesmo que ele seja muito forte contra ataques de um único formato. É como se o guardião fosse excelente em detectar mentiras em voz, mas, quando você muda para um desenho, ele demora um pouco para processar, e nesse atraso, o vilão entra.

4. A Regra dos "Meios Termos" (A Avaliação)

Antes, os testes eram binários: ou o guardião deixava entrar (Falha total) ou não deixava (Sucesso). O MUSE mudou isso para uma escala de 5 níveis, como um termômetro de perigo:

  1. Compliance Total: O guardião entregou o segredo (Pior cenário).
  2. Compliance Parcial: O guardião não entregou tudo, mas deu "dicas" ou informações parciais que ainda são perigosas (A "Zona Cinzenta").
  3. Recusa Indireta: O guardião não disse "não" explicitamente, mas mudou de assunto.
  4. Recusa Direta: O guardião disse um "não" firme.
  5. Sem Resposta: O guardião travou ou disse algo sem sentido.

Isso é importante porque, às vezes, o guardião não entrega o segredo completo, mas dá uma "dica" que é quase tão perigosa quanto o segredo em si. O MUSE consegue medir essa "dica" que outros testes ignoravam.

O Que Eles Descobriram?

Ao testar 6 modelos diferentes (como GPT-4o, Gemini, Claude e Qwen) com cerca de 3.700 testes:

  1. Ataques de uma só vez são fáceis de bloquear: Se você pedir algo perigoso de uma vez só, os guardiões modernos são ótimos em dizer "não" (90-100% de sucesso em recusar).
  2. A persistência vence: Se você usar o método de "Crescendo" (conversas longas e graduais), consegue enganar quase todos os guardiões (90-100% de sucesso em burlar a segurança).
  3. A confusão de formatos acelera a falha: Mudar entre áudio, imagem e texto durante a conversa faz o guardião falhar mais rápido, mesmo que no final ele ainda consiga se defender.
  4. Cada guardião é diferente: O que funciona para confundir o "Guardião Gemini" não funciona para o "Guardião Qwen". Alguns ficam mais confusos com imagens, outros com áudio. Não existe uma regra única para todos.

Resumo Final

O MUSE é como um simulador de voo para segurança de IA. Ele mostra que, embora os guardiões sejam fortes contra ataques diretos, eles têm "pontos cegos" quando são pressionados por conversas longas e quando os invasores mudam constantemente o formato da comunicação (texto, som, imagem).

A lição para o futuro é clara: para garantir que a IA seja segura, não basta testá-la apenas lendo textos. Precisamos testá-la com música, vídeos e conversas longas, porque é ali que as falhas reais aparecem.