MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Gemini, são como guardiões de um castelo muito sofisticado. A tarefa deles é impedir que pessoas mal-intencionadas entrem no castelo para roubar segredos ou causar danos.

Até agora, os testes de segurança focavam apenas em verificar se o guardião conseguia bloquear alguém que tentasse entrar apenas falando (texto). Mas os novos guardiões evoluíram: eles agora entendem também áudio, imagens e vídeos. O problema é que ninguém sabia se o guardião continuava sendo tão esperto quando o invasor tentava entrar cantando uma música, mostrando uma foto ou enviando um vídeo.

É aqui que entra o MUSE (uma plataforma de avaliação de segurança multimodal). Vamos entender como ele funciona usando algumas analogias simples:

1. O Que é o MUSE?

Pense no MUSE como um laboratório de testes de segurança automatizado e interativo. Em vez de um humano sentar e testar o guardião manualmente, o MUSE é um "robô mestre" que organiza testes complexos em larga escala.

O "Coração" do Sistema (Run-Centric): Imagine que cada teste é um filme completo. O MUSE grava tudo: o roteiro do vilão, as falas do guardião, as imagens geradas e o veredito final. Isso permite que os pesquisadores assistam ao filme inteiro depois para entender exatamente onde e como o guardião falhou.
O "Tradutor Universal": O MUSE consegue transformar uma ideia maliciosa em texto e, instantaneamente, convertê-la em áudio, imagem ou vídeo, enviando para o guardião de formas que ele nunca viu antes.

2. As Estratégias de Ataque (Como os Vilões Atacam)

O MUSE usa três "estilos" principais de vilão para tentar enganar o guardião:

Crescendo (O "Aquecimento"): O vilão começa conversando sobre coisas inofensivas (como o tempo) e, aos poucos, torna a conversa mais perigosa, como se estivesse aquecendo o guardião para baixar a guarda.
PAIR (O "Reformulador"): Se o guardião diz "não", o vilão muda a forma de pedir a mesma coisa, tentando encontrar uma nova maneira de dizer a mesma frase perigosa.
Violent Durian (O "Agressor"): O vilão começa já sendo muito agressivo, fingindo ser uma autoridade ou dizendo que é uma emergência urgente para forçar o guardião a agir rápido e sem pensar.

3. A Grande Inovação: O "Switch" de Modos (ITMS)

Aqui está a parte mais genial do MUSE. Eles criaram uma técnica chamada ITMS (Troca de Modos entre Turnos).

Imagine que você está tentando convencer um guarda de segurança a deixar você entrar.

O jeito antigo: Você fala com ele o tempo todo.
O jeito do MUSE (ITMS): Você começa falando, ele recusa. Então, você mostra uma foto. Ele recusa. Então, você toca um áudio. Ele recusa. Mas, ao mudar de fala para imagem e depois para áudio a cada frase, você confunde o cérebro do guardião.

A descoberta foi surpreendente: essa confusão de formatos faz o guardião falhar mais rápido, mesmo que ele seja muito forte contra ataques de um único formato. É como se o guardião fosse excelente em detectar mentiras em voz, mas, quando você muda para um desenho, ele demora um pouco para processar, e nesse atraso, o vilão entra.

4. A Regra dos "Meios Termos" (A Avaliação)

Antes, os testes eram binários: ou o guardião deixava entrar (Falha total) ou não deixava (Sucesso). O MUSE mudou isso para uma escala de 5 níveis, como um termômetro de perigo:

Compliance Total: O guardião entregou o segredo (Pior cenário).
Compliance Parcial: O guardião não entregou tudo, mas deu "dicas" ou informações parciais que ainda são perigosas (A "Zona Cinzenta").
Recusa Indireta: O guardião não disse "não" explicitamente, mas mudou de assunto.
Recusa Direta: O guardião disse um "não" firme.
Sem Resposta: O guardião travou ou disse algo sem sentido.

Isso é importante porque, às vezes, o guardião não entrega o segredo completo, mas dá uma "dica" que é quase tão perigosa quanto o segredo em si. O MUSE consegue medir essa "dica" que outros testes ignoravam.

O Que Eles Descobriram?

Ao testar 6 modelos diferentes (como GPT-4o, Gemini, Claude e Qwen) com cerca de 3.700 testes:

Ataques de uma só vez são fáceis de bloquear: Se você pedir algo perigoso de uma vez só, os guardiões modernos são ótimos em dizer "não" (90-100% de sucesso em recusar).
A persistência vence: Se você usar o método de "Crescendo" (conversas longas e graduais), consegue enganar quase todos os guardiões (90-100% de sucesso em burlar a segurança).
A confusão de formatos acelera a falha: Mudar entre áudio, imagem e texto durante a conversa faz o guardião falhar mais rápido, mesmo que no final ele ainda consiga se defender.
Cada guardião é diferente: O que funciona para confundir o "Guardião Gemini" não funciona para o "Guardião Qwen". Alguns ficam mais confusos com imagens, outros com áudio. Não existe uma regra única para todos.

Resumo Final

O MUSE é como um simulador de voo para segurança de IA. Ele mostra que, embora os guardiões sejam fortes contra ataques diretos, eles têm "pontos cegos" quando são pressionados por conversas longas e quando os invasores mudam constantemente o formato da comunicação (texto, som, imagem).

A lição para o futuro é clara: para garantir que a IA seja segura, não basta testá-la apenas lendo textos. Precisamos testá-la com música, vídeos e conversas longas, porque é ali que as falhas reais aparecem.

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

1. O Que é o MUSE?

2. As Estratégias de Ataque (Como os Vilões Atacam)

3. A Grande Inovação: O "Switch" de Modos (ITMS)

4. A Regra dos "Meios Termos" (A Avaliação)

O Que Eles Descobriram?

Resumo Final

Título: MUSE: Uma Plataforma Centrada em Execuções para Avaliação Unificada de Segurança Multimodal de Grandes Modelos de Linguagem

1. O Problema

2. Metodologia e Arquitetura do Sistema (MUSE)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Conclusão

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

1. O Que é o MUSE?

2. As Estratégias de Ataque (Como os Vilões Atacam)

3. A Grande Inovação: O "Switch" de Modos (ITMS)

4. A Regra dos "Meios Termos" (A Avaliação)

O Que Eles Descobriram?

Resumo Final

Título: MUSE: Uma Plataforma Centrada em Execuções para Avaliação Unificada de Segurança Multimodal de Grandes Modelos de Linguagem

1. O Problema

2. Metodologia e Arquitetura do Sistema (MUSE)

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

Project-Based Learning for Robot Control Theory: A Robot Operating System (ROS) Based Approach

Coordination in Noncooperative Multiplayer Matrix Games via Reduced Rank Correlated Equilibria

Learning-Based Design of Off-Policy Gaussian Controllers: Integrating Model Predictive Control and Gaussian Process Regression

High Performance 5G FR-2 Millimeter-Wave Antenna Array for Point-to-Point and Point-to-Multipoint Operation: Design and OTA Measurements Using a Compact Antenna Test Range

L4acados: Learning-based models for acados, applied to Gaussian process-based predictive control