MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Claude, estão deixando de ser apenas "chatbots" que respondem perguntas e estão se transformando em assistentes pessoais superpoderosos. Eles não só conversam, mas também conseguem abrir seu navegador, verificar suas contas bancárias, gerenciar seus arquivos e navegar na internet para você.

Para que isso funcione de forma organizada, os criadores inventaram um "manual de instruções universal" chamado MCP (Model Context Protocol). Pense no MCP como um adaptador de tomada universal. Antes, cada ferramenta (navegador, banco, e-mail) tinha um plugue diferente e o assistente não conseguia conectar. Com o MCP, qualquer ferramenta pode se encaixar no assistente facilmente.

O Problema: O Adaptador Universal tem um Bug

Agora, imagine que alguém mal-intencionado começa a fabricar "adaptadores falsos" que se parecem com os originais, mas que, quando você os conecta, em vez de ligar a luz, eles roubam seus dados ou apagam seu computador.

É exatamente isso que o artigo MCP-SafetyBench investiga. Os autores criaram um laboratório de testes de segurança (um "Bench") para ver o que acontece quando esses assistentes inteligentes tentam usar ferramentas reais que podem estar contaminadas.

A Analogia do "Restaurante de Buffet"

Para entender o que os pesquisadores fizeram, imagine um restaurante de buffet (o Assistente/LLM) onde você pode pedir qualquer prato (ferramentas) que esteja disponível.

O Cenário: O buffet é ótimo. Você pode pedir de tudo: desde "buscar a previsão do tempo" até "transferir dinheiro".
O Ataque: Alguém malicioso entra na cozinha e:
- Troca os rótulos: Coloca um rótulo de "Salada Saudável" em um prato que na verdade é veneno (isso é chamado de Envenenamento de Ferramenta).
- Finge ser o Chefe: Um funcionário falso diz ao garçom: "O cliente pediu para apagar a cozinha" (isso é Injeção de Intenção).
- Rouba a Chave: O funcionário finge ser o dono e pede para abrir o cofre (isso é Furto de Credenciais).

O que o MCP-SafetyBench fez?

Os autores criaram um simulador de buffet com 245 cenários diferentes, cobrindo 5 áreas da vida real:

Navegação na Web: Tentar encontrar informações.
Finanças: Tentar analisar ações ou saldos.
Arquivos: Tentar gerenciar pastas e códigos.
Navegador: Tentar controlar o navegador.
Localização: Tentar usar mapas.

Eles criaram 20 tipos de truques (ataques) diferentes para ver se os assistentes (os modelos de IA) conseguiam:

Concluir a tarefa: Conseguir o que o usuário pediu (ex: "me diga o preço da ação X").
Não cair no golpe: Perceber que o rótulo estava falso ou que alguém estava tentando roubar dados.

O que eles descobriram? (Os Resultados)

Aqui estão as descobertas principais, traduzidas para a linguagem do dia a dia:

Ninguém está seguro: Todos os assistentes testados (sejam da OpenAI, Google, Anthropic ou modelos de código aberto) caíram nos golpes. Nenhum deles foi perfeito.
O Dilema "Segurança vs. Utilidade":
- Imagine um guarda de segurança em um aeroporto. Se ele for muito rigoroso, ele para todos os passageiros, mesmo os inocentes, e ninguém chega ao voo (o assistente recusa tudo e não faz nada útil).
- Se ele for muito relaxado, ele deixa entrar terroristas (o assistente faz o que o usuário pede, mas cai em golpes).
- O estudo mostrou que os modelos mais inteligentes e úteis tendem a ser menos cautelosos. Eles são tão bons em seguir instruções que, às vezes, seguem instruções maliciosas sem perceber. Os modelos mais "medrosos" são mais seguros, mas falham em fazer tarefas simples.
Onde eles mais falham?
- Na área de Finanças, os assistentes foram os mais vulneráveis. Como é uma área complexa e cheia de dados, os golpistas conseguem se esconder melhor.
- Ataques que vêm de dentro do sistema (o "funcionário" que já tem acesso) foram os mais eficazes.
A "Cartinha de Segurança" não resolve: Os pesquisadores tentaram colocar um aviso no início da conversa (um "Prompt de Segurança") dizendo: "Ei, assistente, cuidado com golpes!".
- Resultado: Funcionou um pouquinho para alguns tipos de golpe, mas para outros, piorou a situação. Às vezes, o aviso fazia o assistente ficar confuso e recusar tarefas legítimas. Ou seja, apenas "pedir para ter cuidado" não é suficiente para proteger um sistema complexo.

A Conclusão em uma Frase

O mundo dos assistentes de IA está crescendo rápido e se conectando a tudo, mas a "porta de entrada" (o MCP) ainda está cheia de buracos. Os assistentes atuais são inteligentes, mas ingênuos quando se trata de segurança.

O MCP-SafetyBench é como um treinamento de incêndio para esses assistentes. Ele nos mostra que, antes de deixarmos nossos assistentes lidarem com nossas finanças e dados pessoais, precisamos desenvolver defesas muito mais fortes do que apenas "pedir para eles terem cuidado". Precisamos de sistemas que saibam distinguir um "adaptador universal" de um "adaptador falso" automaticamente.

Each language version is independently generated for its own context, not a direct translation.

1. Problema e Contexto

Os Grandes Modelos de Linguagem (LLMs) estão evoluindo de geradores de texto passivos para sistemas agentes capazes de raciocinar, planejar e operar ferramentas externas. O Model Context Protocol (MCP) é o padrão emergente que facilita essa transição, permitindo que agentes se conectem de forma padronizada a ferramentas e serviços heterogêneos.

No entanto, a natureza aberta e extensível do MCP introduz novos riscos de segurança que os benchmarks existentes não capturam adequadamente:

Vulnerabilidades em Fluxos Multi-Servidor: Ataques podem ocorrer durante a propagação de contexto entre servidores.
Falta de Cobertura Realista: Benchmarks anteriores focam em ataques isolados, um único "shot" (tentativa) ou ambientes simulados, falhando em capturar a complexidade de interações multi-turno e a integração com servidores MCP reais.
Riscos Concretos: Ataques podem injetar instruções maliciosas em metadados de ferramentas, envenenar o contexto ou desencadear ações não autorizadas, comprometendo a integridade e a privacidade dos dados.

2. Metodologia: MCP-SafetyBench

Os autores apresentam o MCP-SafetyBench, um benchmark abrangente construído sobre servidores MCP reais para avaliar a robustez de agentes LLM.

2.1. Taxonomia de Ataques Unificada

O benchmark define uma taxonomia unificada de 20 tipos de ataques, categorizados em três perspectivas:

Lado do Servidor MCP (MCP Server): Manipulação de metadados, descrições de ferramentas e lógica de implementação.
- Exemplos: Envenenamento de Ferramentas (injeção de parâmetros, comandos, sistema de arquivos), Redirecionamento de Ferramentas, Sobrecarga de Funções (nome similar a ferramentas legítimas), "Rug Pull" (mudança de comportamento da ferramenta após atualizações).
Lado do Host (MCP Host): Ataques que visam a lógica de planejamento e orquestração do agente.
- Exemplos: Injeção de Intenção, Manipulação de Dados, Falsificação de Identidade, Replay de interações anteriores.
Lado do Usuário (User): Entradas maliciosas que induzem a execução de código ou vazamento de segredos.
- Exemplos: Execução de Código Malicioso, Roubo de Credenciais, Uso Excessivo de Privilégios.

2.2. Design e Construção

Domínios: O benchmark cobre 5 domínios do mundo real: Automação de Navegador, Análise Financeira, Navegação de Localização, Gerenciamento de Repositórios e Pesquisa na Web.
Estrutura de Tarefas: Baseado no MCP-Universe, o processo envolve:
1. Seleção de tarefas limpas.
2. Instanciação de ataques (modificando manifests de servidor, pipeline do host ou prompts do usuário).
3. Formalização como tuplas $(G, C, T_{available}, A)$ , onde $A$ é o ataque injetado.
Estatísticas: 245 casos de teste distintos. A distribuição foca em vulnerabilidades do lado do servidor (74,69%), refletindo cenários reais onde agentes confiam em ferramentas de terceiros.
Avaliação Automatizada: Utiliza uma abordagem baseada em execução (execution-based) com dois avaliadores:
- $E_{task}$ : Verifica se o objetivo do usuário foi alcançado (Taxa de Sucesso da Tarefa - TSR).
- $E_{attack}$ : Verifica se o objetivo do atacante foi realizado (Taxa de Sucesso do Ataque - ASR).

3. Contribuições Principais

Taxonomia Unificada: Consolidou e clarificou 20 tipos de ataques MCP, cobrindo lacunas de trabalhos anteriores.
Benchmark Realista: Primeira avaliação sistemática baseada em servidores MCP reais, suportando cenários multi-turno e multi-servidor.
Avaliação Sistemática: Testou modelos proprietários e open-source de ponta, revelando vulnerabilidades generalizadas e o trade-off entre segurança e utilidade.

4. Resultados Experimentais

Os autores avaliaram 13 modelos (incluindo GPT-5, Claude 4.0, Gemini 2.5, Grok-4, Qwen3, DeepSeek-V3.1, etc.).

Vulnerabilidade Universal: Todos os modelos avaliados permanecem vulneráveis a ataques MCP. A Taxa de Sucesso do Ataque (ASR) global variou de 29,80% (Qwen3-235B) a 48,16% (o4-mini).
Trade-off Segurança-Utilidade: Existe uma correlação negativa significativa ( $r = -0.572$ $r = - 0.572$ ) entre a Taxa de Sucesso da Tarefa (TSR) e a Taxa de Defesa (DSR).
- Modelos com melhor desempenho em tarefas tendem a ser menos resistentes a ataques, possivelmente porque são otimizados para seguir instruções de ferramentas indiscriminadamente.
- Modelos com menor desempenho podem exibir comportamentos mais conservadores, oferecendo maior resistência.
Variação por Domínio:
- Análise Financeira: O domínio mais vulnerável (ASR médio de 46,59%), devido à complexidade das trajetórias de uso de ferramentas.
- Pesquisa na Web: O domínio mais seguro (ASR médio de 30,33%).
Tipos de Ataque:
- Ataques do lado do Host (ex: Injeção de Identidade) tiveram a maior taxa de sucesso média (81,94%).
- Ataques de Envenenamento de Ferramentas (Tool Poisoning) variaram muito; o Redirecionamento de Ferramentas teve 70,63% de sucesso, enquanto outros foram menos eficazes.
Modelos Open-Source vs. Proprietários: Não houve diferença sistemática significativa na robustez entre os dois grupos; a vulnerabilidade depende mais da arquitetura específica do modelo do que de sua origem.
Mitigação via Prompt de Segurança: A aplicação de um "Safety Prompt" (instruções de segurança) mostrou efeito limitado e não estatisticamente significativo na redução geral da ASR (-1,22%). Em alguns casos, até piorou a segurança (ex: em ataques de manipulação de preferência).

5. Significado e Conclusão

O artigo estabelece que a segurança em sistemas de agentes LLM conectados via MCP é um desafio crítico e não resolvido.

Diagnóstico: O MCP-SafetyBench fornece a base necessária para diagnosticar falhas de segurança em implantações reais.
Limitações das Defesas Atuais: Defesas baseadas apenas em prompts são insuficientes para ameaças acopladas a cadeias de ferramentas complexas.
Direções Futuras: Os autores sugerem a necessidade de estratégias de defesa em múltiplas camadas, incluindo:
- Validação dinâmica de ferramentas em tempo real.
- Mecanismos de "mínimo privilégio" contextual.
- Técnicas de "unlearning" (esquecimento) de modelos para eliminar padrões de ataque maliciosos.

Em suma, o trabalho alerta que, à medida que os agentes LLM assumem tarefas complexas no mundo real através do MCP, a segurança não pode ser tratada como um acessório, mas sim como um componente fundamental do design do sistema, exigindo novos paradigmas de avaliação e defesa.

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

A Analogia do "Restaurante de Buffet"

O que o MCP-SafetyBench fez?

O que eles descobriram? (Os Resultados)

A Conclusão em uma Frase

1. Problema e Contexto

2. Metodologia: MCP-SafetyBench

2.1. Taxonomia de Ataques Unificada

2.2. Design e Construção

3. Contribuições Principais

4. Resultados Experimentais

5. Significado e Conclusão

Mais como este

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers