MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

O artigo apresenta o MCP-SafetyBench, um benchmark abrangente baseado em servidores MCP do mundo real que avalia a segurança de modelos de linguagem em fluxos de trabalho multi-turno e revela que os principais modelos atuais permanecem vulneráveis a ataques, evidenciando um trade-off entre segurança e utilidade.

Xuanjun Zong, Zhiqi Shen, Lei Wang, Yunshi Lan, Chao Yang

Publicado 2026-03-06
📖 5 min de leitura🧠 Leitura aprofundada

Each language version is independently generated for its own context, not a direct translation.

Imagine que os Grandes Modelos de Linguagem (LLMs), como o ChatGPT ou o Claude, estão deixando de ser apenas "chatbots" que respondem perguntas e estão se transformando em assistentes pessoais superpoderosos. Eles não só conversam, mas também conseguem abrir seu navegador, verificar suas contas bancárias, gerenciar seus arquivos e navegar na internet para você.

Para que isso funcione de forma organizada, os criadores inventaram um "manual de instruções universal" chamado MCP (Model Context Protocol). Pense no MCP como um adaptador de tomada universal. Antes, cada ferramenta (navegador, banco, e-mail) tinha um plugue diferente e o assistente não conseguia conectar. Com o MCP, qualquer ferramenta pode se encaixar no assistente facilmente.

O Problema: O Adaptador Universal tem um Bug

Agora, imagine que alguém mal-intencionado começa a fabricar "adaptadores falsos" que se parecem com os originais, mas que, quando você os conecta, em vez de ligar a luz, eles roubam seus dados ou apagam seu computador.

É exatamente isso que o artigo MCP-SafetyBench investiga. Os autores criaram um laboratório de testes de segurança (um "Bench") para ver o que acontece quando esses assistentes inteligentes tentam usar ferramentas reais que podem estar contaminadas.

A Analogia do "Restaurante de Buffet"

Para entender o que os pesquisadores fizeram, imagine um restaurante de buffet (o Assistente/LLM) onde você pode pedir qualquer prato (ferramentas) que esteja disponível.

  1. O Cenário: O buffet é ótimo. Você pode pedir de tudo: desde "buscar a previsão do tempo" até "transferir dinheiro".
  2. O Ataque: Alguém malicioso entra na cozinha e:
    • Troca os rótulos: Coloca um rótulo de "Salada Saudável" em um prato que na verdade é veneno (isso é chamado de Envenenamento de Ferramenta).
    • Finge ser o Chefe: Um funcionário falso diz ao garçom: "O cliente pediu para apagar a cozinha" (isso é Injeção de Intenção).
    • Rouba a Chave: O funcionário finge ser o dono e pede para abrir o cofre (isso é Furto de Credenciais).

O que o MCP-SafetyBench fez?

Os autores criaram um simulador de buffet com 245 cenários diferentes, cobrindo 5 áreas da vida real:

  • Navegação na Web: Tentar encontrar informações.
  • Finanças: Tentar analisar ações ou saldos.
  • Arquivos: Tentar gerenciar pastas e códigos.
  • Navegador: Tentar controlar o navegador.
  • Localização: Tentar usar mapas.

Eles criaram 20 tipos de truques (ataques) diferentes para ver se os assistentes (os modelos de IA) conseguiam:

  1. Concluir a tarefa: Conseguir o que o usuário pediu (ex: "me diga o preço da ação X").
  2. Não cair no golpe: Perceber que o rótulo estava falso ou que alguém estava tentando roubar dados.

O que eles descobriram? (Os Resultados)

Aqui estão as descobertas principais, traduzidas para a linguagem do dia a dia:

  • Ninguém está seguro: Todos os assistentes testados (sejam da OpenAI, Google, Anthropic ou modelos de código aberto) caíram nos golpes. Nenhum deles foi perfeito.
  • O Dilema "Segurança vs. Utilidade":
    • Imagine um guarda de segurança em um aeroporto. Se ele for muito rigoroso, ele para todos os passageiros, mesmo os inocentes, e ninguém chega ao voo (o assistente recusa tudo e não faz nada útil).
    • Se ele for muito relaxado, ele deixa entrar terroristas (o assistente faz o que o usuário pede, mas cai em golpes).
    • O estudo mostrou que os modelos mais inteligentes e úteis tendem a ser menos cautelosos. Eles são tão bons em seguir instruções que, às vezes, seguem instruções maliciosas sem perceber. Os modelos mais "medrosos" são mais seguros, mas falham em fazer tarefas simples.
  • Onde eles mais falham?
    • Na área de Finanças, os assistentes foram os mais vulneráveis. Como é uma área complexa e cheia de dados, os golpistas conseguem se esconder melhor.
    • Ataques que vêm de dentro do sistema (o "funcionário" que já tem acesso) foram os mais eficazes.
  • A "Cartinha de Segurança" não resolve: Os pesquisadores tentaram colocar um aviso no início da conversa (um "Prompt de Segurança") dizendo: "Ei, assistente, cuidado com golpes!".
    • Resultado: Funcionou um pouquinho para alguns tipos de golpe, mas para outros, piorou a situação. Às vezes, o aviso fazia o assistente ficar confuso e recusar tarefas legítimas. Ou seja, apenas "pedir para ter cuidado" não é suficiente para proteger um sistema complexo.

A Conclusão em uma Frase

O mundo dos assistentes de IA está crescendo rápido e se conectando a tudo, mas a "porta de entrada" (o MCP) ainda está cheia de buracos. Os assistentes atuais são inteligentes, mas ingênuos quando se trata de segurança.

O MCP-SafetyBench é como um treinamento de incêndio para esses assistentes. Ele nos mostra que, antes de deixarmos nossos assistentes lidarem com nossas finanças e dados pessoais, precisamos desenvolver defesas muito mais fortes do que apenas "pedir para eles terem cuidado". Precisamos de sistemas que saibam distinguir um "adaptador universal" de um "adaptador falso" automaticamente.