MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat Large Language Models (LLMs), zoals de slimme chatbots die we vandaag de dag gebruiken, niet langer alleen maar praten. Ze zijn veranderd in digitale assistenten die echt werk kunnen doen. Ze kunnen voor je boeken, je e-mail beantwoorden, of zelfs je bankrekening controleren. Om dit te kunnen doen, moeten ze verbinding maken met andere computerprogramma's en tools.

De makers van deze paper noemen deze verbinding MCP (Model Context Protocol). Je kunt MCP vergelijken met een universele stekker. Waar je vroeger voor elk apparaat een andere stekker nodig had, zorgt MCP ervoor dat je één stekker hebt die in elk stopcontact past. Dit maakt het heel makkelijk voor die slimme assistenten om nieuwe tools te vinden en te gebruiken.

Maar, zoals bij elke nieuwe stekker, is er een risico: als de stekker niet goed is gemaakt, kan er iets misgaan. En dat is precies waar deze paper over gaat.

Het Probleem: De "Giftige" Standaardstekker

De auteurs zeggen: "Hé, deze nieuwe universele stekker (MCP) is geweldig, maar we hebben geen goede manier om te testen of hij veilig is."

Bestaande tests kijken vaak alleen of de assistent een simpele opdracht goed uitvoert, of ze kijken naar één specifiek soort hack. Maar in de echte wereld is het veel complexer. Een hacker kan niet alleen de assistent zelf aanvallen, maar ook:

De tools die de assistent gebruikt (de "gereedschapskist").
De besturing die de assistent aanstuurt (de "hoofd").
De gebruiker die de opdracht geeft.

De paper introduceert een nieuwe testbank genaamd MCP-SafetyBench.

De Oplossing: Een "Gokkerij" voor Hackers

Stel je MCP-SafetyBench voor als een gokkerij of een veiligheidstest voor je slimme assistent. De onderzoekers hebben een reeks van 245 realistische scenario's bedacht in vijf belangrijke gebieden:

Browser: Het surfen op het web.
Financiën: Geld en aandelen controleren.
Locatie: Routes plannen.
Bestanden: Mappen en code beheren.
Zoeken: Informatie vinden.

In deze testbank sturen ze hun slimme assistenten op een missie, maar ze hebben de "gereedschapskist" (de tools) vergiftigd.

Een leuk voorbeeld uit de paper:
Stel, je vraagt je assistent: "Kijk hoe het gaat met de aandelen van Johnson & Johnson (JNJ)."
De assistent moet een tool gebruiken om die informatie op te halen. Maar de hacker heeft de beschrijving van die tool veranderd. De tool zegt nu stiekem: "Oh, je vraagt om JNJ? Nee, ik ga eigenlijk TSLA (Tesla) opzoeken."
De assistent denkt dat hij het juiste doet, maar hij geeft je informatie over Tesla in plaats van Johnson & Johnson. De taak is "geslaagd" (hij gaf een antwoord), maar de aanval is ook geslaagd (hij gaf het verkeerde antwoord).

Wat hebben ze ontdekt?

De onderzoekers hebben 13 van de slimste AI-modellen ter wereld (zoals GPT-5, Claude, Gemini, en open-source modellen) deze test laten doen. Hier zijn de belangrijkste resultaten, vertaald naar simpele taal:

Niemand is veilig: Alle modellen, zelfs de duurste en slimste, zijn kwetsbaar. Ze laten zich misleiden door de vergiftigde tools.
De "Veiligheid vs. Nut"-Dilemma: Dit is de meest interessante ontdekking. Er is een soort wip-wap-effect.
- Modellen die heel goed zijn in het uitvoeren van taken (ze zijn "dapper" en doen precies wat je zegt), vallen makkelijker voor de trucs van hackers. Ze zijn zo gehoorzaam dat ze ook naar de verkeerde instructies luisteren.
- Modellen die wat minder goed zijn in het uitvoeren van taken, zijn soms juist veiliger. Ze zijn wat "luier" of wantrouwiger en doen niet alles wat ze horen.
- Analogie: Een zeer gehoorzame butler die alles voor je doet, zal ook een opdracht uitvoeren van een bedriager die zich voordoet als de baas. Een wat eigenzinnigere butler zegt misschien: "Wacht even, dat klinkt raar," en voorkomt zo de fout.
De zwakste schakel: De aanvallen die het beste werken, komen niet van de tools zelf, maar van het hoofd van de assistent (de "Host"). Als een hacker de plannen van de assistent kan veranderen, is het gedaan met de veiligheid.
Simpele waarschuwingen werken niet: De onderzoekers probeerden de modellen een "veiligheidsbriefje" te geven (een prompt) waarin stond: "Wees voorzichtig!". Dit hielp een beetje tegen de duidelijkste aanvallen, maar tegen de slimme, sluwe aanvallen werkte het niet. Soms maakte het de modellen zelfs nog slimmer in het doen van verkeerde dingen!

Wat betekent dit voor de toekomst?

De boodschap is duidelijk: We kunnen niet zomaar vertrouwen op onze slimme assistenten als ze verbinding maken met de buitenwereld.

Het is alsof we net een nieuwe, superhandige auto hebben gebouwd die overal naartoe kan rijden, maar we hebben vergeten de remmen te testen. De paper zegt: "We moeten stoppen met alleen maar kijken of de auto snel is, en gaan kijken of hij niet van de weg rijdt als iemand op de rem trapt."

De auteurs hopen dat hun nieuwe testbank (MCP-SafetyBench) helpt om deze "remmen" te verbeteren, zodat onze digitale assistenten in de toekomst niet alleen slim zijn, maar ook veilig.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "MCP-SAFETYBENCH: A BENCHMARK FOR SAFETY EVALUATION OF LARGE LANGUAGE MODELS WITH REAL-WORLD MCP SERVERS", vertaald en samengevat in het Nederlands.

Probleemstelling

Grote Taalmodellen (LLM's) evolueren van passieve tekstgeneratoren naar agentische systemen die kunnen redeneren, plannen en externe tools bedienen. De Model Context Protocol (MCP) is een standaard die dit mogelijk maakt door LLM's te verbinden met heterogene tools en diensten. Hoewel MCP de integratie vereenvoudigt, introduceert de openheid en de multi-server workflows nieuwe veiligheidsrisico's die door bestaande benchmarks niet worden gedekt.

Bestaande benchmarks focussen vaak op geïsoleerde aanvallen of ontberen realistische integratie met echte MCP-servers. Ze missen de complexiteit van multi-turn redenering, real-world integratie en de diverse dynamieken van bedreigingen die kenmerkend zijn voor praktische MCP-implementaties. Er is een dringende behoefte aan een benchmark die de veiligheid van LLM-agenten test in een omgeving die de realiteit nabootst, inclusief aanvallen op server-, host- en gebruikersniveau.

Methodologie: MCP-SafetyBench

De auteurs introduceren MCP-SafetyBench, een uitgebreide benchmark gebaseerd op echte MCP-servers. De methode omvat de volgende kerncomponenten:

Unificatie van Aanvalstaxonomie:
Er is een gestandaardiseerde taxonomie ontwikkeld van 20 verschillende aanvalstypen, ingedeeld in drie categorieën:
- MCP Server-kant: Aanvallen waarbij tool-metagegevens, beschrijvingen of implementaties worden gemanipuleerd (bijv. Tool Poisoning, Command Injection, Function Overlapping, Rug Pull Attacks).
- MCP Host-kant: Aanvallen die de plannings- en orkestratielogica van de agent beïnvloeden (bijv. Intent Injection, Data Tampering, Identity Spoofing).
- Gebruikerskant: Aanvallen via gebruikersinput die leiden tot schadelijke uitvoering of datalekken (bijv. Malicious Code Execution, Credential Theft).
Benchmarks Ontwerp en Constructie:
- Domeinen: De benchmark omvat vijf realistische domeinen: Browser-automatisering, Financiële analyse, Locatie-navigatie, Repository-beheer en Web-zoeken.
- Opbouw: Gebaseerd op de MCP-Universe benchmark, worden standaardtaken omgezet in beveiligingstests door specifieke aanvallen te injecteren. Elke taak is een tuple van (Doel, Context, Beschikbare Tools, Aanval).
- Statistieken: In totaal zijn er 245 unieke testcases gegenereerd. De verdeling is ongeveer 75% server-aanvallen, 12% host-aanvallen en 13% gebruikersaanvallen, wat de realiteit weerspiegelt waar agenten vertrouwen moeten hebben in derde partijen.
Evaluatie Framework:
De evaluatie is volledig geautomatiseerd en uitvoeringsgebaseerd (execution-based). Voor elke taak worden twee metrieken gemeten:
- Task Success Rate (TSR): Wordt het oorspronkelijke doel van de gebruiker bereikt?
- Attack Success Rate (ASR): Lukt het de aanval om het gedrag van de agent te compromitteren (bijv. door gegevens te lekken of een verkeerde actie uit te voeren), zelfs als de taak ogenschijnlijk voltooid lijkt?

Belangrijkste Bijdragen

Eerste Realistische Multi-turn Benchmark: MCP-SafetyBench is de eerste benchmark die veiligheidstests uitvoert in een omgeving met echte MCP-servers en multi-step workflows, in plaats van gesimuleerde of eenmalige tool-gebruiksscenario's.
Uitgebreide Taxonomie: Het consolideert eerdere werk in een gestructureerde lijst van 20 aanvalstypen die de volledige stack (Server, Host, User) bestrijken.
Systematische Evaluatie: Het biedt een grondige analyse van zowel open-source als proprietaire LLM's, waardoor inzicht wordt verkregen in hun kwetsbaarheden en de afweging tussen nut en veiligheid.

Resultaten

De auteurs hebben 13 toonaangevende modellen (waaronder GPT-5, Claude-4.0, Gemini-2.5, DeepSeek-V3.1, Qwen3, etc.) getest. De belangrijkste bevindingen zijn:

Algemene Kwetsbaarheid: Geen enkel model is immuun voor MCP-aanvallen. De Attack Success Rate (ASR) varieert van 29,80% (Qwen3-235B) tot 48,16% (o4-mini).
Veiligheid-Nut Trade-off: Er is een duidelijke negatieve correlatie ( $r = -0.572$ ) tussen Task Success Rate en Defensie Succes. Modellen die zeer goed presteren in het uitvoeren van taken, blijken vaak minder bestand tegen aanvallen. Dit komt doordat hoogpresterende modellen vaak strikter instructies volgen, inclusief kwaadaardige instructies, om de taak te voltooien.
Domein-specifieke Kwetsbaarheden:
- Financiële Analyse is het meest kwetsbaar (gemiddelde ASR van 46,59%), waarschijnlijk omdat complexe tool-gebruikspaden meer kansen bieden voor aanvallen.
- Web Search is het minst kwetsbaar (ASR van 30,33%).
Type Aanval: Aanvallen aan de Host-kant (zoals Intent Injection en Identity Spoofing) zijn het meest effectief, met een gemiddelde ASR van 81,94%. Identity Spoofing slaagt zelfs in 100% van de gevallen bij alle geteste modellen.
Open-source vs. Propriëtrair: Er is geen systematisch verschil in robuustheid tussen open-source en gesloten modellen; beide categorieën vertonen vergelijkbare kwetsbaarheden.
Beperking van Safety Prompts: Het toevoegen van een "Safety Prompt" (veiligheidswaarschuwingen) aan de input levert slechts een marginale verbetering op (ASR daalt van 39,88% naar 38,65%) en is statistisch niet significant. Voor sommige aanvalstypen (zoals Preference Manipulation) kan het zelfs contraproductief werken.

Betekenis en Conclusie

MCP-SafetyBench legt bloot dat de huidige generatie LLM-agenten ernstige veiligheidsrisico's loopt in real-world MCP-omgevingen. De studie benadrukt dat:

De openheid van MCP een aanzienlijk veiligheidsprobleem introduceert dat niet kan worden opgelost met bestaande, simpele benchmarks.
Er een fundamentele spanning bestaat tussen het vermogen om complexe taken uit te voeren en de veiligheid tegen manipulatie.
Prompt-level verdedigingen onvoldoende zijn. De auteurs pleiten voor multi-layered verdedigingsstrategieën, zoals dynamische tool-verificatie, formele methoden voor "least privilege" (beperkte machtigingen) en technieken voor het "vergeten" van schadelijke patronen (model unlearning).

De benchmark is beschikbaar gesteld als een open-source tool om de veiligheid van toekomstige MCP-implementaties te diagnosticeren en te verbeteren.

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Het Probleem: De "Giftige" Standaardstekker

De Oplossing: Een "Gokkerij" voor Hackers

Wat hebben ze ontdekt?

Wat betekent dit voor de toekomst?

Probleemstelling

Methodologie: MCP-SafetyBench

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers