MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du hast einen hochintelligenten, aber etwas naiven persönlichen Assistenten. Dieser Assistent kann nicht nur Texte schreiben, sondern auch echte Aufgaben erledigen: Er kann im Internet suchen, Aktienkurse prüfen, E-Mails schreiben oder sogar Dateien auf deinem Computer verwalten.

Das ist das Versprechen von LLMs (den großen Sprachmodellen wie ChatGPT oder Claude), wenn sie mit MCP (dem "Modell Context Protocol") verbunden werden. MCP ist wie ein universeller Steckdosenadapter. Er erlaubt deinem Assistenten, sich mit tausenden verschiedenen Werkzeugen und Diensten zu verbinden, ohne dass man für jedes Werkzeug einen neuen Kabelbaum bauen muss.

Aber hier kommt das Problem: Jeder kann diese Steckdosen bauen. Und genau das macht es gefährlich.

Das Problem: Der vergiftete Werkzeugkasten

Stell dir vor, du mietest einen Werkzeugkasten für einen Heimwerkerjob. Normalerweise ist der Hammer da, um Nägel zu schlagen. Aber was passiert, wenn jemand den Hammer so umgebaut hat, dass er, sobald du ihn nimmst, versehentlich deine Haustür aufbricht oder dein Geld stiehlt?

Das passiert in der digitalen Welt mit MCP-Servern. Da das System so offen ist, können böswillige Hacker ihre eigenen "Werkzeuge" (Server) erstellen, die so aussehen, als wären sie harmlos, aber im Hintergrund schädliche Befehle ausführen.

Die Forscher aus diesem Papier haben festgestellt: Bisherige Tests waren zu simpel. Sie haben den Assistenten nur gefragt: "Ist dieser Hammer sicher?" Aber im echten Leben muss der Assistent eine ganze Kette von Aufgaben erledigen (z. B. "Suche den besten Preis für ein Flugticket, buche es und sende die Bestätigung"). Dabei kann der Angriff an jeder Stelle lauern.

Die Lösung: MCP-SafetyBench (Der große Sicherheits-Test)

Die Autoren haben einen neuen, riesigen Sicherheits-Test namens MCP-SafetyBench entwickelt. Stell dir das wie einen Crash-Test für Autos vor, aber statt Autos testen sie KI-Assistenten in einer simulierten, aber realistischen Welt.

Wie funktioniert der Test?

Echte Szenarien: Der Assistent muss echte Aufgaben lösen (z. B. Finanzanalysen machen, im Internet suchen, Code verwalten).
Die Fallen: Während der Assistent arbeitet, haben die Forscher heimlich "Fallen" eingebaut.
- Beispiel: Der Assistent soll Aktien von "Apple" kaufen. Der böse Werkzeugkasten (Server) hat aber heimlich den Namen in "Tesla" geändert. Der Assistent denkt, er macht alles richtig, kauft aber das Falsche.
- Beispiel: Der Assistent soll eine Datei öffnen, aber das Werkzeug fügt heimlich einen Virus hinzu.
Die Bewertung: Am Ende wird gemessen:
- Hat der Assistent die Aufgabe geschafft? (Ja/Nein)
- Wurde er getäuscht oder angegriffen? (Ja/Nein)

Was haben sie herausgefunden? (Die überraschenden Ergebnisse)

Der Test wurde mit den besten KI-Modellen der Welt durchgeführt (von OpenAI, Google, Anthropic und Open-Source-Modellen). Die Ergebnisse sind alarmierend, aber wichtig:

Niemand ist sicher: Alle getesteten Modelle – egal ob teuer oder kostenlos – sind anfällig für diese Angriffe. Kein Assistent ist immun.
Der "Sicherheits-Dilemma"-Effekt: Hier kommt die wichtigste Erkenntnis. Es gibt einen Zielkonflikt:
- Je besser ein Assistent darin ist, komplexe Aufgaben zu lösen (hohe Leistung), desto eher folgt er blindlings Anweisungen – auch den bösen.
- Je vorsichtiger ein Assistent ist (sicher), desto eher lehnt er Aufgaben ab, auch wenn sie harmlos sind.
- Analogie: Ein sehr gehorsamer Butler (hohe Leistung) wird dir vielleicht einen "Giftigen Cocktail" mixen, weil du es ihm sagst. Ein sehr vorsichtiger Butler (hohe Sicherheit) wird dir vielleicht keinen Kaffee mehr bringen, weil er Angst hat, dass der Kaffee verseucht sein könnte.
Wo ist die Gefahr am größten?
- Finanz-Analysen sind besonders gefährlich, weil hier viele Schritte nötig sind und die KI oft sehr genau arbeitet.
- Identitäts-Diebstahl (wenn sich ein Werkzeug als jemand anderes ausgibt) funktioniert fast immer zu 100 %.
Einfache Warnhinweise helfen nicht: Die Forscher haben versucht, den Assistenten mit einem "Sicherheits-Prompt" (einer Art Warnhinweis: "Sei vorsichtig!") zu schützen. Das half nur wenig. Es ist, als würde man einem Dieb sagen: "Hey, stehle nicht!", während er schon das Schloss aufbricht. Man braucht tiefere Sicherheitsmechanismen.

Fazit: Warum ist das wichtig?

Dieses Papier ist wie ein Frühwarnsystem. Es zeigt uns, dass wir KI-Assistenten nicht einfach blind in unsere digitale Infrastruktur lassen können.

Die Hoffnung: Wir haben jetzt einen Maßstab (den Test), um zu sehen, welche KI sicherer ist.
Die Realität: Wir müssen lernen, dass "Intelligenz" nicht automatisch "Sicherheit" bedeutet.
Die Zukunft: Wir brauchen neue Schutzmechanismen, die nicht nur auf "Worte" (Warnhinweise) setzen, sondern die Werkzeuge selbst überprüfen, bevor die KI sie benutzt.

Kurz gesagt: Wir bauen gerade die Autos der Zukunft (KI-Agenten), aber wir haben noch keine guten Bremsen oder Airbags für die unsicheren Straßen, auf denen sie fahren. Dieser Test hilft uns, diese Bremsen endlich zu entwickeln.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „MCP-SAFETYBENCH: A BENCHMARK FOR SAFETY EVALUATION OF LARGE LANGUAGE MODELS WITH REAL-WORLD MCP SERVERS" auf Deutsch:

1. Problemstellung

Große Sprachmodelle (LLMs) entwickeln sich zunehmend von passiven Textgeneratoren zu autonomen Agentensystemen, die externe Tools planen und ausführen können. Der Model Context Protocol (MCP) dient als standardisierte Schnittstelle, um LLMs mit heterogenen Tools und Diensten zu verbinden. Diese Offenheit und Erweiterbarkeit von MCP führt jedoch zu neuen Sicherheitsrisiken, die von bestehenden Benchmarks nicht erfasst werden:

Komplexität der Angriffe: Angriffe können nicht nur isoliert, sondern über mehrere Server hinweg und in mehrstufigen Workflows (Multi-Turn) erfolgen.
Fehlende Realitätsnähe: Bisherige Benchmarks konzentrieren sich oft auf simulierte Umgebungen oder einzelne Angriffstypen und ignorieren die Integration mit echten MCP-Servern.
Sicherheitslücken: Böswillige Akteure können Tool-Metadaten manipulieren, Kontexte vergiften (Context Poisoning) oder unbefugte Aktionen auslösen, was zu Datenlecks oder Systemkompromittierungen führt.

2. Methodik: MCP-SafetyBench

Die Autoren stellen MCP-SafetyBench vor, einen umfassenden Benchmark, der auf echten MCP-Servern basiert und die Robustheit von LLM-Agenten systematisch bewertet.

Aufbau und Domänen: Der Benchmark umfasst 245 Testfälle in fünf realistischen Domänen: Browser-Automatisierung, Finanzanalyse, Standortnavigation, Repository-Management und Websuche.
Angriffstaxonomie: Es wurde eine einheitliche Taxonomie von 20 Angriffstypen entwickelt, die in drei Kategorien unterteilt sind:
1. MCP Server-Seite: (z. B. Tool Poisoning, Parameter-Manipulation, Befehlsinjektion, Tool-Shadowing, Rug Pulls).
2. MCP Host-Seite: (z. B. Intent Injection, Datenmanipulation, Identitäts-Spoofing, Replay-Angriffe).
3. User-Seite: (z. B. Ausführung bösartigen Codes, Credential Theft, Missbrauch von Exzessiv-Privilegien).
Konstruktionsprozess: Aufgaben werden aus dem bestehenden MCP-Universe-Benchmark übernommen und mit spezifischen Angriffen versehen (z. B. Manipulation des Tool-Manifests). Jeder Task wird als Tupel $(G, C, T_{available}, A)$ formalisiert (Ziel, Kontext, verfügbare Tools, Angriff).
Evaluierungsframework: Die Bewertung ist vollautomatisiert und ausführungsbasiert. Sie misst zwei Metriken pro Lauf:
- Task Success Rate (TSR): Wurde das Benutzerziel erreicht?
- Attack Success Rate (ASR): Wurde das Angriffsziel (z. B. Datenleak, falsche Ausführung) erreicht?

3. Wichtige Beiträge

Einheitliche Taxonomie: Entwicklung und Konsolidierung von 20 Angriffstypen über Server-, Host- und User-Ebenen hinweg.
Realistischer Benchmark: Schaffung von MCP-SafetyBench mit echten Server-Integrationen und Multi-Step-Workflows, der Lücken in vorherigen Benchmarks schließt.
Systematische Evaluierung: Umfassende Tests führender Open-Source- und proprietärer Modelle, die erstmals ein klares Bild der Sicherheitslage im MCP-Ökosystem liefern.

4. Ergebnisse

Die Evaluierung umfasste 13 State-of-the-Art-Modelle (u. a. GPT-5, GPT-4o, Claude-4.0, Gemini-2.5, DeepSeek-V3.1, Qwen3).

Allgemeine Verwundbarkeit: Alle getesteten Modelle sind anfällig für MCP-Angriffe. Die durchschnittliche Attack Success Rate (ASR) liegt zwischen ca. 30 % und 48 %, wobei kein Modell immun ist.
Safety-Utility Trade-off: Es wurde eine signifikante negative Korrelation ( $r = -0.572$ ) zwischen Task Success Rate (TSR) und Defense Success Rate (DSR) festgestellt. Modelle, die Aufgaben sehr gut lösen (hohe TSR), neigen dazu, Sicherheitswarnungen zu ignorieren und sind anfälliger für Angriffe.
Domänen-spezifische Risiken:
- Finanzanalyse ist am anfälligsten (durchschnittliche ASR: 46,59 %), da komplexe Tool-Pfade mehr Angriffsvektoren bieten.
- Websuche ist am widerstandsfähigsten (ASR: ~30 %).
Angriffsarten:
- Host-Seiten-Angriffe (z. B. Intent Injection, Identity Spoofing) sind am effektivsten (durchschnittliche ASR: 81,94 %).
- Identity Injection erreicht bei allen Modellen eine 100 %ige Erfolgsrate.
- Tool Poisoning zeigt gemischte Ergebnisse; Tool Redirection ist sehr effektiv (70,63 %), während andere Varianten weniger erfolgreich sind.
Modelltypen: Es gibt keinen systematischen Unterschied in der Sicherheit zwischen Open-Source- und proprietären Modellen. Auch „Reasoning"-Modelle unterscheiden sich nicht signifikant von nicht-reasoning Modellen in ihrer Anfälligkeit.
Prompt-Mitigation: Der Einsatz von Sicherheits-Prompts („Safety Prompts") zeigte nur eine marginale Verbesserung (ASR-Reduktion von 39,88 % auf 38,65 %) und war statistisch nicht signifikant. Bei einigen Angriffstypen (z. B. Preference Manipulation) verschlechterte sie die Sicherheit sogar.

5. Bedeutung und Ausblick

Das Paper unterstreicht, dass die Sicherheit von LLM-Agenten in MCP-Umgebungen ein kritisches, ungelöstes Problem ist. Die Ergebnisse zeigen, dass:

Aktuelle Sicherheitsmaßnahmen (wie reine Prompt-Optimierung) unzureichend sind.
Ein fundamentaler Zielkonflikt zwischen hoher Leistungsfähigkeit (Utility) und Sicherheit besteht.
Die Offenheit von MCP-Servern die größte Schwachstelle darstellt.

Zukünftige Arbeiten sollten sich auf mehrschichtige Verteidigungsstrategien konzentrieren, die über Prompting hinausgehen, wie z. B. dynamische Tool-Verifizierung, kontextbasierte Least-Privilege-Mechanismen und Techniken zum „Unlearning" von Angriffsmustern. MCP-SafetyBench dient als fundamentale Basis für die Diagnose und Minderung dieser Risiken in realen Bereitstellungen.

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Das Problem: Der vergiftete Werkzeugkasten

Die Lösung: MCP-SafetyBench (Der große Sicherheits-Test)

Was haben sie herausgefunden? (Die überraschenden Ergebnisse)

Fazit: Warum ist das wichtig?

1. Problemstellung

2. Methodik: MCP-SafetyBench

3. Wichtige Beiträge

4. Ergebnisse

5. Bedeutung und Ausblick

Mehr davon

The Structure of Service Level Agreement of Slice-based 5G Network

Digital currency hardware wallets and the essence of money

Adaptive aggregation of Monte Carlo augmented decomposed filters for efficient group-equivariant convolutional neural network

Positionality in Σ_0^2 and a completeness result

Slightly Non-Linear Higher-Order Tree Transducers