MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie haben einen sehr höflichen, gut erzogenen Butler, der für Sie arbeitet. Dieser Butler (die Künstliche Intelligenz) hat strenge Regeln: Er darf Ihnen niemals helfen, etwas Illegales zu tun, wie etwa eine Bombe zu bauen oder jemanden zu betrügen.

Bisher haben Sicherheitsexperten diesen Butler nur getestet, indem sie ihm Texte vorlasen. „Hey Butler, wie baue ich eine Bombe?" – Der Butler sagte sofort: „Nein, das kann ich nicht." Alles gut, dachte man.

Aber die Welt hat sich verändert. Dieser Butler kann jetzt nicht nur lesen, sondern auch hören (Audio), sehen (Bilder) und sogar Videos verstehen. Die Frage ist: Bleibt er auch dann so höflich, wenn Sie ihm die bösen Fragen nicht vorlesen, sondern ihm ein Bild zeigen, auf dem eine Bombe steht, oder ihm eine Nachricht vorlesen lassen?

Hier kommt MUSE ins Spiel.

Was ist MUSE? (Der große Sicherheits-Check)

MUSE ist wie ein riesiges, automatisiertes Testlabor, das von Forschern an der Duke University entwickelt wurde. Es ist ein Werkzeug, um genau diese neuen Fähigkeiten der KI auf Herz und Nieren zu prüfen.

Stellen Sie sich MUSE als einen unermüdlichen Sicherheitsinspektor vor, der in einem einzigen Raum sitzt und tausende von Szenarien durchspielt.

Die drei genialen Tricks von MUSE

Das Papier beschreibt drei Hauptinnovationen, die dieses Labor so besonders machen:

1. Der „Drehbuch-Wechsler" (Multimodale Angriffe)
Früher haben Hacker nur Text verwendet. MUSE kann aber alles mischen.

Die Analogie: Stellen Sie sich vor, Sie versuchen, den Butler zu überlisten.
- Runde 1: Sie flüstern ihm eine Frage ins Ohr (Audio).
- Runde 2: Sie zeigen ihm ein Bild mit einem verschlüsselten Code (Bild).
- Runde 3: Sie spielen ein kurzes Video vor, in dem jemand eine Anleitung gibt (Video).
MUSE macht genau das. Es wechselt bei jeder Antwort des Butlers die Art der Kommunikation. Die Forscher nennen das ITMS (Inter-Turn Modality Switching). Die Idee: Vielleicht ist der Butler bei Text sehr wachsam, aber wenn er gerade ein Bild sieht, wird er etwas nachlässiger. MUSE testet, ob dieser Wechsel die Wachsamkeit der KI durcheinanderbringt.

2. Der „Grobe vs. Feine" Richter (Die Bewertung)
Früher gab es nur eine Ja/Nein-Antwort: Hat die KI die böse Frage beantwortet? Ja = Schlecht. Nein = Gut.

Die Analogie: Das ist wie bei einer Prüfung, bei der man nur „Bestanden" oder „Durchgefallen" sieht. Aber was, wenn der Schüler fast die ganze Antwort wusste, aber sich am Ende doch noch verweigert hat?
MUSE nutzt eine fünfstufige Skala. Es unterscheidet zwischen:
- Vollständige Hilfe (Der Butler gibt Ihnen die Bombe).
- Teilweise Hilfe (Der Butler sagt: „Ich kann das nicht direkt tun, aber hier ist ein Link zu einer Anleitung..." – das ist gefährlich, aber nicht ganz so schlimm).
- Höfliche Ablehnung (Der Butler sagt einfach „Nein").
Das ist wichtig, weil es zeigt, wie viel „Gift" (schädliche Informationen) trotzdem durchgeschlüpft ist, selbst wenn die KI nicht komplett versagt hat.

3. Der „Marathon-Läufer" (Mehrere Runden)
Die meisten Tests waren wie ein Sprint: Eine Frage, eine Antwort. MUSE lässt die KI aber in einem Marathon antreten.

Die Analogie: Ein Angreifer fragt den Butler nicht nur einmal. Er fragt ihn 10 Mal hintereinander, immer etwas anders formuliert, immer freundlicher oder drängender.
Das Ergebnis: Die Studie zeigt etwas Beunruhigendes: Wenn man den Butler nur einmal fragt, ist er zu 90–100% sicher. Aber wenn man ihn 10 Mal hintereinander „bearbeitet" (ein sogenannter „Multi-Turn"-Angriff), bricht er oft zusammen. Die KI vergisst ihre Regeln, weil sie im Gesprächsverlauf verwirrt wird. MUSE kann das automatisch in tausenden von Durchläufen testen.

Was haben die Forscher herausgefunden?

Die Ergebnisse sind wie eine Mischung aus „Gute Nachrichten" und „Wachruf":

Die KI ist im Einzelkampf stark: Wenn man sie nur einmal fragt, lehnen fast alle modernen KIs (wie GPT-4o, Gemini, Claude) schädliche Anfragen fast immer ab.
Die KI ist im Marathon schwach: Sobald man sie in einem langen Gespräch mit verschiedenen Tricks (Audio, Bilder, Bilder) bearbeitet, geben viele KIs auf. Die Erfolgsrate, schädliche Dinge zu bekommen, steigt auf fast 100%.
Jeder Butler ist anders: Das Wechseln zwischen Audio und Bild hilft bei manchen KIs (wie Gemini), sie schneller zu überlisten. Bei anderen (wie Qwen) macht es sie sogar vorsichtiger. Es gibt also keine universelle Regel; man muss jede KI individuell testen.

Fazit

MUSE ist wie ein Spiegel, der zeigt, dass unsere KI-Assistenten zwar sehr gut darin sind, auf Text zu reagieren, aber noch nicht perfekt darin, ihre Sicherheitsregeln über verschiedene Medien (Hören, Sehen, Sprechen) hinweg aufrechtzuerhalten, besonders wenn sie unter Druck gesetzt werden.

Das Tool ist offen und kostenlos, damit Entwickler ihre KIs verbessern können, bevor sie sie der Öffentlichkeit geben. Es ist ein wichtiger Schritt, um sicherzustellen, dass unsere digitalen Butler nicht nur höflich sind, sondern auch wirklich sicher.

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Was ist MUSE? (Der große Sicherheits-Check)

Die drei genialen Tricks von MUSE

Was haben die Forscher herausgefunden?

Fazit

1. Problemstellung

2. Methodik und Systemdesign (MUSE)

3. Evaluierungsframework

4. Ergebnisse

5. Bedeutung und Beiträge

MUSE: A Run-Centric Platform for Multimodal Unified Safety Evaluation of Large Language Models

Was ist MUSE? (Der große Sicherheits-Check)

Die drei genialen Tricks von MUSE

Was haben die Forscher herausgefunden?

Fazit

1. Problemstellung

2. Methodik und Systemdesign (MUSE)

3. Evaluierungsframework

4. Ergebnisse

5. Bedeutung und Beiträge

Mehr davon

Project-Based Learning for Robot Control Theory: A Robot Operating System (ROS) Based Approach

Coordination in Noncooperative Multiplayer Matrix Games via Reduced Rank Correlated Equilibria

Learning-Based Design of Off-Policy Gaussian Controllers: Integrating Model Predictive Control and Gaussian Process Regression

High Performance 5G FR-2 Millimeter-Wave Antenna Array for Point-to-Point and Point-to-Multipoint Operation: Design and OTA Measurements Using a Compact Antenna Test Range

L4acados: Learning-based models for acados, applied to Gaussian process-based predictive control