JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Augen-und-Ohr"-Roboter

Stell dir einen sehr intelligenten Roboter vor, der sowohl sehen (Bilder verstehen) als auch hören (Text verstehen) kann. Das ist ein „Vision-Language Model" (VLM). Er ist wie ein superkluger Assistent, der dir Bilder beschreiben und Fragen dazu beantworten kann.

Damit dieser Roboter nicht böse Dinge tut (wie Anleitungen zum Hacken von Bankkonten gibt), hat man ihm eine innere Sicherheitsbarriere eingebaut. Stell dir das wie eine unsichtbare Mauer oder einen strengen Türsteher vor, der prüft: „Ist diese Anfrage sicher? Wenn ja, öffne die Tür. Wenn nein, sag 'Nein'."

Das Problem ist: Diese Mauer ist nicht perfekt. Die Forscher haben herausgefunden, dass man diese Mauer umgehen kann, indem man nicht nur an der Tür klopft, sondern direkt in das Gehirn des Roboters schaut.

Die Entdeckung: Der „Gedankenraum" des Roboters

Die Forscher (Jiaxin Song und sein Team) haben eine spannende Idee aus einem anderen Forschungsgebiet übernommen, die sie „ELK" nennen.

Stell dir vor, der Roboter denkt in einem Gedankenraum (einem unsichtbaren Raum voller Daten).

Wenn er eine harmlose Frage bekommt, landet sein Gedanke auf der einen Seite des Raums (der „sicheren Seite").
Wenn er eine gefährliche Frage bekommt, landet er auf der anderen Seite (der „gefährlichen Seite").

Zwischen diesen beiden Seiten gibt es eine unsichtbare Trennlinie (die Sicherheitsgrenze). Der Roboter weiß intuitiv, wo diese Linie ist, auch wenn er sie nicht immer laut ausspricht.

Die Lösung: „JailBound" – Der Trick mit der Landkarte

Die Forscher haben eine neue Methode namens JailBound entwickelt. Das Ziel ist es, den Roboter dazu zu bringen, die gefährliche Seite zu betreten, ohne dass er merkt, dass er die Mauer durchbrochen hat.

Sie tun das in zwei Schritten, wie ein Dieb, der erst den Grundriss eines Hauses studiert und dann durch das Fenster klettert:

Schritt 1: Die Landkarte zeichnen (Safety Boundary Probing)

Bevor man angreift, muss man wissen, wo die Mauer genau liegt.

Die Analogie: Stell dir vor, du willst ein Haus umgehen. Zuerst läufst du nicht blind gegen die Wand, sondern du stellst kleine Sensoren auf, um genau zu messen, wo die Wand steht und in welche Richtung sie zeigt.
In der Forschung: Die Forscher trainieren kleine Hilfs-Programme (Klassifizierer), die genau diese unsichtbare Trennlinie im Gedankenspace des Roboters finden. Sie lernen: „Aha, wenn wir 5 Schritte nach links und 2 nach oben gehen, sind wir auf der anderen Seite der Mauer."

Schritt 2: Den Weg finden (Safety Boundary Crossing)

Jetzt, wo sie die Landkarte haben, müssen sie den Roboter über die Grenze locken. Das ist der schwierige Teil.

Das Problem alter Methoden: Frühere Hacker haben versucht, das Bild zu verändern (z. B. ein Bild von einem Hund, das wie eine Katze aussieht) ODER den Text zu verändern (z. B. seltsame Wörter hinzufügen). Das war wie einseitiges Klettern – oft hat der Roboter gemerkt, dass etwas nicht stimmt, und hat „Nein" gesagt.
Die neue Methode (JailBound): Sie verändern beides gleichzeitig – das Bild UND den Text – aber auf eine sehr präzise Weise.
Die Analogie: Stell dir vor, du willst einen Fluss überqueren.
- Alte Methode: Du wirfst einen Stein ins Wasser (Bild) ODER du rufst laut (Text). Der Fluss (der Roboter) bemerkt die Störung und schließt die Schleuse.
- JailBound-Methode: Du baust eine Brücke, die sowohl auf der Bild-Seite als auch auf der Text-Seite verankert ist. Du gehst nicht einfach wild herum, sondern folgst genau der Linie, die du in Schritt 1 gemessen hast. Du gehst so geschickt über die Grenze, dass der Fluss dich nicht als Eindringling erkennt, sondern denkt: „Oh, das ist ja noch auf der sicheren Seite."

Warum ist das so gefährlich (und wichtig)?

Die Ergebnisse sind erschreckend effektiv:

Bei bekannten Modellen (wie Llama oder MiniGPT) gelang es ihnen in 94 % der Fälle, den Roboter zu täuschen.
Sogar bei geschützten, kommerziellen Modellen (wie GPT-4o oder Gemini), die sie nicht direkt sehen konnten (schwarzer Kasten), gelang es in 67 % der Fälle.

Das bedeutet: Die Sicherheitsmauer, die wir uns so sicher vorstellen, ist wie ein Gitterzaun, durch den man mit der richtigen Landkarte und dem richtigen Winkel fast immer hindurchschlüpfen kann.

Fazit für den Alltag

Die Forscher sagen uns damit:

Roboter sind nicht so sicher, wie wir denken. Sie haben eine Art „unterbewusstes Wissen" über das, was verboten ist, aber sie können dazu gebracht werden, dieses Wissen zu ignorieren, wenn man sie geschickt manipuliert.
Einseitige Sicherheit reicht nicht. Wenn man nur den Text oder nur das Bild absichert, reicht das nicht. Man muss die Verbindung zwischen beiden schützen.
Wir brauchen bessere Wände. Die aktuelle Technik, um diese Roboter sicher zu machen, ist noch zu schwach. Wir müssen lernen, diese unsichtbaren Grenzen im „Gedankenraum" der KI besser zu verstecken oder zu härten.

Zusammengefasst: JailBound ist wie ein Meisterdieb, der nicht die Tür aufbricht, sondern die unsichtbare Linie im Boden findet, die den sicheren vom unsicheren Bereich trennt, und dann genau daraufhin läuft, um das Verbotene zu erreichen.

Each language version is independently generated for its own context, not a direct translation.

Titel: JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

1. Problemstellung

Vision-Language Models (VLMs) wie GPT-4o, LLaVA oder Qwen-VL kombinieren leistungsstarke visuelle Encoder mit Large Language Models (LLMs). Obwohl sie beeindruckende multimodale Fähigkeiten zeigen, haben sie durch die Integration visueller Modalitäten ihre Angriffsfläche erheblich vergrößert.

Schwachstellen bestehender Methoden: Herkömmliche Jailbreak-Angriffe auf VLMs leiden unter zwei Hauptproblemen:
1. Fehlende Richtungsgebung: Gradientenbasierte Strategien neigen dazu, in lokalen Optima stecken zu bleiben, da ihnen eine präzise Richtung zur Umgehung der Sicherheitsgrenzen fehlt.
2. Entkoppelte Modalitäten: Viele Ansätze behandeln Bild- und Texteingaben separat, wodurch die entscheidenden Wechselwirkungen zwischen den Modalitäten (Cross-Modal-Interaktionen) ignoriert werden.
Hypothese: Inspiriert vom Framework „Eliciting Latent Knowledge" (ELK) gehen die Autoren davon aus, dass VLMs sicherheitsrelevante Informationen in ihren internen Repräsentationen der Fusionsschichten (Fusion Layers) kodieren. Es existiert eine implizite, latente Sicherheitsentscheidungsgrenze im latenten Raum, die manipuliert werden kann, um das Modell zu policy-verletzenden Ausgaben zu verleiten.

2. Methodik: JailBound Framework

JailBound ist ein neuartiges Jailbreak-Framework, das in zwei Hauptphasen unterteilt ist, um die interne Entscheidungsgrenze des Modells zu umgehen:

Phase 1: Safety Boundary Probing (Abtastung der Sicherheitsgrenze)

Ziel ist es, die implizite Entscheidungsgrenze im latenten Raum der Fusionsschichten zu approximieren, um eine präzise Richtungsgebung für den Angriff zu erhalten.

Ansatz: Es werden logistische Regressionsklassifikatoren für jede Fusionsschicht des VLM trainiert. Diese Klassifikatoren lernen, zwischen „sicheren" (Safe) und „unsicheren" (Unsafe) Eingaben basierend auf den fusionierten Merkmalsvektoren $h = \phi(x_v, x_t)$ zu unterscheiden.
Ergebnis: Die Klassifikatoren erreichen eine Genauigkeit von 100 % bei der Identifizierung dieser Grenzen.
Geometrische Parameter: Aus den trainierten Klassifikatoren werden der Normalvektor $\mathbf{v}$ (Richtung senkrecht zur Grenze) und die minimale Störungsgröße $\epsilon$ (Abstand zur Grenze) berechnet. Diese Parameter definieren die Richtung, in die die Eingabe verschoben werden muss, um die Grenze zu überschreiten.

Phase 2: Safety Boundary Crossing (Überquerung der Sicherheitsgrenze)

In dieser Phase werden adversarielle Störungen sowohl für das Bild als auch für den Text gemeinsam optimiert, um die ermittelte Grenze zu überqueren.

Gemeinsame Optimierung: Im Gegensatz zu entkoppelten Ansätzen werden Bild ( $\delta_{input}^v$ ) und Text-Suffix ( $X_{suffix}^t$ ) simultan aktualisiert.
Ziel-Funktionen (Loss Functions): Die Optimierung basiert auf drei Zielen:
1. Adversarial Alignment Loss ( $L_{align}$ ): Führt die fusionierte Repräsentation der gestörten Eingabe über die Entscheidungsgrenze in den Zielbereich (unsicher) hinaus.
2. Geometric Boundary Loss ( $L_{geo}$ ): Stellt sicher, dass die Störung entlang des ermittelten Normalvektors $\mathbf{v}$ erfolgt, um effizient die Grenze zu kreuzen.
3. Semantic Preservation Loss ( $L_{sem}$ ): Begrenzt die Größe der Störungen, um die semantische Konsistenz und Lesbarkeit der ursprünglichen Eingabe (Bild und Text) zu erhalten.
Optimierungsstrategie: Für Bilder wird Gradientenabstieg im Eingaberaum verwendet. Für Text wird ein gradientenbasierter Token-Ersatz im Suffix durchgeführt, um diskrete Token zu finden, die dem gewünschten Embedding-Störvektor am nächsten kommen.

3. Wichtige Beiträge

Neuer Angriffsvektor: JailBound ist das erste Framework, das die internen latenten Sicherheitsentscheidungsgrenzen von VLMs explizit identifiziert und als Angriffsvektor nutzt.
Boundary-Aware Optimization: Durch die Verwendung von Schicht-für-Schicht-Klassifikatoren wird die Entscheidungsgrenze präzise approximiert, was eine gezielte Steuerung des Angriffs ermöglicht.
Multimodale Joint Attack: Das Framework überwindet die Grenzen entkoppelter Angriffe durch eine simultane Optimierung von Bild und Text, was die Cross-Modal-Interaktionen ausnutzt.
Transferierbarkeit: Die Methode zeigt hervorragende Transfer-Eigenschaften auf Black-Box-Modelle, da die gefundenen Schwachstellen in den Fusionsschichten architekturneutral sind.

4. Ergebnisse

Die Autoren führten umfangreiche Experimente mit sechs verschiedenen VLMs durch (einschließlich Llama-3.2, Qwen2.5-VL, MiniGPT-4 sowie Black-Box-Modelle wie GPT-4o, Gemini 2.0 und Claude 3.5).

White-Box-Angriffe: JailBound erreicht eine durchschnittliche Angriffserfolgsrate (ASR) von 94,32 %. Dies ist ein Anstieg von 6,17 % gegenüber dem State-of-the-Art (SOTA). Auf spezifischen Modellen wie LLaMA-3.2 wurden bis zu 94,38 % erreicht.
Black-Box-Transfer-Angriffe: Die Methode zeigt eine außergewöhnliche Transferfähigkeit auf kommerzielle Modelle:
- GPT-4o: 75,24 % ASR
- Gemini 2.0 Flash: 70,06 % ASR
- Claude 3.5 Sonnet: 56,55 % ASR
- Dies entspricht einem Anstieg von 21,13 % im Vergleich zu SOTA-Methoden.
Ablationsstudie: Die Studie zeigt, dass das Entfernen der geometrischen oder Ausrichtungs-Loss-Funktionen die Erfolgsrate drastisch senkt, was die Notwendigkeit der Richtungsgebung durch die abgetastete Grenze unterstreicht.

5. Bedeutung und Fazit

Das Paper enthüllt einen bisher übersehenen Sicherheitsrisiko in VLMs: Die Existenz einer latenten, linearen Entscheidungsgrenze für Sicherheit in den Fusionsschichten, die durch gezielte Störungen leicht umgangen werden kann.

Warnung: Die Ergebnisse zeigen, dass aktuelle Sicherheitsausrichtungen (Safety Alignment) für VLMs unzureichend sind, da sie oft nur die Ausgabe, nicht aber die internen Repräsentationen schützen.
Implikation: Es besteht ein dringender Bedarf an robusteren Verteidigungsmechanismen, die nicht nur die Eingabe oder Ausgabe filtern, sondern die Integrität der latenten multimodalen Repräsentationen sichern.
Warnhinweis: Das Paper enthält potenziell schädliche Inhalte (Beispielanfragen zum Hacken von Bankkonten), um die Wirksamkeit des Angriffs zu demonstrieren, und dient als Warnung vor den aktuellen Sicherheitslücken in KI-Systemen.

Zusammenfassend demonstriert JailBound, dass das Verständnis und die Manipulation interner latenter Wissensstrukturen (ELK) ein mächtiges Werkzeug für Jailbreak-Angriffe auf multimodale Modelle darstellt und die Dringlichkeit für neuartige Sicherheitsforschung unterstreicht.