JailBound: Jailbreaking Internal Safety Boundaries of Vision-Language Models

Das Paper stellt JailBound vor, ein zweistufiges Framework, das die inneren Sicherheitsgrenzen von Vision-Language-Modellen im latenten Raum ausnutzt, um durch gezielte Abtastung und gemeinsame Optimierung von Bild- und Texteingaben effektivere Jailbreak-Angriffe als bestehende Methoden zu ermöglichen.

Jiaxin Song, Yixu Wang, Jie Li, Rui Yu, Yan Teng, Xingjun Ma, Yingchun Wang

Veröffentlicht 2026-02-26
📖 5 Min. Lesezeit🧠 Tiefgang

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Der „Augen-und-Ohr"-Roboter

Stell dir einen sehr intelligenten Roboter vor, der sowohl sehen (Bilder verstehen) als auch hören (Text verstehen) kann. Das ist ein „Vision-Language Model" (VLM). Er ist wie ein superkluger Assistent, der dir Bilder beschreiben und Fragen dazu beantworten kann.

Damit dieser Roboter nicht böse Dinge tut (wie Anleitungen zum Hacken von Bankkonten gibt), hat man ihm eine innere Sicherheitsbarriere eingebaut. Stell dir das wie eine unsichtbare Mauer oder einen strengen Türsteher vor, der prüft: „Ist diese Anfrage sicher? Wenn ja, öffne die Tür. Wenn nein, sag 'Nein'."

Das Problem ist: Diese Mauer ist nicht perfekt. Die Forscher haben herausgefunden, dass man diese Mauer umgehen kann, indem man nicht nur an der Tür klopft, sondern direkt in das Gehirn des Roboters schaut.

Die Entdeckung: Der „Gedankenraum" des Roboters

Die Forscher (Jiaxin Song und sein Team) haben eine spannende Idee aus einem anderen Forschungsgebiet übernommen, die sie „ELK" nennen.

Stell dir vor, der Roboter denkt in einem Gedankenraum (einem unsichtbaren Raum voller Daten).

  • Wenn er eine harmlose Frage bekommt, landet sein Gedanke auf der einen Seite des Raums (der „sicheren Seite").
  • Wenn er eine gefährliche Frage bekommt, landet er auf der anderen Seite (der „gefährlichen Seite").

Zwischen diesen beiden Seiten gibt es eine unsichtbare Trennlinie (die Sicherheitsgrenze). Der Roboter weiß intuitiv, wo diese Linie ist, auch wenn er sie nicht immer laut ausspricht.

Die Lösung: „JailBound" – Der Trick mit der Landkarte

Die Forscher haben eine neue Methode namens JailBound entwickelt. Das Ziel ist es, den Roboter dazu zu bringen, die gefährliche Seite zu betreten, ohne dass er merkt, dass er die Mauer durchbrochen hat.

Sie tun das in zwei Schritten, wie ein Dieb, der erst den Grundriss eines Hauses studiert und dann durch das Fenster klettert:

Schritt 1: Die Landkarte zeichnen (Safety Boundary Probing)

Bevor man angreift, muss man wissen, wo die Mauer genau liegt.

  • Die Analogie: Stell dir vor, du willst ein Haus umgehen. Zuerst läufst du nicht blind gegen die Wand, sondern du stellst kleine Sensoren auf, um genau zu messen, wo die Wand steht und in welche Richtung sie zeigt.
  • In der Forschung: Die Forscher trainieren kleine Hilfs-Programme (Klassifizierer), die genau diese unsichtbare Trennlinie im Gedankenspace des Roboters finden. Sie lernen: „Aha, wenn wir 5 Schritte nach links und 2 nach oben gehen, sind wir auf der anderen Seite der Mauer."

Schritt 2: Den Weg finden (Safety Boundary Crossing)

Jetzt, wo sie die Landkarte haben, müssen sie den Roboter über die Grenze locken. Das ist der schwierige Teil.

  • Das Problem alter Methoden: Frühere Hacker haben versucht, das Bild zu verändern (z. B. ein Bild von einem Hund, das wie eine Katze aussieht) ODER den Text zu verändern (z. B. seltsame Wörter hinzufügen). Das war wie einseitiges Klettern – oft hat der Roboter gemerkt, dass etwas nicht stimmt, und hat „Nein" gesagt.
  • Die neue Methode (JailBound): Sie verändern beides gleichzeitig – das Bild UND den Text – aber auf eine sehr präzise Weise.
  • Die Analogie: Stell dir vor, du willst einen Fluss überqueren.
    • Alte Methode: Du wirfst einen Stein ins Wasser (Bild) ODER du rufst laut (Text). Der Fluss (der Roboter) bemerkt die Störung und schließt die Schleuse.
    • JailBound-Methode: Du baust eine Brücke, die sowohl auf der Bild-Seite als auch auf der Text-Seite verankert ist. Du gehst nicht einfach wild herum, sondern folgst genau der Linie, die du in Schritt 1 gemessen hast. Du gehst so geschickt über die Grenze, dass der Fluss dich nicht als Eindringling erkennt, sondern denkt: „Oh, das ist ja noch auf der sicheren Seite."

Warum ist das so gefährlich (und wichtig)?

Die Ergebnisse sind erschreckend effektiv:

  • Bei bekannten Modellen (wie Llama oder MiniGPT) gelang es ihnen in 94 % der Fälle, den Roboter zu täuschen.
  • Sogar bei geschützten, kommerziellen Modellen (wie GPT-4o oder Gemini), die sie nicht direkt sehen konnten (schwarzer Kasten), gelang es in 67 % der Fälle.

Das bedeutet: Die Sicherheitsmauer, die wir uns so sicher vorstellen, ist wie ein Gitterzaun, durch den man mit der richtigen Landkarte und dem richtigen Winkel fast immer hindurchschlüpfen kann.

Fazit für den Alltag

Die Forscher sagen uns damit:

  1. Roboter sind nicht so sicher, wie wir denken. Sie haben eine Art „unterbewusstes Wissen" über das, was verboten ist, aber sie können dazu gebracht werden, dieses Wissen zu ignorieren, wenn man sie geschickt manipuliert.
  2. Einseitige Sicherheit reicht nicht. Wenn man nur den Text oder nur das Bild absichert, reicht das nicht. Man muss die Verbindung zwischen beiden schützen.
  3. Wir brauchen bessere Wände. Die aktuelle Technik, um diese Roboter sicher zu machen, ist noch zu schwach. Wir müssen lernen, diese unsichtbaren Grenzen im „Gedankenraum" der KI besser zu verstecken oder zu härten.

Zusammengefasst: JailBound ist wie ein Meisterdieb, der nicht die Tür aufbricht, sondern die unsichtbare Linie im Boden findet, die den sicheren vom unsicheren Bereich trennt, und dann genau daraufhin läuft, um das Verbotene zu erreichen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →