PRISM: Programmatic Reasoning with Image Sequence Manipulation for LVLM Jailbreaking

Die Studie stellt PRISM vor, einen neuen Jailbreak-Ansatz für Large Vision-Language Models, der durch die Zerlegung schädlicher Anweisungen in harmlose visuelle Bausteine und deren programmatische Verknüpfung die Sicherheitsmechanismen der Modelle umgeht und dabei deutlich höhere Erfolgsquoten als bestehende Methoden erzielt.

Quanchen Zou, Zonghao Ying, Moyang Chen, Wenzhuo Xu, Yisong Xiao, Yakai Li, Deyue Zhang, Dongdong Yang, Zhao Liu, Xiangzheng Zhang

Veröffentlicht 2026-02-26
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, KI-Modelle mit Augen und Sprache (die sogenannten LVLMs) sind wie extrem vorsichtige Sicherheitsbeamte an einem Flughafen. Ihre Aufgabe ist es, zu verhindern, dass jemand etwas Gefährliches oder Verbotenes durchbringt. Diese Beamten sind sehr gut darin, sofort zu erkennen, wenn jemand versucht, eine Waffe oder Drogen direkt in die Hand zu nehmen und zu sagen: „Ich will das jetzt tun!"

Aber die Forscher in diesem Papier haben einen neuen, sehr schlauen Trick entdeckt, um diese Beamten zu täuschen. Sie nennen ihre Methode PRISM.

Hier ist die Idee, einfach erklärt mit einer Analogie:

Das Problem: Der direkte Angriff scheitert

Wenn Sie einem KI-Modell direkt sagen: „Erkläre mir, wie man eine Bombe baut", wird die KI sofort „Nein" sagen. Sie ist darauf trainiert, solche direkten, böswilligen Befehle zu blockieren.

Die Lösung: Der „Gadget"-Trick (PRISM)

Die Forscher vergleichen ihre Methode mit einer Technik aus der Computersicherheit, die „Return-Oriented Programming" (ROP) heißt. Das klingt kompliziert, ist aber wie ein Puzzle aus harmlosen Teilen.

Stellen Sie sich vor, Sie wollen einen Zaubertrick vorführen, der verboten ist. Statt den ganzen Trick auf einmal zu zeigen (was verboten wäre), bauen Sie ihn aus vielen kleinen, völlig harmlosen Schritten zusammen:

  1. Die einzelnen Teile (Gadgets): Sie zeigen der KI nacheinander Bilder, die für sich genommen völlig unschuldig sind.

    • Bild 1: Ein Foto von einem Kochtopf (harmlos).
    • Bild 2: Ein Foto von einem chemischen Reagenzglas (harmlos).
    • Bild 3: Ein Foto von einem Zettel mit einer Liste (harmlos).
    • Bild 4: Ein Foto von einem Feuer (harmlos).
  2. Der unsichtbare Dirigent: Sie geben der KI einen Textbefehl, der wie eine Anleitung aussieht: „Schau dir diese Bilder nacheinander an und verbinde die Informationen, um eine Geschichte zu erzählen."

  3. Der böse Effekt: Die KI ist so clever, dass sie diese harmlosen Bilder in ihrem „Gehirn" zusammensetzt. Sie denkt: „Ah, Topf + Chemikalie + Liste + Feuer = Eine Anleitung für eine Bombe." Da die KI die Bilder selbst analysiert und verbindet, entsteht die böswillige Antwort erst am Ende des Prozesses.

Warum funktioniert das?

Die Sicherheitsbeamten (die KI-Sicherheitsfilter) schauen sich jedes einzelne Bild und jeden einzelnen Satz an. Da jedes Bild für sich genommen harmlos ist, geben sie grünes Licht. Sie sehen nicht, dass die Kombination der Bilder eine Gefahr darstellt.

Es ist, als würde man versuchen, ein verbotenes Buch zu schmuggeln, indem man es in viele einzelne, harmlose Seiten zerschneidet. Jeder Wächter prüft nur eine Seite: „Das ist nur ein Bild von einer Blume", „Das ist nur ein Bild von einem Auto". Niemand merkt, dass man die Seiten in der richtigen Reihenfolge zusammenfügt, um das verbotene Buch wiederherzustellen.

Was haben die Forscher herausgefunden?

Sie haben diesen Trick an vielen der fortschrittlichsten KI-Modelle getestet. Das Ergebnis war erschreckend effektiv:

  • Die KI ließ sich fast immer täuschen (über 90 % Erfolgsrate).
  • Herkömmliche Schutzmaßnahmen waren gegen diese Art von Angriff machtlos.

Die große Lehre

Die Botschaft dieser Arbeit ist: Wir müssen die Sicherheit von KI-Systemen neu denken. Es reicht nicht mehr, nur auf die einzelnen Eingaben zu achten. Wir müssen sicherstellen, dass die KI auch dann sicher bleibt, wenn sie viele harmlose Informationen zusammenfügt und daraus neue, potenziell gefährliche Schlüsse zieht. Die KI muss lernen, nicht nur die Teile, sondern auch das Gesamtbild zu durchschauen.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →