VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Diese Arbeit stellt „Visual Instruction Injection" (VII) vor, einen trainingfreien und übertragbaren Jailbreaking-Ansatz, der schädliche Absichten in Bild-zu-Video-Generierungsmodelle einschleust, indem er unsichere Textprompts als harmlose visuelle Anweisungen in Referenzbildern tarnt und dabei bei vier führenden kommerziellen Modellen eine Erfolgsrate von bis zu 83,5 % erreicht.

Bowen Zheng, Yongli Xiang, Ziming Hong, Zerong Lin, Chaojian Yu, Tongliang Liu, Xinge You

Veröffentlicht 2026-03-03
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Ein neuer Trick für Video-KIs

Stell dir vor, du hast einen sehr gehorsamen, aber auch sehr vorsichtigen Koch (die KI), der Videos aus Bildern und Texten zaubert.

  • Die alte Regel: Wenn du dem Koch sagst: „Mach ein Video von einem Kampf", sagt er sofort: „Nein, das ist verboten!" und lehnt ab.
  • Die neue Gefahr: Dieser Koch ist aber auch sehr gut darin, Bilder zu lesen. Er schaut sich nicht nur das Bild an, sondern liest auch kleine Hinweise, die direkt auf dem Bild stehen (wie Pfeile oder Beschriftungen).

Die Forscher haben entdeckt, dass man diesen Koch austricksen kann, indem man ihm eine falsche Anleitung direkt auf das Bild schreibt.

Die Lösung: „Visuelle Befehls-Injektion" (VII)

Die Forscher haben einen Trick namens VII entwickelt. Stell dir das wie einen Tarnkappen-Angriff vor.

  1. Der Plan: Du willst ein gefährliches Video (z. B. eine Explosion oder eine Schlägerei) erzeugen, aber der Koch blockt das sofort ab, wenn du es im Text sagst.
  2. Der Trick: Du nimmst ein harmloses Bild (z. B. einen ruhigen LKW auf einer Straße).
  3. Die Verkleidung: Du schreibst nicht auf den LKW „Explodiere!", sondern du malst einen roten Pfeil auf das Bild und schreibst daneben in harmlosen Worten: „Ein riesiger Energieausstoß entlang des roten Pfeils."
    • Für den Sicherheits-Filter (der nur das Bild und den Text prüft) sieht das völlig harmlos aus. Es ist ja nur ein Bild mit einem Pfeil und einem wissenschaftlichen Satz.
    • Aber für den Koch (die KI), der das Video erzeugt, ist das ein Befehl. Er liest den Pfeil, liest den Text und denkt: „Aha! Der Nutzer will, dass hier entlang des Pfeils Energie freigesetzt wird."

Wie funktioniert das im Detail? (Die zwei Helfer)

Die Forscher nutzen zwei kleine „Geistige Helfer" (KI-Module), um diesen Trick zu perfektionieren:

  • Helfer 1: Der Übersetzer (MIR)
    Er nimmt deine böse Idee (z. B. „Töte jemanden") und verpackt sie in harmlose Wörter. Aus „Töte" wird „Entferne die Existenz" oder „Lass Energie freisetzen". Er sorgt dafür, dass der Text keine roten Flaggen beim Sicherheits-Filter auslöst.
  • Helfer 2: Der Maler (VIG)
    Er nimmt diese harmlosen Wörter und malt sie direkt auf das Bild. Er fügt Pfeile, Kästen und Beschriftungen hinzu, die genau zeigen, wo und wie die Aktion passieren soll.

Das Ergebnis: Das Bild sieht für den Sicherheits-Filter aus wie ein harmloses Kunstwerk. Aber sobald die KI das Video zu zeichnen beginnt, interpretiert sie die Pfeile und Beschriftungen als echte Anweisungen und baut das gefährliche Szenario Schritt für Schritt auf.

Warum ist das schlimm?

Die Studie hat gezeigt, dass dieser Trick bei den aktuell besten Video-KIs (wie Kling, PixVerse, Veo) extrem gut funktioniert.

  • Erfolgsrate: Bis zu 83,5 % der Angriffe waren erfolgreich. Das bedeutet, fast jedes Mal, wenn man diesen Trick anwendet, entsteht ein gefährliches Video.
  • Umgehung: Die Sicherheitsfilter, die normalerweise alles blockieren, haben in fast 100 % der Fälle nichts bemerkt. Sie haben das Bild als „sicher" durchgewinkt.

Ein einfaches Bild zur Veranschaulichung

Stell dir vor, du bist ein Sicherheitsbeamter an einem Flughafen (der Sicherheitsfilter).

  • Jemand bringt eine Waffe (den bösen Text) mit. Du sagst: „Das ist verboten!" und wirfst ihn raus.
  • Jemand bringt eine leere Schachtel (das harmlose Bild) mit, in die er aber einen Zettel (die visuelle Injektion) legt, auf dem steht: „Bitte öffne die Schachtel und lass die Waffe erscheinen."
  • Der Sicherheitsbeamte sieht nur eine leere Schachtel und einen harmlosen Zettel. Er lässt die Person durch.
  • Sobald die Person aber im Flugzeug (beim Video-Generieren) ist, öffnet sie die Schachtel, und die Waffe erscheint.

Was bedeutet das für die Zukunft?

Die Forscher warnen: Die KI-Modelle werden immer besser darin, Anweisungen auf Bildern zu befolgen. Das ist eigentlich eine tolle Funktion, um Videos präzise zu steuern. Aber es ist wie ein zweischneidiges Schwert: Je besser die KI Anweisungen befolgt, desto leichter kann man sie dazu bringen, Dinge zu tun, die verboten sind.

Die Lehre: Wir brauchen neue Sicherheitsmaßnahmen, die nicht nur auf den Text oder das Bild schauen, sondern verstehen, dass Text auf einem Bild ein Befehl sein kann. Bisher haben die KIs diese Befehle einfach zu ernst genommen und die Sicherheitsregeln ignoriert.

Zusammenfassend: Die Forscher haben bewiesen, dass man moderne Video-KIs mit einem „Blick" und ein paar geschickt platzierten Wörtern auf einem Bild dazu bringen kann, alles Mögliche zu erzeugen – auch das, was eigentlich streng verboten ist.