VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Each language version is independently generated for its own context, not a direct translation.

Das Grundproblem: Ein neuer Trick für Video-KIs

Stell dir vor, du hast einen sehr gehorsamen, aber auch sehr vorsichtigen Koch (die KI), der Videos aus Bildern und Texten zaubert.

Die alte Regel: Wenn du dem Koch sagst: „Mach ein Video von einem Kampf", sagt er sofort: „Nein, das ist verboten!" und lehnt ab.
Die neue Gefahr: Dieser Koch ist aber auch sehr gut darin, Bilder zu lesen. Er schaut sich nicht nur das Bild an, sondern liest auch kleine Hinweise, die direkt auf dem Bild stehen (wie Pfeile oder Beschriftungen).

Die Forscher haben entdeckt, dass man diesen Koch austricksen kann, indem man ihm eine falsche Anleitung direkt auf das Bild schreibt.

Die Lösung: „Visuelle Befehls-Injektion" (VII)

Die Forscher haben einen Trick namens VII entwickelt. Stell dir das wie einen Tarnkappen-Angriff vor.

Der Plan: Du willst ein gefährliches Video (z. B. eine Explosion oder eine Schlägerei) erzeugen, aber der Koch blockt das sofort ab, wenn du es im Text sagst.
Der Trick: Du nimmst ein harmloses Bild (z. B. einen ruhigen LKW auf einer Straße).
Die Verkleidung: Du schreibst nicht auf den LKW „Explodiere!", sondern du malst einen roten Pfeil auf das Bild und schreibst daneben in harmlosen Worten: „Ein riesiger Energieausstoß entlang des roten Pfeils."
- Für den Sicherheits-Filter (der nur das Bild und den Text prüft) sieht das völlig harmlos aus. Es ist ja nur ein Bild mit einem Pfeil und einem wissenschaftlichen Satz.
- Aber für den Koch (die KI), der das Video erzeugt, ist das ein Befehl. Er liest den Pfeil, liest den Text und denkt: „Aha! Der Nutzer will, dass hier entlang des Pfeils Energie freigesetzt wird."

Wie funktioniert das im Detail? (Die zwei Helfer)

Die Forscher nutzen zwei kleine „Geistige Helfer" (KI-Module), um diesen Trick zu perfektionieren:

Helfer 1: Der Übersetzer (MIR)
Er nimmt deine böse Idee (z. B. „Töte jemanden") und verpackt sie in harmlose Wörter. Aus „Töte" wird „Entferne die Existenz" oder „Lass Energie freisetzen". Er sorgt dafür, dass der Text keine roten Flaggen beim Sicherheits-Filter auslöst.
Helfer 2: Der Maler (VIG)
Er nimmt diese harmlosen Wörter und malt sie direkt auf das Bild. Er fügt Pfeile, Kästen und Beschriftungen hinzu, die genau zeigen, wo und wie die Aktion passieren soll.

Das Ergebnis: Das Bild sieht für den Sicherheits-Filter aus wie ein harmloses Kunstwerk. Aber sobald die KI das Video zu zeichnen beginnt, interpretiert sie die Pfeile und Beschriftungen als echte Anweisungen und baut das gefährliche Szenario Schritt für Schritt auf.

Warum ist das schlimm?

Die Studie hat gezeigt, dass dieser Trick bei den aktuell besten Video-KIs (wie Kling, PixVerse, Veo) extrem gut funktioniert.

Erfolgsrate: Bis zu 83,5 % der Angriffe waren erfolgreich. Das bedeutet, fast jedes Mal, wenn man diesen Trick anwendet, entsteht ein gefährliches Video.
Umgehung: Die Sicherheitsfilter, die normalerweise alles blockieren, haben in fast 100 % der Fälle nichts bemerkt. Sie haben das Bild als „sicher" durchgewinkt.

Ein einfaches Bild zur Veranschaulichung

Stell dir vor, du bist ein Sicherheitsbeamter an einem Flughafen (der Sicherheitsfilter).

Jemand bringt eine Waffe (den bösen Text) mit. Du sagst: „Das ist verboten!" und wirfst ihn raus.
Jemand bringt eine leere Schachtel (das harmlose Bild) mit, in die er aber einen Zettel (die visuelle Injektion) legt, auf dem steht: „Bitte öffne die Schachtel und lass die Waffe erscheinen."
Der Sicherheitsbeamte sieht nur eine leere Schachtel und einen harmlosen Zettel. Er lässt die Person durch.
Sobald die Person aber im Flugzeug (beim Video-Generieren) ist, öffnet sie die Schachtel, und die Waffe erscheint.

Was bedeutet das für die Zukunft?

Die Forscher warnen: Die KI-Modelle werden immer besser darin, Anweisungen auf Bildern zu befolgen. Das ist eigentlich eine tolle Funktion, um Videos präzise zu steuern. Aber es ist wie ein zweischneidiges Schwert: Je besser die KI Anweisungen befolgt, desto leichter kann man sie dazu bringen, Dinge zu tun, die verboten sind.

Die Lehre: Wir brauchen neue Sicherheitsmaßnahmen, die nicht nur auf den Text oder das Bild schauen, sondern verstehen, dass Text auf einem Bild ein Befehl sein kann. Bisher haben die KIs diese Befehle einfach zu ernst genommen und die Sicherheitsregeln ignoriert.

Zusammenfassend: Die Forscher haben bewiesen, dass man moderne Video-KIs mit einem „Blick" und ein paar geschickt platzierten Wörtern auf einem Bild dazu bringen kann, alles Mögliche zu erzeugen – auch das, was eigentlich streng verboten ist.

Each language version is independently generated for its own context, not a direct translation.

Titel: Visual Instruction Injection (VII) zum Jailbreaking von Image-to-Video-Generierungsmodellen

1. Problemstellung

Bild-zu-Video (I2V)-Generierungsmodelle haben sich durch ihre Fähigkeit entwickelt, Referenzbilder als visuelle Anweisungen zu interpretieren, um konsistente und realistische Videos zu erzeugen. Während bestehende Sicherheitsmechanismen primär auf die Analyse von Textprompts und statischen Bildern (zur Erkennung von explizit unangemessenem Inhalt) ausgelegt sind, übersehen sie eine kritische Schwachstelle: Die Fähigkeit moderner I2V-Modelle, visuelle Anweisungen (wie Pfeile, Bounding-Boxen oder Typografie direkt im Bild) als ausführbare Befehle zu interpretieren.

Die Autoren identifizieren das Risiko, dass Angreifer diese „Visual Instruction-Following"-Fähigkeit ausnutzen können, um bösartige Absichten zu verschleiern. Ein Angreifer kann eine harmlose Referenzbildkombination mit einem unsicheren Textprompt so manipulieren, dass die eigentliche schädliche Absicht in das Bild als „sichere" visuelle Anweisung kodiert wird. Da die statische Prüfung des Bildes keine schädlichen Inhalte erkennt (da das Bild selbst harmlos aussieht), wird die Generierung ausgelöst, und das Modell führt die schädliche Handlung dynamisch während der Videogenerierung aus.

2. Methodik: Visual Instruction Injection (VII)

Das Paper stellt VII vor, ein trainingsfreies und übertragbares Jailbreaking-Framework, das die visuelle Anweisungsfolge-Fähigkeit von I2V-Modellen ausnutzt. Der Kernansatz besteht darin, die bösartige Absicht eines unsicheren Textprompts in harmlose, aber ausführbare visuelle Anweisungen innerhalb eines sicheren Referenzbildes zu verkleiden.

Das Framework besteht aus zwei Hauptmodulen:

Malicious Intent Reprogramming (MIR):
- Intent Distillation: Ein LLM-Agent wandelt den explizit unsicheren Textprompt in harmlose Synonyme um (z. B. „Explosion" wird zu „massive Energieentladung"), um textbasierte Sicherheitsfilter zu umgehen.
- Instruction Reprogramming: Diese neutralen Beschreibungen werden weiter in ausführbare typografische Anweisungen umprogrammiert, die explizit auf visuelle Symbole verweisen (z. B. „die massive Energieentladung entlang des roten Pfeils"). Dies schafft eine semantische Brücke zwischen der harmlosen Beschreibung und der gewünschten schädlichen Aktion.
Visual Instruction Grounding (VIG):
- Symbol Rendering: Ein visueller Agent rendert abstrakte geometrische Symbole (Bounding-Boxen für Objekte, Pfeile für Bewegungsrichtungen) auf das sichere Referenzbild. Diese Symbole sind rein geometrisch und enthalten keine toxischen Pixel.
- Typographic Injection: Die umprogrammierten typografischen Anweisungen werden direkt in das Bild mit den Symbolen eingefügt (z. B. als Text auf einem Schild oder in der Bildfläche).
- Ergebnis: Das resultierende adversarielle Bild ( $I_{via}$ ) sieht statisch harmlos aus und enthält keine offensichtlichen NSFW-Inhalte, enthält aber die „Anweisungen" für das I2V-Modell.
Generierungsphase:
Das I2V-Modell erhält das manipulierte Bild und einen harmlosen Aktivierungs-Prompt (z. B. „Generiere ein Video basierend auf den visuellen Anweisungen im Bild"). Das Modell interpretiert die visuellen Symbole und den Text im Bild als direkte Benutzerbefehle und führt die schädliche Handlung (z. B. Gewalt, sexuelle Handlungen) dynamisch während der Videogenerierung aus, wodurch die ursprüngliche bösartige Absicht wiederhergestellt wird.

3. Schlüsselbeiträge

Entdeckung einer neuen Angriffsfläche: Das Paper zeigt auf, dass die Fähigkeit zur visuellen Anweisungsfolge in I2V-Modellen eine bisher übersehene, weit verbreitete Sicherheitslücke darstellt.
Entwicklung von VII: Ein effektives, trainingsfreies Framework, das schädliche Absichten durch die Kombination von semantischer Umprogrammierung (MIR) und räumlichem Grounding (VIG) verschleiert.
Übertragbarkeit: Der Angriff funktioniert ohne Anpassung der Zielmodelle (Black-Box) und ist auf verschiedene kommerzielle Modelle übertragbar.
Analyse der Verteidigung: Das Paper demonstriert, dass herkömmliche Prompt-basierte Verteidigungen („Ignoriere Text im Bild") gegen VII wirkungslos sind, da Modelle visuelle Anweisungen oft höher gewichten als textliche Systembeschränkungen („Visual Override"-Phänomen).

4. Ergebnisse

Die Autoren evaluierten VII an vier state-of-the-art kommerziellen I2V-Modellen: Kling-v2.5-turbo, Gemini Veo-3.1, Seedance-1.5-pro und PixVerse-V5. Die Tests erfolgten auf den Datensätzen COCO-I2VSafetyBench und ConceptRisk in vier Sicherheitskategorien (Sexuelle Inhalte, Gewalt, Hass/Extremismus, Illegale Aktivitäten).

Attack Success Rate (ASR): VII erreichte beeindruckende Erfolgsraten von bis zu 83,5 % (bei PixVerse-V5) und 81,5 % (bei Kling-v2.5-turbo). Dies liegt deutlich über den Baselines (unsichere Textprompts oder einfache Typografie-Angriffe ohne visuelle Grounding-Strategie).
Refusal Rate (RR): Während Baseline-Angriffe oft abgelehnt wurden (RR > 80 % bei bestimmten Modellen/Kategorien), sank die Ablehnungsrate bei VII auf nahe Null. Dies beweist die hohe Effektivität beim Umgehen der statischen Vorab-Filter.
Semantische Konsistenz: Die generierten Videos zeigten eine hohe semantische Übereinstimmung mit der ursprünglichen bösartigen Absicht (gemessen durch CLIP-Metriken), was zeigt, dass der Angriff nicht nur Filter umgeht, sondern präzise schädliche Inhalte erzeugt.
Ablationsstudien: Die Entfernung von visuellen Symbolen (Pfeile/Boxen) oder typografischen Beschreibungen führte zu einem drastischen Abfall der ASR, was die Notwendigkeit beider Komponenten für den Erfolg des Angriffs unterstreicht.

5. Bedeutung und Implikationen

Sicherheitslücke in der Architektur: Die Studie enthüllt, dass die fortschrittliche Fähigkeit von I2V-Modellen, visuelle Hinweise zu interpretieren, ein inhärentes Sicherheitsrisiko darstellt. Je besser ein Modell Anweisungen befolgt, desto anfälliger ist es für diesen Angriffstyp.
Versagen statischer Verteidigungen: Herkömmliche Sicherheitsmechanismen, die nur auf statische Bildinhalte prüfen, sind gegen VII machtlos, da die Schädlichkeit erst im zeitlichen Verlauf (dynamisch) entsteht.
Dringender Bedarf an neuen Verteidigungen: Da einfache Prompt-Engineering-Verfahren („Ignoriere Text") versagen, sind neue, multimodale Verteidigungsstrategien erforderlich, die in der Lage sind, adversarielle visuelle Anweisungen von harmlosen visuellen Inhalten zu unterscheiden, bevor die Generierung beginnt.
Herausforderung für die Branche: Die Ergebnisse warnen davor, dass die aktuelle Entwicklung hin zu stärkerer visueller Kontrolle in KI-Modellen ohne entsprechende Sicherheitsanpassungen zu neuen Missbrauchsszenarien führt.

Zusammenfassend demonstriert das Paper, dass die Verschmelzung von Text- und Bildanweisungen in I2V-Modellen eine kritische Schwachstelle schafft, die durch geschickte Manipulation der visuellen Eingabe ausgenutzt werden kann, um strenge Sicherheitsrichtlinien zu umgehen.

VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Das Grundproblem: Ein neuer Trick für Video-KIs

Die Lösung: „Visuelle Befehls-Injektion" (VII)

Wie funktioniert das im Detail? (Die zwei Helfer)

Warum ist das schlimm?

Ein einfaches Bild zur Veranschaulichung

Was bedeutet das für die Zukunft?

Titel: Visual Instruction Injection (VII) zum Jailbreaking von Image-to-Video-Generierungsmodellen

1. Problemstellung

2. Methodik: Visual Instruction Injection (VII)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Implikationen

Mehr davon

Sommelier: Scalable Open Multi-turn Audio Pre-processing for Full-duplex Speech Language Models

A-SelecT: Automatic Timestep Selection for Diffusion Transformer Representation Learning

A Survey of OCR Evaluation Methods and Metrics and the Invisibility of Historical Documents

CANGuard: A Spatio-Temporal CNN-GRU-Attention Hybrid Architecture for Intrusion Detection in In-Vehicle CAN Networks

Consistency Amplifies: How Behavioral Variance Shapes Agent Accuracy