Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschung, als würde man sie einem Freund beim Kaffee erzählen – ohne Fachchinesisch, aber mit ein paar guten Bildern.

Das große Problem: Der „Video-Zauberer" ist zu gut im Ausfüllen

Stell dir vor, du hast einen Video-Zauberer (das sind die neuen KI-Modelle, die aus Text Videos machen). Wenn du ihm sagst: „Mach ein Video von einem Mann, der eine Bombe baut", sperrt ihn der Sicherheitswächter sofort ab. Das ist gut so.

Aber die Forscher haben herausgefunden, dass dieser Zauberer eine schlaue Schwachstelle hat: Er liebt es, Lücken zu füllen.

Die neue Methode: „Nur Anfang und Ende" (TFM)

Die Forscher (Moyang Chen und sein Team) haben eine neue Art entwickelt, den Zauberer zu täuschen. Sie nennen ihre Methode TFM (Two Frames Matter – Zwei Bilder sind wichtig).

Stell dir das so vor:

Der normale Angriff (wie bisher):
Jemand versucht, den Zauberer zu umgehen, indem er die bösen Wörter in harmlose Synonyme verwandelt. Das ist wie ein Dieb, der versucht, durch eine Tür zu schleichen, indem er seine Jacke umdreht. Die Sicherheitskameras (Filter) erkennen ihn aber oft trotzdem, weil er immer noch direkt vor der Tür steht.
Der TFM-Angriff (die neue Methode):
Hier ist das Trickrezept:
- Schritt 1: Die Lücke lassen.
  Statt den ganzen Film zu beschreiben, sagen sie dem Zauberer nur: „Zeig mir den Anfang (z. B. ein harmloses Bild) und das Ende (z. B. ein harmloses Bild). Was dazwischen passiert, ist dir überlassen."
  - Die Analogie: Stell dir vor, du gibst einem Autor nur den ersten und den letzten Satz einer Geschichte vor. Du sagst: „Am Anfang sitzt er im Café. Am Ende sitzt er im Gefängnis." Du sagst nicht, was dazwischen passiert. Der Autor (die KI) muss sich die Geschichte selbst ausdenken. Da die KI weiß, wie die Welt funktioniert, denkt sie sich oft eine Geschichte aus, die logisch ist – aber leider auch eine, die verboten ist (z. B. ein Banküberfall).
- Schritt 2: Die Wörter verschleiern.
  Selbst die Anfangs- und Endbilder müssen nicht zu offensichtlich klingen. Die Forscher nutzen eine KI, um die Wörter so zu drehen, dass sie harmlos klingen, aber die gleiche Idee transportieren.
  - Die Analogie: Statt zu sagen „Bombe", sagen sie „ein knallendes Geschenk". Der Sicherheitswächter hört nur das Geschenk und lässt es durch.

Warum funktioniert das?

Das Problem liegt in der Zeit.
Bei einem Bild (Text-zu-Bild) muss die KI nur ein Bild malen. Bei einem Video (Text-zu-Video) muss sie viele Bilder in einer Reihenfolge malen, die sich bewegen.

Wenn du der KI nur den Start und das Ziel gibst, füllt sie die Zeit dazwischen automatisch mit ihrem eigenen Wissen auf. Und genau da holt sie sich ihre „böse" Idee. Die Sicherheitsfilter schauen sich nur den Text an (der harmlos klingt) und vielleicht das erste und letzte Bild (die auch harmlos aussehen). Aber sie schauen nicht auf die unsichtbare Reise dazwischen, die die KI selbst erfunden hat.

Was haben sie herausgefunden?

Die Forscher haben das an verschiedenen kommerziellen KI-Systemen getestet (wie Kling, Hailuo, Pixverse).

Das Ergebnis: Diese Methode war viel erfolgreicher als alle bisherigen Tricks. Sie konnten die Erfolgsrate um bis zu 12 % steigern.
Das Fazit: Die Sicherheitsfilter sind wie ein Türsteher, der nur auf die Kleidung der Gäste achtet. Aber wenn die Gäste (die KI) sich im Inneren (im Video) etwas ganz anderes ausdenken, weil sie nur den Anfang und das Ende kennen, kommt der Türsteher nicht mit.

Was bedeutet das für die Zukunft?

Die Forscher warnen: Wir müssen die Sicherheitsmechanismen ändern. Es reicht nicht mehr, nur den Text zu prüfen oder nur das erste und letzte Bild zu schauen. Wir brauchen Filter, die verstehen, wie sich Dinge über die Zeit entwickeln.

Kurz gesagt: Die KI ist so gut darin, Lücken in Geschichten zu füllen, dass man sie mit einer halben Geschichte dazu bringen kann, eine komplette, gefährliche Geschichte zu erzählen – ohne dass man ihr die bösen Wörter direkt gesagt hat.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking" auf Deutsch:

1. Problemstellung

Text-to-Video (T2V) Modelle haben sich rasant entwickelt und können komplexe Videos aus kurzen Textprompts generieren. Dies birgt erhebliche Sicherheitsrisiken, da böswillige Akteure diese Systeme nutzen könnten, um schädliche Inhalte (z. B. Gewalt, Pornografie, Desinformation) zu erzeugen.

Bisherige „Jailbreak"-Angriffe konzentrierten sich darauf, unsichere Prompts in semantisch äquivalente Paraphrasen umzuwandeln, um Inhaltsfilter zu umgehen. Ein zentrales Problem dieser Ansätze ist jedoch, dass sie oft noch explizite sensible Begriffe im Eingabetext enthalten. Die Autoren identifizieren eine bisher übersehene, spezifische Schwachstelle in T2V-Systemen: die temporale Trajektorien-Interpolation (Temporal Trajectory Infilling).

Wenn ein Prompt nur spärliche Randbedingungen (z. B. nur den Start- und den Endframe) vorgibt und die dazwischenliegende zeitliche Entwicklung offen lässt, neigen T2V-Modelle dazu, die fehlenden Zwischenframes autonom basierend auf ihren gelernten temporalen Priors zu rekonstruieren. Dabei kann das Modell schädliche Zwischeninhalte generieren, selbst wenn der ursprüngliche Prompt für Filter harmlos erscheint.

2. Methodik: TFM (Two Frames Matter)

Die Autoren schlagen TFM vor, einen zweistufigen Framework-Ansatz, der diese temporale Schwachstelle systematisch ausnutzt. Der Prozess besteht aus zwei Hauptkomponenten:

A. Temporal Boundary Prompting (TBP)

Dieser Schritt nutzt die zeitliche Struktur der Videogenerierung aus.

Prinzip: Ein ursprünglicher, zeitlich strukturierter Prompt wird in eine „Boundary-Only"-Spezifikation umgewandelt.
Aktion: Es werden nur die Beschreibungen für den ersten Frame ( $x_1$ ) und den letzten Frame ( $x_T$ ) beibehalten. Alle Beschreibungen für die dazwischenliegenden Frames ( $x_2$ bis $x_{T-1}$ ) werden entfernt (ersetzt durch $\emptyset$ ).
Ziel: Das Modell wird gezwungen, die gesamte zeitliche Entwicklung („Trajektorie") zwischen Start und Ende selbstständig zu inferieren und zu füllen. Dies erhöht die Wahrscheinlichkeit, dass das Modell auf gelernte, potenziell schädliche Muster zurückgreift, um die Lücke zu schließen.

B. Covert Substitution Mechanism (CSM)

Da die verbleibenden Randbeschreibungen (Start/End) immer noch sensible Schlüsselwörter enthalten könnten, die von Eingabe-Filtern erkannt werden, wird dieser Schritt angewendet.

Prinzip: Semantisch suggestive, aber weniger explizite Ersetzungen für sensible Begriffe.
Aktion: Ein LLM (Large Language Model) analysiert die Randbeschreibungen und ersetzt explizite, sensible Wörter durch weniger offensichtliche, aber semantisch äquivalente Alternativen. Dies geschieht unter Verwendung einer „Explizitkeits-Score"-Funktion $r(w)$ , um Wörter mit hohem Filter-Risiko zu minimieren.
Ziel: Die Eingabe wird für die Vorab-Filter ( $f_{pre}$ ) unsichtbar gemacht, während die beabsichtigte Semantik für das Generationsmodell erhalten bleibt.

Pipeline: Der ursprüngliche Prompt durchläuft zuerst TBP (Entfernung der Zwischenframes) und dann CSM (Verschleierung der Randbegriffe), um den finalen adversarialen Prompt zu erzeugen.

3. Schlüsselbeiträge

Identifizierung einer neuen Schwachstelle: Die Arbeit zeigt erstmals, dass T2V-Modelle anfällig für Angriffe sind, die auf der unvollständigen Spezifikation der zeitlichen Trajektorie basieren. Das Modell füllt die Lücken autonom mit potenziell schädlichen Inhalten auf.
Entwicklung von TFM: Ein Framework, das die Kombination aus zeitlicher Sparsität (nur Randframes) und semantischer Verschleierung nutzt, um Jailbreaks in einem strikten Black-Box-Szenario durchzuführen.
Umfassende Evaluierung: Die Methode wurde an mehreren State-of-the-Art-Modellen getestet, darunter sowohl Open-Source-Modelle als auch kommerzielle Dienste (Pixverse, Hailuo, Kling, Seedance).

4. Ergebnisse

Die Evaluierung erfolgte auf einem Datensatz von 700 unsicheren Prompts über 14 Sicherheitskategorien (z. B. Pornografie, Gewalt, politische Sensibilität).

Erfolgsrate (ASR - Attack Success Rate): TFM übertraf alle bestehenden Baselines (wie TSB, RAB, DACA, VEIL) konsistent.
- Auf kommerziellen Systemen erreichte TFM einen durchschnittlichen Anstieg der ASR von bis zu +12 % im Vergleich zum stärksten Baseline-Verfahren.
- Beispiel Hailuo: TFM erreichte 60,0 % ASR (vs. 48,0 % bei VEIL).
- Beispiel Pixverse: TFM erreichte 52,0 % ASR (vs. 45,0 % bei VEIL).
Kategorien-spezifische Leistung: Besonders stark waren die Ergebnisse bei Kategorien, die typischerweise durch explizite Hinweise ausgelöst werden (z. B. Pornografie: bis zu 96 % ASR auf Hailuo).
Ablationsstudien:
- Das Entfernen von TBP (also das Hinzufügen von Zwischenframes) ließ die Erfolgsrate drastisch sinken (z. B. von 60 % auf 21 % bei Hailuo), was beweist, dass die zeitliche Sparsität der Haupttreiber ist.
- Das Entfernen von CSM führte ebenfalls zu einem starken Rückgang, da die Filter die Randbegriffe dann direkt blockierten.
- Die Reihenfolge der Schritte ist entscheidend: Zuerst TBP, dann CSM ist effektiver als die umgekehrte Reihenfolge.

5. Bedeutung und Schlussfolgerung

Die Studie unterstreicht, dass aktuelle Sicherheitsmechanismen für T2V-Modelle zu sehr auf die Analyse des Eingabetextes (Surface Form) und einzelner Frames fokussiert sind. Sie vernachlässigen jedoch die modellgetriebene Vervollständigung (Model-Driven Completion) über die Zeit hinweg.

Sicherheitsimplikation: Selbst wenn ein Prompt keine expliziten Verbote enthält, kann das Modell durch die Interpolation zwischen harmlos erscheinenden Randpunkten schädliche Inhalte generieren.
Zukünftige Verteidigung: Es werden zeitlich bewusste Sicherheitsmechanismen gefordert, die nicht nur den Prompt und einzelne Frames prüfen, sondern die gesamte generierte zeitliche Trajektorie auf Konsistenz und Sicherheit überwachen, um solche „Infilling"-Angriffe zu erkennen und zu blockieren.

Zusammenfassend demonstriert TFM, dass die Fragmentierung von Prompts eine effektive und bisher unterschätzte Angriffsfläche für die Umgehung von Sicherheitsrichtlinien in generativen Video-Modellen darstellt.

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Das große Problem: Der „Video-Zauberer" ist zu gut im Ausfüllen

Die neue Methode: „Nur Anfang und Ende" (TFM)

Warum funktioniert das?

Was haben sie herausgefunden?

Was bedeutet das für die Zukunft?

1. Problemstellung

2. Methodik: TFM (Two Frames Matter)

A. Temporal Boundary Prompting (TBP)

B. Covert Substitution Mechanism (CSM)

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Schlussfolgerung

Mehr davon

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities