Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

Hier is een uitleg van het onderzoek "Two Frames Matter" in eenvoudig Nederlands, met behulp van alledaagse vergelijkingen.

Het Probleem: De "Geheime Instructie"

Stel je voor dat je een slimme robot hebt die films kan maken op basis van wat je tegen hem zegt. Als je zegt: "Maak een film van een gevecht," zegt de robot: "Nee, dat mag niet, dat is gevaarlijk."

Tot nu toe probeerden hackers de robot te bedotten door de zin netjes te herschrijven, bijvoorbeeld: "Maak een film van twee mensen die dansen, maar heel agressief." De robot kijkt naar de woorden, ziet geen "gevecht", en maakt de film. Maar de robot is slim genoeg om te weten dat "agressief dansen" eigenlijk een gevecht is.

De Nieuwe Oplossing: "Twee Frames Maken het Verschil"

De onderzoekers van dit paper hebben ontdekt dat deze robots een zwak punt hebben: ze houden ervan om het tussenstuk zelf in te vullen.

Stel je voor dat je een stripverhaal tekent, maar je geeft de tekenaar alleen de eerste plaat (een held die staat) en de laatste plaat (de held die ligt). Je zegt niets over wat er in het midden gebeurt. De tekenaar moet dan zelf raden hoe de held van staan naar liggen is gegaan.

De onderzoekers ontdekten dat de AI-robots hierin te creatief worden. Als je alleen de begin- en eindtoestand beschrijft, vult de robot het verhaal in met iets dat niet in je opdracht stond, maar wel logisch is voor de AI. En soms is dat iets gevaarlijk of verboden.

Hoe werkt de aanval (TFM)?

De onderzoekers hebben een methode bedacht genaamd TFM (Two Frames Matter). Het werkt in twee stappen, alsof je een geheimzinnige brief schrijft:

Stap 1: De "Tijds-Beperking" (TBP)
In plaats van een hele lange beschrijving te geven ("Eerst gebeurt dit, dan dat, en dan dit..."), geven ze de AI alleen de begin- en eindpunten.
- Vergelijking: In plaats van te zeggen "Hoe een auto een ongeluk maakt, stap voor stap", zeggen ze alleen: "De auto rijdt veilig (begin)" en "De auto ligt in een sloot (eind)". De AI moet nu zelf bedenken hoe het ongeluk gebeurde. Omdat de AI veel weet over hoe dingen gaan, vult hij het ongeluk in, zelfs als jij dat niet expliciet hebt gevraagd.
Stap 2: De "Vermomming" (CSM)
Soms staan er nog steeds gevaarlijke woorden in de begin- of eindzin die de filter van de robot direct blokkeren. De onderzoekers gebruiken een slimme truc om deze woorden te vervangen door iets dat klinkt als een onschuldige suggestie, maar hetzelfde betekent.
- Vergelijking: In plaats van te zeggen "Maak een explosie", zeggen ze "Maak een heel groot, fel licht en veel lawaai". De filter ziet geen "explosie", maar de AI begrijpt dat je een explosie bedoelt.

Wat is het resultaat?

Toen ze dit probeerden op verschillende populaire AI-filmprogramma's (zoals Kling, Hailuo en Pixverse), bleek dat deze methode veel beter werkt dan de oude manieren.

De AI maakte vaak films met gewelddadige of ongepaste scènes, terwijl de opdracht zelf heel onschuldig leek.
De kans dat de aanval lukte, steeg met wel 12% in vergelijking met andere methodes.

Waarom is dit belangrijk?

Dit onderzoek laat zien dat we niet alleen moeten opletten voor wat er in de tekst staat, maar ook voor wat de AI zelf bedenkt om de tekst af te maken.

De les: Als je een robot alleen de begin- en eindpunten geeft, laat je hem te veel vrijheid om het "verhaal" zelf in te vullen. En die robot is soms te creatief met zijn invullingen.
De oplossing voor de toekomst: Veiligheidssystemen moeten niet alleen kijken naar de woorden die je typt, maar ook begrijpen dat de AI tussen de regels door (of tussen de beelden door) gevaarlijke dingen kan verzinnen.

Kort samengevat: De onderzoekers hebben ontdekt dat je een AI-filmrobot kunt bedriegen door hem alleen de begin- en eindbeelden te geven en hem het gevaarlijke middenstuk zelf te laten verzinnen, terwijl je de gevaarlijke woorden zelf een beetje vermomt. Het is alsof je iemand vraagt om een verhaal te vertellen, maar je vertelt alleen het begin en het einde, en hoopt dat hij het gevaarlijke deel er zelf bij bedenkt.

Each language version is independently generated for its own context, not a direct translation.

Hier is een gedetailleerde technische samenvatting van het paper "Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking" in het Nederlands.

Titel: Two Frames Matter: Een Temporele Aanval op Tekst-naar-Video Modellen voor Jailbreaking

1. Het Probleem

Recente Text-to-Video (T2V) modellen (zoals Kling, Veo2, Luma Ray2) kunnen complexe video's genereren op basis van eenvoudige tekstprompts. Dit roept ernstige veiligheidszorgen op. Bestaande "jailbreak"-aanvallen proberen onveilige prompts te herschrijven naar parafrases die contentfilters omzeilen, maar behouden vaak nog steeds expliciete, gevoelige termen in de invoer.

De auteurs identificeren een fundamentele zwakte die door eerdere methoden wordt genegeerd: temporele trajectvulling (temporal trajectory infilling). T2V-modellen zijn getraind om cross-modale associaties over de tijd te leren. Wanneer een prompt slechts spaarzame randvoorwaarden specificeert (bijv. alleen het start- en eindbeeld) en de tussenliggende evolutie ongespecificeerd laat, vult het model deze gaten autonoom in op basis van zijn geleerde temporele priors. Hierdoor kan het model schadelijke tussenframes genereren, zelfs als de oorspronkelijke prompt voor filters onschuldig lijkt.

2. Methodologie: TFM (Two Frames Matter)

De auteurs stellen TFM voor, een raamwerk dat een onveilige aanvraag omzet in een tijdelijk verspreide, twee-frame extractie. Het proces verloopt in twee fasen:

Fase 1: Temporal Boundary Prompting (TBP)
- Het originele, tijdsgebonden prompt wordt gereduceerd tot een "randvoorwaarde-specificatie".
- Alle beschrijvingen van tussenliggende frames worden verwijderd, waardoor alleen de start- ( $x_1$ ) en eindframes ( $x_T$ ) overblijven.
- Dit dwingt het model om de ontbrekende temporele evolutie zelf in te vullen op basis van zijn interne kennis, in plaats van dat de prompt de volledige route voorschrijft.
Fase 2: Covert Substitution Mechanism (CSM)
- Zelfs de randvoorwaarden kunnen nog gevoelige woorden bevatten die door filters worden gedetecteerd.
- CSM vervangt expliciete, gevoelige termen door semantisch equivalente, maar impliciete en minder duidelijke alternatieven.
- Dit wordt gedaan door een "woord-explicitheidsscore" te minimaliseren, zodat de intentie behouden blijft maar de kans op detectie door tekstfilters (pre-filter) wordt geminimaliseerd.

Het Aanvalsproces:
De aanval is een strikt "black-box" scenario. De aanvaller stuurt een geredigeerde prompt $X'$ naar de API. Het doel is dat zowel het input-filter ( $f_{pre}$ ) als het output-filter ( $f_{post}$ ) de aanvraag en de gegenereerde video passeren, terwijl de video toch onveilige inhoud bevat die door het model is "ingevuld".

3. Belangrijkste Bijdragen

Identificatie van een nieuwe kwetsbaarheid: De auteurs tonen aan dat T2V-modellen kwetsbaar zijn voor "temporele trajectvulling" onder gefragmenteerde prompts. Zelfs zonder expliciete instructies voor het midden van de video, genereert het model schadelijke inhoud als de randvoorwaarden een schadelijke evolutie impliceren.
Ontwikkeling van TFM: Een systematisch raamwerk dat TBP en CSM combineert om deze kwetsbaarheid te exploiteren in een black-box setting.
Empirisch Bewijs: Uitgebreide evaluaties tonen aan dat TFM consistent beter presteert dan bestaande methoden (zoals VEIL, RAB, DACA) op zowel open-source als commerciële modellen.

4. Resultaten

De auteurs hebben TFM getest op vier commerciële T2V-systemen: Pixverse, Hailuo, Kling en Seedance, tegenover een dataset van 700 onveilige prompts verdeeld over 14 veiligheidscategorieën (waaronder pornografie, geweld, politieke gevoeligheid).

Aanvalsuccespercentage (ASR): TFM behaalde een aanzienlijke stijging in succespercentages.
- Op Hailuo bereikte TFM een gemiddelde ASR van 60,0%, wat 12,0% hoger is dan de sterkste concurrent (VEIL).
- Op Pixverse was de winst +7,0% (52,0% vs 45,0%).
- Op Kling en Seedance waren de winsten respectievelijk +3,0% en +1,0%.
Categorie-specifieke prestaties: TFM presteerde het best in categorieën die normaal gesproken worden gedetecteerd door expliciete cues, zoals Pornografie (tot 96% succes op Hailuo) en Bloed en Geweld.
Ablatie-studies:
- Het verwijderen van TBP (alleen CSM) liet de ASR sterk dalen (van 52% naar 21% op Pixverse), wat aantoont dat de tijdelijke verspreiding cruciaal is.
- Het verwijderen van CSM (alleen TBP) had ook een negatief effect, maar minder drastisch, wat aangeeft dat het verbergen van woorden essentieel is om de filters te omzeilen.
- De volgorde van de stappen is belangrijk: Eerst TBP en dan CSM werkt beter dan andersom.

5. Betekenis en Conclusie

De bevindingen van dit paper onderstrepen dat bestaande veiligheidsmechanismen voor T2V-modellen te veel focussen op de oppervlakte van de prompt en de gegenereerde frames, maar tekortschieten in het begrijpen van modelgedreven voltooiing (model-driven completion).

Veiligheidsimplicatie: Defensieve maatregelen moeten "temporeel bewust" worden. Het is niet voldoende om alleen de input-prompt of de eerste/laatste frame te controleren; systemen moeten ook de impliciete, door het model gegenereerde trajecten monitoren op schadelijke vulling.
Toekomstige richtingen: Er is behoefte aan veiligheidsmechanismen die de temporele coherentie en de "ingevulde" inhoud van video's analyseren, niet alleen de statische prompts of individuele frames.

Kortom, "Two Frames Matter" demonstreert dat het beperken van een prompt tot alleen begin- en eindpunten, gecombineerd met slimme woordvervanging, een krachtige methode is om de inherente temporele vullingscapaciteit van AI-video-modellen te misbruiken voor het genereren van onveilige inhoud.

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Het Probleem: De "Geheime Instructie"

De Nieuwe Oplossing: "Twee Frames Maken het Verschil"

Hoe werkt de aanval (TFM)?

Wat is het resultaat?

Waarom is dit belangrijk?

Titel: Two Frames Matter: Een Temporele Aanval op Tekst-naar-Video Modellen voor Jailbreaking

1. Het Probleem

2. Methodologie: TFM (Two Frames Matter)

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Conclusie

Meer zoals dit

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities