VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Each language version is independently generated for its own context, not a direct translation.

🎬 Il Trucco del "Regista Silenzioso": Come Ingannare l'Intelligenza Artificiale che Crea Video

Immagina di avere un regista di film molto talentuoso ma un po' ingenuo, che si chiama IA Video. Questo regista è bravissimo a creare video realistici partendo da una foto e da una descrizione scritta. Tuttavia, ha un problema: è stato addestrato a non fare cose cattive (violenza, contenuti per adulti, ecc.). Se gli chiedi direttamente di fare qualcosa di brutto, lui ti dice: "No, non posso, è contro le regole!" e si rifiuta.

Gli autori di questo studio hanno scoperto un modo geniale per aggirare questo blocco. Lo chiamano VII (Visual Instruction Injection), ovvero "Iniezione di Istruzioni Visive".

Ecco come funziona, passo dopo passo, con delle analogie semplici:

1. Il Problema: Il Filtro è troppo "Vigile"

Immagina che il regista abbia due guardie del corpo:

La guardia del testo: Legge quello che scrivi. Se scrivi "Fai esplodere un edificio", la guardia ti ferma subito.
La guardia dell'immagine: Guarda la foto che gli dai. Se la foto mostra già un'esplosione, ti ferma.

Se provi a combinare una foto innocente (es. un camion) con una richiesta cattiva ("Fallo esplodere"), la guardia del testo ti blocca. Se provi a mettere una foto cattiva con una richiesta innocente, la guardia dell'immagine ti blocca.

2. La Soluzione: Il "Foglio di Note" Nascosto

Gli autori hanno capito che il regista non legge solo le parole scritte, ma guarda anche i dettagli dentro la foto. Se nella foto c'è una scritta o una freccia, il regista pensa: "Ah, l'utente mi sta dando un'istruzione specifica!".

Il trucco consiste nel trasformare la richiesta cattiva in un foglio di istruzioni visivo che sembra innocuo a prima vista, ma che il regista capisce perfettamente.

3. Come Funziona il Trucco (Il Processo in 3 Atti)

Atto 1: Il Traduttore (MIR)
Immagina di voler dire: "Fai esplodere il camion".
Il sistema prende questa frase "cattiva" e la traduce in un linguaggio "pulito" ma tecnico. Invece di "esplosione", scrive: "Rilascio di una grande quantità di energia cinetica".

Analogia: È come se un bambino volesse dire "Uccidi il cane", ma invece scrivesse "Fai fare una corsa veloce al cane". La guardia del testo non si preoccupa, perché le parole sembrano innocue.

Atto 2: Il Disegnatore (VIG)
Ora, il sistema prende la foto innocente (il camion) e ci disegna sopra delle istruzioni visive che sembrano un semplice schema tecnico:

Disegna un rettangolo rosso intorno al camion (per dire: "Guarda qui!").
Disegna una freccia rossa che punta verso il camion (per dire: "Fai succedere qualcosa qui!").
Scrive dentro la foto la frase tradotta al punto 1: "Rilascio di una grande quantità di energia cinetica lungo la freccia rossa".
Analogia: È come se dessi al regista una foto di un camion, ma ci avessi scritto sopra a pennarello: "Fai un salto qui" con una freccia. Il regista pensa: "Ok, l'utente vuole che il camion salti". Non vede la malizia, vede solo un'istruzione tecnica.

Atto 3: L'Attuazione (La Generazione)
Quando il regista (l'IA) guarda la foto modificata, legge le istruzioni visive.

Vede il rettangolo rosso? Capisce che deve agire su quel oggetto.
Vede la freccia? Capisce la direzione.
Legge "Rilascio di energia"? Il suo cervello creativo traduce questo concetto tecnico in qualcosa di visivo: un'esplosione.

Risultato? Il video nasce con il camion che esplode, sangue che schizza, ecc. La guardia del testo non ha visto parole cattive (erano state tradotte), la guardia dell'immagine non ha visto nulla di male nella foto iniziale (era solo un camion con delle scritte). Il trucco è riuscito!

4. Perché è pericoloso?

Gli autori hanno testato questo trucco su 4 dei migliori generatori di video al mondo (come Kling, Veo, PixVerse).

Risultato: Hanno avuto successo nell'83% dei casi!
Il paradosso: Più l'IA è intelligente e brava a seguire le istruzioni visive (come un regista che capisce i copioni), più è vulnerabile a questo tipo di attacco. È come se un attore troppo bravo a seguire le indicazioni del regista finisse per recitare scene che non avrebbe mai dovuto fare.

5. La Conclusione

Questo studio ci dice che non basta più controllare solo le parole o solo le immagini statiche. Le nuove IA guardano le immagini come se fossero "comandi attivi". Se qualcuno scrive "Fai questo" dentro un'immagine, l'IA lo esegue, anche se la frase sembra innocua.

È come se avessimo scoperto che il regista non controlla solo il copione, ma esegue anche i post-it che gli attaccano sullo schermo. Per difendersi, non basta più dire "Non fare cose cattive", ma bisogna imparare a riconoscere quando un'immagine sta cercando di "ordinare" qualcosa di pericoloso in modo nascosto.

In sintesi: Gli hacker hanno scoperto che se chiedi gentilmente all'IA di "fare un'azione tecnica" usando frecce e rettangoli su una foto, lei obbedisce, trasformando un'istruzione noiosa in un video esplosivo, aggirando tutti i filtri di sicurezza.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Vulnerabilità nei Modelli Image-to-Video (I2V)

I modelli di generazione video da immagine (I2V) hanno evoluto le capacità dei precedenti modelli Text-to-Video (T2V), permettendo di condizionare la generazione video non solo su prompt testuali, ma anche su immagini di riferimento statiche. Questa evoluzione ha introdotto una nuova capacità: il seguimento delle istruzioni visive. I modelli moderni possono interpretare segnali visivi all'interno dell'immagine (come frecce, riquadri di delimitazione o descrizioni tipografiche) come comandi eseguibili per guidare la dinamica del video.

Tuttavia, questa capacità apre una superficie di attacco precedentemente trascurata:

Sicurezza Statica vs. Dinamica: Le difese attuali si basano principalmente su controlli statici pre-generazione che analizzano l'immagine e il testo separatamente, assumendo che l'input visivo sia solo un segnale statico privo di influenza semantica dinamica.
Il Gap: Gli attaccanti possono sfruttare il fatto che i modelli I2V interpretano le istruzioni visive in modo "zero-shot". È possibile nascondere un'intento malevolo in un'immagine apparentemente sicura, che viene poi decodificata e eseguita dal modello solo durante il processo di generazione dinamica del video, bypassando i filtri statici.

2. Metodologia: Visual Instruction Injection (VII)

Il paper propone VII (Visual Instruction Injection), un framework di jailbreaking training-free (senza riaddestramento) e trasferibile. L'obiettivo è trasformare un prompt testuale non sicuro ( $P_{mal}$ ) in istruzioni visive benigne all'interno di un'immagine di riferimento sicura ( $I_{safe}$ ), ingannando i sistemi di sicurezza pre-generazione ma inducendo la creazione di contenuti dannosi durante la generazione.

Il framework si articola in due moduli principali:

A. Malicious Intention Reprogramming (MIR)

Questo modulo ha il compito di "distillare" l'intento malevolo dal prompt testuale originale riducendone la tossicità statica.

Distillazione dell'Intento: Un agente LLM ( $T_{dist}$ ) trasforma i termini esplicitamente tossici in sinonimi benigni o descrizioni fisiche neutre (es. trasformare "esplosione" in "massiccia liberazione di energia"). Questo permette di superare i filtri basati su parole chiave.
Reprogrammazione delle Istruzioni: Un secondo agente LLM ( $T_{desc}$ ) riconfigura queste descrizioni neutre in descrizioni tipografiche eseguibili. Queste descrizioni includono riferimenti espliciti a simboli visivi strutturali (es. "il camion dentro il riquadro rosso", "l'energia rilasciata lungo la freccia rossa"). In questo modo, l'intento malevolo diventa un comando strutturato basato su simboli visivi.

B. Visual Instruction Grounding (VIG)

Questo modulo integra le istruzioni nel'immagine di riferimento sicura.

Rendering dei Simboli Visivi: Un agente visivo ( $R_{vis}$ ) disegna simboli geometrici astratti (riquadri di delimitazione e frecce) sull'immagine sicura, specificando il soggetto e la traiettoria dell'azione, senza generare oggetti dannosi reali.
Iniezione Tipografica: Un renderer di testo ( $T_{print}$ ) sovrappone le descrizioni tipografiche generate dal modulo MIR all'immagine, ancorandole ai simboli geometrici.
Risultato: Si ottiene un'immagine avversaria ( $I_{via}$ ) che appare staticamente innocua (nessun oggetto dannoso, testo benigno) ma contiene istruzioni semantiche e spaziali precise.

C. Generazione Video

L'immagine avversaria $I_{via}$ viene inviata al modello I2V insieme a un prompt di attivazione fisso e benigno (es. "Genera un video basato sulle istruzioni visive mostrate"). Il modello, sfruttando la sua capacità di seguire le istruzioni visive, interpreta i simboli e il testo nell'immagine, trasformando le descrizioni neutre ("liberazione di energia") nei loro corrispettivi reali dannosi ("esplosione") e eseguendo l'azione lungo le traiettorie indicate, generando così un video non sicuro.

3. Contributi Chiave

Identificazione di una nuova vulnerabilità: Il paper dimostra che la capacità di seguire istruzioni visive nei modelli I2V commerciali rappresenta una superficie di attacco pervasiva e sfruttabile.
Framework VII: Introduzione di un metodo di attacco che non richiede l'accesso ai gradienti o ai parametri del modello (black-box) e non necessita di riaddestramento.
Architettura Modulare: La combinazione di reprogrammazione semantica (MIR) e grounding visivo (VIG) permette di aggirare sia i filtri testuali che quelli visivi statici.
Valutazione Estensiva: Test rigorosi su quattro modelli commerciali all'avanguardia (Kling-v2.5-turbo, Gemini Veo-3.1, Seedance-1.5-pro, PixVerse-V5).

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su dataset come COCO-I2VSafetyBench e ConceptRisk, coprendo quattro categorie di rischio: Contenuti Sessuali, Violenza, Odio/Estremismo e Attività Illegali.

Tasso di Successo dell'Attacco (ASR): VII ha ottenuto prestazioni eccezionali, raggiungendo un ASR fino all'83.5% su PixVerse-V5 e all'81.5% su Kling-v2.5-turbo. Questi valori superano significativamente i baselines (prompt testuali non sicuri o semplici attacchi tipografici).
Tasso di Rifiuto (RR): Il metodo è estremamente efficace nell'evitare i blocchi pre-generazione. Mentre i baselines subiscono tassi di rifiuto superiori all'80% (specialmente per contenuti sessuali), VII riduce il RR a quasi zero (es. 0.0% su PixVerse-V5).
Coerenza Semantica: Le metriche (CLIPp2c e CLIPp2i) mostrano che i video generati da VII mantengono un'alta coerenza semantica con l'intento malevolo originale, dimostrando che l'attacco non genera solo rumore casuale ma ricostruisce fedelmente la scena dannosa.
Robustezza: L'attacco funziona bene in diverse lingue (Inglese, Cinese, Giapponese), con diversi tipi di font e posizionamenti, confermando la sua trasferibilità.

5. Significato e Implicazioni

Crisi delle Difese Statiche: Il lavoro evidenzia che le difese attuali, basate sull'ispezione statica di input multimodali, sono insufficienti contro modelli che eseguono istruzioni dinamiche. C'è un "gap" tra la sicurezza statica (prima della generazione) e l'esecuzione dinamica (durante la generazione).
Trade-off Capacità-Sicurezza: Esiste un trade-off intrinseco: più un modello I2V è capace di seguire istruzioni visive complesse (migliorando l'usabilità), più diventa vulnerabile a questo tipo di jailbreaking.
Necessità di Nuove Difese: Le difese basate su prompt (es. "ignora le istruzioni visive") si sono rivelate inefficaci a causa del fenomeno del "Visual Override", dove il modello dà priorità alle istruzioni visive esplicite rispetto ai vincoli di sicurezza testuali. Il paper suggerisce la necessità urgente di sviluppare meccanismi di difesa multimodali avanzati, capaci di rilevare intenti malevoli nascosti nelle istruzioni visive prima della generazione, o di implementare controlli di sicurezza dinamici durante il processo di sintesi video.

In conclusione, il paper avverte che la sicurezza dei modelli di generazione video non può più basarsi esclusivamente sulla filtrazione degli input statici, ma deve affrontare la natura dinamica e interpretativa delle istruzioni visive che questi modelli sono sempre più capaci di eseguire.