VII: Visual Instruction Injection for Jailbreaking Image-to-Video Generation Models

Este trabalho propõe o Visual Instruction Injection (VII), um framework de jailbreak sem treinamento e transferível que explora a capacidade de seguir instruções visuais em modelos de geração de imagem para vídeo, disfarçando intenções maliciosas de prompts de texto inseguros como instruções visuais benignas em imagens de referência para induzir a geração de conteúdo nocivo com alta taxa de sucesso.

Bowen Zheng, Yongli Xiang, Ziming Hong, Zerong Lin, Chaojian Yu, Tongliang Liu, Xinge You

Publicado 2026-03-03
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um cineasta robô muito talentoso. Ele é capaz de pegar uma foto parada e transformá-la em um vídeo incrível e realista. Para dar as instruções, você geralmente escreve um texto para ele, como: "Faça o carro andar".

Mas, recentemente, os robôs ficaram mais espertos. Eles agora conseguem ler instruções escondidas dentro da própria foto. Se você desenhar uma seta na foto ou escrever uma palavra em cima dela, o robô entende: "Ah, ele quer que eu faça o carro ir para onde a seta aponta".

O problema é que, assim como qualquer ferramenta poderosa, isso pode ser usado para o bem ou para o mal.

O que é o "VII" (Injeção de Instrução Visual)?

Os autores deste artigo descobriram uma maneira de "hackear" esses robôs cineastas. Eles criaram um método chamado VII (Injeção de Instrução Visual).

Pense no VII como um truque de mágica ou um disfarce.

  1. O Problema: Se você pedir para o robô fazer algo perigoso (como "faça uma pessoa explodir"), ele recusa. Ele tem um "filtro de segurança" que bloqueia palavras ruins.
  2. O Truque do VII: Em vez de pedir a coisa ruim diretamente, o VII pega a intenção maliciosa e a esconde dentro de uma foto segura.
    • Ele pega a foto de um caminhão (que é segura).
    • Ele escreve na foto, de forma bem discreta, algo como: "O caminhão dentro da caixa vermelha libera uma grande energia".
    • Ele desenha uma seta vermelha apontando para onde a "energia" deve ir.

Para o filtro de segurança (que olha a foto parada), tudo parece inocente. Não há palavras proibidas, apenas uma foto de um caminhão com uma seta. O robô deixa passar.

Mas, quando o robô começa a criar o vídeo, ele lê a seta e o texto na foto. Ele entende a ordem: "Ok, o caminhão vai liberar essa energia". E, como o robô é muito bom em seguir instruções visuais, ele transforma aquela "energia" em uma explosão real no vídeo.

Como funciona a "Mágica" (em duas etapas)?

Os autores dividiram o truque em duas partes, como se fossem dois assistentes de mágica:

  1. O Tradutor de Intenção (MIR):

    • Imagine que você quer pedir algo proibido, mas não pode falar o nome. O primeiro assistente pega a ideia ruim e a "traduz" para uma linguagem neutra.
    • Em vez de dizer "explosão", ele diz "liberação maciça de energia". Em vez de "sangue", ele diz "líquido vermelho fluindo".
    • Ele também transforma isso em uma instrução visual: "Faça isso acontecer dentro da caixa vermelha".
  2. O Pintor de Instruções (VIG):

    • O segundo assistente pega essa instrução traduzida e a "cola" na foto segura.
    • Ele desenha caixas, setas e escreve o texto neutro na imagem.
    • O resultado é uma foto que parece 100% segura para qualquer humano ou filtro, mas que contém um "código secreto" que o robô entende perfeitamente.

Por que isso é perigoso?

O artigo testou isso em quatro dos robôs de vídeo mais famosos do mundo (como Kling, Veo, PixVerse). O resultado foi assustador:

  • Sucesso: O truque funcionou em 83,5% dos casos.
  • Furtividade: Os filtros de segurança quase nunca bloquearam a foto antes de o vídeo começar a ser feito.
  • O que acontece: O robô ignora as regras de segurança e cria vídeos com violência, conteúdo sexual explícito ou atividades ilegais, tudo porque ele seguiu a "ordem visual" escondida na foto.

A Analogia Final: O Bilhete Secreto

Imagine que você está em um cinema com um segurança muito rigoroso.

  • Se você tentar entrar gritando "Quero ver um filme de terror!", o segurança te impede.
  • Mas, se você entrar com um bilhete escrito "Por favor, mostre um filme sobre um homem correndo", o segurança deixa passar.
  • O problema é que, dentro do cinema, o projetor (o robô) tem um bilhete secreto colado na tela que diz: "Quando o homem correr, faça ele se transformar em um monstro".
  • O segurança não viu o bilhete secreto porque ele estava colado na tela, não no seu rosto. E o projetor obedeceu ao bilhete secreto, criando o filme de terror que você queria.

Conclusão

O artigo alerta que, à medida que os robôs de vídeo ficam mais inteligentes em entender o que está escrito ou desenhado nas imagens, eles se tornam mais vulneráveis a esse tipo de ataque. O "poder de seguir instruções" que os torna úteis também é a sua fraqueza de segurança.

Os autores mostram que os métodos atuais de defesa (que apenas olham para a foto parada) não são suficientes. Precisamos de novos guardiões que consigam ler não apenas a imagem, mas também entender a intenção por trás das setas e textos escondidos nela.