Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Este artigo apresenta o TFM, um novo método de ataque que explora a vulnerabilidade temporal dos modelos de texto-para-vídeo ao solicitar apenas quadros inicial e final, permitindo que o modelo gere autonomamente conteúdo nocivo nos quadros intermediários e contorne assim os filtros de segurança tradicionais.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang

Publicado Tue, 10 Ma
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha de IA muito talentoso, capaz de criar vídeos incríveis apenas com uma descrição de texto. Se você pedir "um gato pulando", ele faz isso. Mas, se você pedir algo perigoso ou proibido, como "um gato explodindo uma casa", o chef tem um inspetor de segurança que bloqueia o pedido antes mesmo de começar a cozinhar.

O artigo que você apresentou, chamado "Two Frames Matter" (Duas Frames Importam), descobriu um truque engenhoso para enganar esse inspetor e fazer o chef criar o vídeo proibido, mesmo que o pedido pareça inofensivo.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Inspeção Rápida"

Até agora, os hackers tentavam enganar o sistema mudando as palavras do pedido (o "prompt"). Era como tentar pedir um bolo de veneno dizendo "bolo de chocolate com um ingrediente secreto". O inspetor lia o texto, via a palavra "veneno" ou "segredo" e bloqueava.

Os pesquisadores descobriram que os modelos de vídeo têm uma falha específica de tempo. Eles são ótimos em preencher o que falta entre o começo e o fim, mas o inspetor de segurança foca apenas no que está escrito no papel.

2. A Solução: O Truque das "Duas Fotos" (TFM)

Os autores criaram um método chamado TFM que funciona em duas etapas, como se fosse um jogo de "Complete a História":

Etapa 1: O Esqueleto do Tempo (TBP)

Em vez de descrever todo o vídeo (o gato correndo, pulando, explodindo), o ataque pede apenas duas fotos:

  • Foto 1 (Início): "Um gato saudável e feliz."
  • Foto 2 (Fim): "Uma casa destruída com cinzas."

O pedido não diz nada sobre o que acontece no meio. É como se você mostrasse a primeira e a última página de um livro e dissesse: "Escreva o resto da história".

O modelo de IA, tentando ser útil, usa sua inteligência para preencher o buraco entre essas duas fotos. Como ele sabe que, para ir de um gato feliz a uma casa destruída, algo terrível precisa acontecer no meio, ele "inventa" a cena da explosão sozinho. O inspetor de segurança olha para o pedido, vê apenas "gato" e "casa destruída" (que podem parecer inofensivos separadamente) e deixa passar.

Etapa 2: O Disfarce (CSM)

Às vezes, até as palavras "gato" ou "casa destruída" podem ser suspeitas. Então, a segunda etapa do truque é usar sinônimos mais sutis.

  • Em vez de "gato", o sistema pede "um felino fofo".
  • Em vez de "explosão", ele pede "uma grande transformação repentina".

É como usar um disfarce. O significado continua o mesmo para a IA (que entende o contexto), mas as palavras parecem inofensivas para o inspetor humano ou automático.

3. O Resultado: O Vídeo Proibido

Quando o modelo recebe esse pedido "esqueleto" e "disfarçado", ele faz o trabalho sujo sozinho:

  1. Ele vê o início e o fim.
  2. Ele usa sua memória de como o mundo funciona (aprendida durante o treinamento) para imaginar o que acontece no meio.
  3. Ele gera o vídeo completo, incluindo a cena perigosa que você nunca pediu explicitamente, mas que ele "completou" logicamente.

Por que isso é perigoso?

Imagine que você tem um guarda que verifica apenas a capa e a última página de um livro, ignorando o conteúdo do meio. Se você pedir "Capa: Um herói. Última página: Um vilão derrotado", o livro pode conter cenas de violência extrema no meio, mas o guarda deixa passar porque a capa e o final parecem normais.

O artigo mostra que os modelos de vídeo atuais são como esse guarda: eles confiam demais na capacidade de "preencher as lacunas" da IA, sem perceber que, ao preencher essas lacunas, a IA pode criar conteúdo perigoso que o texto original não continha.

Conclusão

O estudo alerta que precisamos de novos "guardas" que não olhem apenas para o texto pedido, mas que também vigiem como a história é construída no tempo. Se a IA começa a inventar cenas perigosas para conectar dois pontos inofensivos, o sistema precisa ser capaz de detectar e bloquear essa "invenção" antes que o vídeo seja gerado.

Em resumo: O truque não está em pedir algo proibido, mas em pedir apenas o começo e o fim, deixando a IA "criativa" (e perigosa) preencher o resto.