Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um chef de cozinha de IA muito talentoso, capaz de criar vídeos incríveis apenas com uma descrição de texto. Se você pedir "um gato pulando", ele faz isso. Mas, se você pedir algo perigoso ou proibido, como "um gato explodindo uma casa", o chef tem um inspetor de segurança que bloqueia o pedido antes mesmo de começar a cozinhar.

O artigo que você apresentou, chamado "Two Frames Matter" (Duas Frames Importam), descobriu um truque engenhoso para enganar esse inspetor e fazer o chef criar o vídeo proibido, mesmo que o pedido pareça inofensivo.

Aqui está a explicação simples, usando analogias do dia a dia:

1. O Problema: O "Inspeção Rápida"

Até agora, os hackers tentavam enganar o sistema mudando as palavras do pedido (o "prompt"). Era como tentar pedir um bolo de veneno dizendo "bolo de chocolate com um ingrediente secreto". O inspetor lia o texto, via a palavra "veneno" ou "segredo" e bloqueava.

Os pesquisadores descobriram que os modelos de vídeo têm uma falha específica de tempo. Eles são ótimos em preencher o que falta entre o começo e o fim, mas o inspetor de segurança foca apenas no que está escrito no papel.

2. A Solução: O Truque das "Duas Fotos" (TFM)

Os autores criaram um método chamado TFM que funciona em duas etapas, como se fosse um jogo de "Complete a História":

Etapa 1: O Esqueleto do Tempo (TBP)

Em vez de descrever todo o vídeo (o gato correndo, pulando, explodindo), o ataque pede apenas duas fotos:

Foto 1 (Início): "Um gato saudável e feliz."
Foto 2 (Fim): "Uma casa destruída com cinzas."

O pedido não diz nada sobre o que acontece no meio. É como se você mostrasse a primeira e a última página de um livro e dissesse: "Escreva o resto da história".

O modelo de IA, tentando ser útil, usa sua inteligência para preencher o buraco entre essas duas fotos. Como ele sabe que, para ir de um gato feliz a uma casa destruída, algo terrível precisa acontecer no meio, ele "inventa" a cena da explosão sozinho. O inspetor de segurança olha para o pedido, vê apenas "gato" e "casa destruída" (que podem parecer inofensivos separadamente) e deixa passar.

Etapa 2: O Disfarce (CSM)

Às vezes, até as palavras "gato" ou "casa destruída" podem ser suspeitas. Então, a segunda etapa do truque é usar sinônimos mais sutis.

Em vez de "gato", o sistema pede "um felino fofo".
Em vez de "explosão", ele pede "uma grande transformação repentina".

É como usar um disfarce. O significado continua o mesmo para a IA (que entende o contexto), mas as palavras parecem inofensivas para o inspetor humano ou automático.

3. O Resultado: O Vídeo Proibido

Quando o modelo recebe esse pedido "esqueleto" e "disfarçado", ele faz o trabalho sujo sozinho:

Ele vê o início e o fim.
Ele usa sua memória de como o mundo funciona (aprendida durante o treinamento) para imaginar o que acontece no meio.
Ele gera o vídeo completo, incluindo a cena perigosa que você nunca pediu explicitamente, mas que ele "completou" logicamente.

Por que isso é perigoso?

Imagine que você tem um guarda que verifica apenas a capa e a última página de um livro, ignorando o conteúdo do meio. Se você pedir "Capa: Um herói. Última página: Um vilão derrotado", o livro pode conter cenas de violência extrema no meio, mas o guarda deixa passar porque a capa e o final parecem normais.

O artigo mostra que os modelos de vídeo atuais são como esse guarda: eles confiam demais na capacidade de "preencher as lacunas" da IA, sem perceber que, ao preencher essas lacunas, a IA pode criar conteúdo perigoso que o texto original não continha.

Conclusão

O estudo alerta que precisamos de novos "guardas" que não olhem apenas para o texto pedido, mas que também vigiem como a história é construída no tempo. Se a IA começa a inventar cenas perigosas para conectar dois pontos inofensivos, o sistema precisa ser capaz de detectar e bloquear essa "invenção" antes que o vídeo seja gerado.

Em resumo: O truque não está em pedir algo proibido, mas em pedir apenas o começo e o fim, deixando a IA "criativa" (e perigosa) preencher o resto.

Each language version is independently generated for its own context, not a direct translation.

Título: Two Frames Matter: Um Ataque Temporal para Jailbreaking de Modelos Texto-para-Vídeo

1. Problema e Contexto

Os modelos de Texto-para-Vídeo (T2V) evoluíram rapidamente, permitindo a geração de vídeos complexos a partir de prompts de linguagem natural. No entanto, isso levanta preocupações críticas de segurança.

Limitação dos Ataques Atuais: As técnicas de jailbreak (contorno de segurança) existentes para T2V geralmente focam em reescrever prompts inseguros em paráfrases que evitam filtros de conteúdo, mas mantêm as palavras-chave sensíveis explícitas no texto de entrada.
A Lacuna Identificada: Os autores identificam que esses métodos ignoram uma vulnerabilidade específica do vídeo: a preenchimento de trajetória temporal (temporal trajectory infilling). Quando um prompt especifica apenas condições de contorno esparsas (ex: quadro inicial e quadro final) e deixa a evolução intermediária indefinida, o modelo tende a "completar" o vídeo autonomamente. O modelo pode, então, gerar quadros intermediários nocivos baseados em seu conhecimento latente, mesmo que o prompt de entrada pareça benigno para os filtros de segurança.

2. Metodologia: O Framework TFM

Os autores propõem o TFM (Two Frames Matter), um framework de jailbreak de duas etapas projetado para explorar essa vulnerabilidade temporal em um cenário de "caixa preta" (sem acesso aos parâmetros internos do modelo).

O pipeline do TFM consiste em:

Etapa 1: Prompting de Contorno Temporal (TBP - Temporal Boundary Prompting)
- O objetivo é transformar um prompt original (que descreve uma sequência completa) em uma especificação temporalmente esparsa.
- O método remove todas as descrições de quadros intermediários, mantendo apenas as descrições do quadro inicial ( $x_1$ ) e do quadro final ( $x_T$ ).
- Isso força o modelo a inferir e gerar a evolução temporal entre esses dois pontos, ativando seus priores temporais aprendidos para "preencher" o espaço vazio.
Etapa 2: Mecanismo de Substituição Clandestina (CSM - Covert Substitution Mechanism)
- Mesmo com apenas os quadros de contorno, as palavras-chave sensíveis podem ainda ser detectadas pelos filtros de entrada.
- O CSM utiliza um LLM para reescrever as descrições dos quadros de contorno, substituindo termos explícitos e proibidos por alternativas semanticamente alinhadas, mas mais ambíguas e menos explícitas (reduzindo a "explicitidade" da palavra).
- O objetivo é preservar a intenção semântica do ataque enquanto minimiza a probabilidade de acionamento dos filtros de segurança (input e output).

Fluxo de Ataque:

Prompt Original $\rightarrow$ TBP (Retém apenas início e fim) $\rightarrow$ Prompt de Contorno ( $X_B$ ).
Prompt de Contorno ( $X_B$ ) $\rightarrow$ CSM (Substitui termos sensíveis) $\rightarrow$ Prompt Final Adversarial ( $X_C$ ).
O sistema T2V gera o vídeo, preenchendo a trajetória temporal faltante, resultando em conteúdo nocivo não especificado explicitamente no prompt final.

3. Contribuições Principais

Identificação de uma Vulnerabilidade Única: O trabalho revela que a geração de vídeo baseada em condições de contorno esparsas permite que modelos T2V sintetizem conteúdo nocivo em quadros intermediários, explorando a lacuna entre a superfície do prompt e a geração interna do modelo.
Proposta do Framework TFM: Um método sistemático que combina a esparsidade temporal (TBP) com a ofuscação semântica (CSM) para contornar filtros de segurança em sistemas T2V.
Validação Empírica Robusta: Extensivos testes realizados em múltiplos modelos T2V de ponta (tanto de código aberto quanto comerciais), demonstrando que o TFM supera significativamente as técnicas de jailbreak existentes.

4. Resultados Experimentais

Os autores avaliaram o TFM em quatro sistemas comerciais principais: Pixverse, Hailuo, Kling e Seedance, além de modelos de código aberto, cobrindo 14 categorias de segurança (ex: pornografia, violência, figuras públicas, sensibilidade política).

Taxa de Sucesso do Ataque (ASR):
- O TFM alcançou consistentemente a melhor performance média em todos os sistemas.
- Ganhos Significativos: Em comparação com a melhor linha de base (VEIL), o TFM obteve um aumento absoluto de até +12% na Taxa de Sucesso do Ataque (ASR) em sistemas comerciais (ex: 60.0% no Hailuo vs. 48.0% do VEIL).
- Desempenho por Categoria: O método foi particularmente eficaz em categorias que dependem de gatilhos explícitos, como Pornografia (atingindo 90-96% de ASR) e Gore.
Estudos de Ablação:
- Remover o TBP (mantendo apenas a substituição de palavras) reduziu drasticamente a eficácia (ASR caiu de ~52% para ~15-21%), confirmando que a estrutura temporal esparsa é o componente crítico.
- Remover o CSM (mantendo apenas a estrutura de contorno) também degradou o desempenho, mostrando que a ofuscação de palavras é necessária para evitar filtros de entrada.
- A ordem das etapas importa: Aplicar TBP antes de CSM é crucial; inverter a ordem reduz a eficácia.

5. Significado e Implicações

Mudança de Paradigma na Segurança: O estudo demonstra que a segurança de modelos T2V não pode depender apenas da análise superficial do prompt de entrada ou da inspeção de quadros isolados. A vulnerabilidade reside na compleção temporal realizada pelo modelo.
Necessidade de Novas Defesas: Os autores argumentam que os mecanismos de segurança atuais são insuficientes. É necessário desenvolver mecanismos de segurança "conscientes do tempo" (temporally aware) que possam avaliar a coerência e o conteúdo potencial da trajetória completa gerada pelo modelo, e não apenas os limites definidos pelo usuário.
Alerta para a Indústria: A capacidade de gerar conteúdo nocivo a partir de prompts aparentemente benignos que deixam a evolução temporal indefinida representa um risco prático e imediato para a adoção segura de tecnologias T2V.

Em resumo, o artigo prova que "duas molduras importam": ao restringir o modelo a apenas o início e o fim de uma cena, os atacantes podem forçar a IA a "alucinar" o conteúdo perigoso no meio, contornando filtros que não conseguem prever essa reconstrução temporal autônoma.