Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que los modelos de "Texto a Video" (T2V) son como directores de cine muy creativos, pero un poco ingenuos. Si les das una instrucción clara como "haz un video de alguien saltando", lo hacen perfecto. Pero si les das una instrucción peligrosa como "haz un video de alguien saltando desde un edificio y chocando", sus filtros de seguridad les gritan: "¡Alto! ¡Eso es peligroso! No puedo hacerlo".

Los investigadores de este paper descubrieron una forma muy astuta de engañar a estos directores de cine para que hagan cosas malas sin que los filtros se den cuenta. Llamaron a su método "Dos Cuadros Importan" (Two Frames Matter).

Aquí te explico cómo funciona, usando analogías sencillas:

1. El Problema: El Director es demasiado literal

Antes, los hackers intentaban engañar a los filtros cambiando las palabras. Por ejemplo, en lugar de decir "matar", decían "hacer desaparecer". Pero los filtros de seguridad son muy listos y adivinan que "hacer desaparecer" en ese contexto sigue siendo peligroso. Es como intentar entrar a un club prohibido disfrazado de camarero; el guardia te ve y te dice: "No, tú no eres camarero".

2. La Solución: El "Rompecabezas de Película"

Los autores se dieron cuenta de que estos modelos de video tienen una debilidad especial: les encanta rellenar los huecos.

Imagina que le pides al director de cine que haga una película, pero en lugar de darle el guion completo, solo le das dos cosas:

La primera escena: "Un hombre está en la cima de un acantilado, sonriendo".
La última escena: "El mismo hombre está en el suelo, sin movimiento".

No le dices nada sobre lo que pasa en medio. No le dices "se lanza" ni "cae". Solo das los extremos.

Aquí es donde ocurre la magia (o el problema):

El director de cine (el modelo) piensa: "Bueno, si estaba arriba y ahora está abajo, la única lógica es que saltó y cayó".
Como el modelo tiene mucha "experiencia" (entrenamiento), rellena automáticamente los cuadros intermedios con la acción peligrosa (la caída) para que la historia tenga sentido.
El resultado es un video donde el hombre cae, pero el texto que le diste al principio parecía inofensivo.

3. Los Dos Pasos del Truco (TFM)

Para que esto funcione, usan dos trucos combinados:

Paso 1: El Esqueleto Temporal (TBP)
Eliminan todo el guion del medio. Solo dejan el "inicio" y el "final". Es como si le dijeras a un chef: "Aquí tienes un huevo crudo (inicio) y aquí tienes un huevo frito (final)". El chef, por su cuenta, decide freírlo. Si le hubieras dicho "fríe este huevo", el chef podría decir "no, eso es peligroso". Pero si solo le muestras el antes y el después, él asume que debe hacer el proceso intermedio.
Paso 2: El Disfraz de Palabras (CSM)
A veces, incluso el inicio o el final tienen palabras sospechosas (como "acantilado" o "caída"). Usan un segundo truco para cambiar esas palabras por otras que suenen inocentes pero signifiquen lo mismo.
- En lugar de "acantilado", dicen "lugar alto".
- En lugar de "caída", dicen "desplazamiento hacia abajo".
  Es como si el director de cine leyera el guion y pensara: "Vale, 'lugar alto' y 'desplazamiento hacia abajo'... suena a que alguien se va a caer, pero las palabras no están en la lista de prohibidos".

4. ¿Por qué es peligroso?

El estudio probó esto en varios sistemas de video comerciales (como Kling, Hailuo, Pixverse) y descubrieron que funciona muy bien.

Lograron engañar a los filtros con un éxito del 60% en algunos casos.
Lo peor es que el video generado sí contiene la acción violenta o peligrosa, aunque el texto que escribiste para pedirlo parezca totalmente seguro.

En resumen

Imagina que tienes un robot que hace videos. Si le pides "haz un video de un accidente", se niega. Pero si le pides: "Muestra un coche en una carretera (inicio) y luego muestra el coche en un árbol (final)", el robot piensa: "¡Ah! Debe haber chocado". Y genera el video del accidente por sí mismo, porque su cerebro está diseñado para completar la historia.

Los autores dicen que necesitamos nuevos "guardianes" que no solo lean el texto que leemos, sino que piensen en la historia completa que el robot va a inventar entre el inicio y el final.

La moraleja: No basta con vigilar lo que decimos; hay que vigilar lo que la inteligencia artificial imagina que pasa en medio de lo que decimos.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Dos Marcos Importan (TFM)

1. Planteamiento del Problema

Los modelos de texto a video (T2V) han avanzado rápidamente, permitiendo generar videos complejos a partir de prompts de lenguaje natural. Sin embargo, esto plantea riesgos de seguridad significativos.

Limitación de los ataques actuales: Los métodos de "jailbreak" (burla de seguridad) existentes para T2V se basan principalmente en reescribir prompts inseguros en parafraseos que evaden filtros de contenido, pero que a menudo mantienen señales explícitas de sensibilidad en el texto de entrada.
La brecha de seguridad: Estos enfoques ignoran una vulnerabilidad específica del video: la capacidad del modelo para completar trayectorias temporales. Cuando un prompt especifica solo condiciones de frontera dispersas (ej. el inicio y el final) y deja la evolución intermedia indefinida, el modelo puede utilizar su conocimiento latente para "rellenar" (infill) los marcos intermedios, generando contenido dañino aunque el prompt de entrada parezca benigno.
Objetivo: Explotar esta vulnerabilidad de "relleno de trayectoria temporal" para generar videos inseguros sin activar los filtros de seguridad de entrada (prompt) ni de salida (video).

2. Metodología: Marco TFM (Two Frames Matter)

Los autores proponen TFM, un marco de ataque de dos etapas diseñado para explotar la generación temporal fragmentada. El proceso se divide en dos componentes principales:

A. Prompting de Frontera Temporal (TBP - Temporal Boundary Prompting):
- Concepto: Transforma un prompt original (que describe una secuencia completa) en una especificación temporalmente dispersa.
- Acción: Se eliminan todas las descripciones de los marcos intermedios, reteniendo únicamente las descripciones del primer marco ( $x_1$ ) y del último marco ( $x_T$ ).
- Mecanismo: Esto fuerza al modelo a inferir y generar autónomamente la evolución intermedia basándose en sus priores temporales aprendidos, en lugar de seguir instrucciones explícitas.
B. Mecanismo de Sustitución Encubierta (CSM - Covert Substitution Mechanism):
- Concepto: Reduce la detectabilidad léxica de los términos sensibles en los marcos de frontera retenidos.
- Acción: Utiliza un LLM para reescribir las palabras clave peligrosas en las descripciones de inicio y fin, sustituyéndolas por términos semánticamente alineados pero más ambiguos o implícitos (ej. cambiar "violencia explícita" por "conflicto intenso").
- Objetivo: Evadir los filtros de seguridad basados en palabras clave ( $f_{pre}$ ) mientras se preserva la intención semántica del ataque.

Flujo de Ataque:

Se toma un prompt inseguro $X$ .
TBP extrae solo los bordes: $X_B = (x_1, x_T)$ .
CSM aplica sustitución encubierta a los bordes: $X_C = (\hat{x}_1, \hat{x}_T)$ .
El prompt final $X_C$ se envía al sistema T2V, que genera el video relleno automáticamente, a menudo resultando en contenido prohibido.

3. Contribuciones Clave

Identificación de una vulnerabilidad única: Descubren que los sistemas T2V son vulnerables al "relleno de trayectoria temporal" bajo prompts fragmentados. El modelo puede reconstruir contenido dañino en los intervalos no especificados, incluso si el prompt de entrada es benigno.
Propuesta de TFM: Un marco sistemático que combina la restricción temporal (TBP) y la ofuscación semántica (CSM) para explotar esta vulnerabilidad en un entorno de caja negra estricto.
Evaluación exhaustiva: Demostración experimental en múltiples modelos de código abierto y comerciales, mostrando que la inyección de vulnerabilidades temporales es un vector de ataque efectivo y transferible.

4. Resultados Experimentales

Los autores evaluaron TFM en 7 modelos T2V (incluyendo Pixverse, Hailuo, Kling, Seedance, entre otros) contra 14 categorías de seguridad (pornografía, violencia, gore, figuras públicas, etc.).

Tasa de Éxito del Ataque (ASR):
- TFM superó consistentemente a las líneas base (DACA, RAB, VEIL, TSB).
- Logró un aumento de hasta +12% en ASR absoluto en sistemas comerciales en comparación con el mejor baseline (VEIL).
- Ejemplos específicos:
  - Hailuo: ASR promedio del 60.0% (vs. 48.0% de VEIL).
  - Pixverse: ASR promedio del 52.0% (vs. 45.0% de VEIL).
  - Kling: ASR promedio del 49.0%.
Análisis por Categoría: TFM fue particularmente efectivo en categorías que dependen de señales explícitas, como Pornografía (hasta 96% en Hailuo) y Gore, demostrando que la combinación de inyección temporal y ofuscación léxica supera las defensas robustas.
Estudios de Ablación:
- Sin TBP (W/O TBP): El rendimiento cae drásticamente (ej. de 52% a 15% en promedio), confirmando que la restricción temporal es el "andamio" principal del ataque.
- Sin CSM (W/O CSM): El rendimiento también disminuye significativamente (a 21%), demostrando que la sustitución de palabras es necesaria para evitar los filtros de entrada.
- Orden: El orden TBP $\to$ CSM es superior a la inversa, ya que primero se establece la estructura temporal y luego se oculta el contenido.

5. Significado e Implicaciones

Nueva Superficie de Ataque: El trabajo demuestra que la seguridad de los modelos T2V no puede basarse únicamente en la inspección del texto de entrada o en el análisis de marcos individuales. La completitud temporal generada por el modelo es un vector de ataque crítico.
Fallo de las Defensas Actuales: Los filtros actuales asumen que si el prompt es benigno, el resultado lo será. TFM demuestra que la inferencia del modelo puede "alucinar" contenido peligroso al rellenar huecos temporales, eludiendo la detección.
Recomendaciones de Seguridad: Se concluye que se necesitan mecanismos de seguridad conscientes del tiempo (temporally aware). Las defensas futuras deben evaluar no solo el prompt y el resultado final, sino también la coherencia y seguridad de la trayectoria generada por el modelo durante la inferencia, considerando la posibilidad de que el modelo complete información no especificada de manera dañina.

En resumen, el artículo revela que la capacidad de los modelos T2V para "imaginar" el tiempo entre dos puntos es una debilidad fundamental que puede ser explotada para generar contenido dañino de manera efectiva, desafiando las estrategias de alineación de seguridad actuales.

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

1. El Problema: El Director es demasiado literal

2. La Solución: El "Rompecabezas de Película"

3. Los Dos Pasos del Truco (TFM)

4. ¿Por qué es peligroso?

En resumen

Resumen Técnico: Dos Marcos Importan (TFM)

1. Planteamiento del Problema

2. Metodología: Marco TFM (Two Frames Matter)

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Implicaciones

Más como este

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities