TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

Each language version is independently generated for its own context, not a direct translation.

Imagina que los modelos de Texto-a-Video (T2V) son como chefs de cine muy talentosos. Si les pides "un perro jugando", te hacen un video hermoso. Pero, al igual que un chef puede ser engañado para cocinar algo peligroso si le das instrucciones confusas, estos modelos pueden ser engañados para crear videos dañinos (violencia, contenido sexual, etc.), aunque las instrucciones escritas parezcan inofensivas.

El problema es que los métodos actuales para probar la seguridad de estos modelos son como guardias de seguridad que solo miran fotos estáticas. Si un video es peligroso porque cómo se mueven las cosas en el tiempo (la secuencia de eventos), el guardia de seguridad no lo ve porque solo revisa cada fotograma por separado.

Aquí es donde entra TEAR, la nueva herramienta presentada en este artículo.

¿Qué es TEAR? (El "Detective del Tiempo")

TEAR (Red-teaming Automático Consciente del Tiempo) es como un detective especializado en el tiempo que intenta engañar a estos chefs de cine para ver si fallan.

Su misión es encontrar "agujeros" en la seguridad de los modelos de video. Pero no lo hace de la manera normal. En lugar de gritar "¡Haz algo malo!", TEAR aprende a susurrar instrucciones que parecen totalmente normales, pero que, si se ven en secuencia, crean un desastre.

¿Cómo funciona? (La Analogía del "Rompecabezas Peligroso")

Imagina que quieres que un modelo cree un video de alguien bebiendo veneno (algo prohibido). Si escribes "Bebe veneno", el filtro de seguridad lo bloqueará inmediatamente.

TEAR hace algo más astuto, como armar un rompecabezas peligroso pieza por pieza:

La Trampa Temporal: TEAR divide la acción prohibida en pequeños pasos que, por separado, son inofensivos.
- Paso 1: "Un hombre bebe un líquido transparente." (Parece inocente, como beber agua).
- Paso 2: "Dos segundos después, el hombre se inclina hacia atrás rápidamente." (Parece un tropiezo o un baile).
- Paso 3: "Su cuerpo empieza a moverse rítmicamente." (Parece una danza).
- Paso 4: "Sale espuma de su boca." (Parece un efecto especial de una película).
Si miras cada frase por separado, son seguras. Pero si las pones en orden cronológico, el resultado es un video de alguien muriendo. TEAR es experto en crear estas secuencias.
El Entrenamiento (El Gimnasio de IA):
- Fase 1 (Aprendizaje): TEAR estudia miles de ejemplos de cómo se pueden disfrazar estas acciones.
- Fase 2 (Prueba y Error): TEAR le da estas instrucciones al modelo de video. Si el modelo genera un video peligroso, TEAR recibe una "recompensa". Si el filtro de seguridad lo detecta, TEAR recibe una "penalización".
- Fase 3 (Refinamiento): TEAR tiene un "asistente" (un modelo de refinamiento) que actúa como un editor de cine. Si el video no salió perfecto o la frase fue demasiado sospechosa, el editor reescribe la instrucción para hacerla más sigilosa y más efectiva.

¿Qué descubrieron? (Los Resultados)

Los investigadores probaron TEAR contra los modelos de video más populares del mundo (tanto gratuitos como de empresas como Google y MiniMax).

Éxito masivo: TEAR logró engañar a los modelos en más del 80% de los intentos. Los métodos anteriores solo lograban engañarlos en un 57%.
Invisibilidad: Las instrucciones que creó TEAR pasaron los filtros de seguridad (los "guardias") casi siempre, porque el texto parecía 100% seguro.
El problema real: Descubrieron que los filtros de seguridad actuales son muy buenos para detectar palabras malas, pero muy malos para entender historias peligrosas que se desarrollan en el tiempo.

En resumen

Este paper nos dice que, aunque la tecnología de video por IA es increíble, tiene una nueva debilidad: no sabe protegerse contra historias que se cuentan poco a poco.

TEAR es la herramienta que nos ayuda a encontrar estos fallos antes de que los actores malvados los usen. Es como enseñar a un guardaespaldas a no solo vigilar lo que se dice, sino a vigilar cómo se cuenta la historia para evitar que termine en un desastre.

La lección: En el mundo de la IA, a veces el peligro no está en la palabra prohibida, sino en la secuencia de eventos que la rodea.

Each language version is independently generated for its own context, not a direct translation.

Aquí tienes un resumen técnico detallado del artículo "TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models" en español, estructurado según los puntos solicitados:

1. El Problema

Los modelos de Texto-a-Video (T2V) han avanzado significativamente en la generación de contenido dinámico coherente, pero introducen nuevos desafíos de seguridad que los métodos de evaluación existentes no logran capturar adecuadamente.

Limitación de los métodos actuales: Las técnicas de "red-teaming" (pruebas de intrusión) anteriores se centran en imágenes estáticas o texto. Estas asumen que un video es simplemente una secuencia de frames independientes.
La vulnerabilidad temporal: El artículo identifica que los modelos T2V pueden ser engañados mediante ataques de agregación temporal. Un atacante puede crear un prompt (instrucción) que, si se lee como texto, parece inofensivo y cumple con las políticas de seguridad. Sin embargo, al descomponerse en una secuencia temporal de eventos dentro del video, la combinación de estos eventos genera contenido dañino (violencia, autolesiones, etc.) que viola las políticas.
Brecha de seguridad: Los filtros de seguridad actuales suelen evaluar el texto de entrada o el video como un todo estático, fallando al detectar riesgos que emergen únicamente de la dinámica temporal y la progresión de eventos.

2. Metodología: Framework TEAR

Los autores proponen TEAR (Temporal-aware Automated Red-teaming), un marco automatizado diseñado para descubrir sistemáticamente estas vulnerabilidades temporales. El proceso se divide en tres componentes principales y dos fases de optimización:

A. Componentes del Sistema

Generador de Pruebas Consciente del Tiempo: Un modelo de lenguaje (LLM) optimizado para crear prompts que explotan la dinámica temporal.
Modelo de Refinamiento (Refine Model): Un modelo multimodal (MLLM) que utiliza aprendizaje en contexto (few-shot) para iterar y mejorar los prompts basándose en el feedback de los sistemas de juicio.
Modelo Objetivo T2V: El modelo que se está probando (puede ser de código abierto o comercial).

B. Proceso de Optimización (Dos Etapas)

El problema se formula como un Proceso de Decisión de Markov (MDP) con dos etapas de entrenamiento:

Entrenamiento Inicial del Generador:
- Se construye un dataset basado en reglas donde un prompt dañino ("meta-harmful") se deconstruye en una secuencia de eventos estáticos inofensivos.
- Se aplican tres reglas de reescritura: Descomposición Temporal (dividir la acción dañina en pasos), Aplicación Secuencial (usar conectores temporales como "después de 2 segundos") y Síntesis Temporal-Espacial (el daño surge solo de la combinación).
- Se entrena un LLM base para generar estos prompts iniciales que son "seguros" en texto pero "dañinos" en video.
Aprendizaje de Preferencia en Línea Consciente del Tiempo:
- El generador se optimiza mediante refuerzo (PPO) utilizando dos funciones de recompensa:
  - Recompensa de Espacio de Prompt ( $R_{pmt}$ ): Asegura que el prompt sea seguro para los filtros de texto (evita palabras prohibidas) y mantenga la estructura temporal deseada.
  - Recompensa de Consistencia Temporal ( $R_{con}$ ): Evalúa el video generado. Utiliza modelos pre-entrenados para medir la consistencia global (texto-video) y la consistencia interna (coherencia temporal entre frames).
- El objetivo es maximizar la probabilidad de que el video sea clasificado como "dañino" por el sistema de juicio de video, mientras el texto pasa los filtros de texto.

C. Refinamiento Iterativo

Una vez generado un video, un Modelo de Refinamiento analiza el prompt, el video generado y el feedback de los sistemas de juicio (texto y video). Este modelo sugiere modificaciones al prompt para hacerlo más sigiloso o efectivo, cerrando el ciclo hasta alcanzar el objetivo de ataque.

3. Contribuciones Clave

Primera Framework Automatizada para T2V: TEAR es el primer sistema diseñado específicamente para red-teaming en modelos de texto-a-video, enfocándose en la dimensión temporal.
Identificación de Riesgos Latentes: Demuestra que existen vulnerabilidades críticas donde prompts semánticamente inocuos generan contenido peligroso debido a la secuencia temporal de eventos.
Evaluación Exhaustiva: Se evaluó en 5 modelos líderes (2 de código abierto: Wan2.2, Hunyuan-Video; y 3 comerciales: Veo-3.1, Hailuo-2.3, Ray-2) contra 4 métodos state-of-the-art (SOTA).
Exposición de Fallos en APIs Comerciales: Revela que los filtros de seguridad actuales en servicios comerciales son insuficientes para detectar casos dinámicos inseguros.

4. Resultados Experimentales

Los experimentos demuestran una superioridad significativa de TEAR sobre los métodos existentes:

Tasa de Éxito del Ataque (ASR):
- TEAR logró una ASR superior al 80% (82.3% en Hunyuan-Video y 80.5% en Wan 2.2).
- Esto representa una mejora sustancial frente al mejor resultado anterior (FLIRT), que alcanzó aproximadamente un 57%.
- En servicios comerciales, las tasas de éxito oscilaron entre el 85% y el 95% en categorías como violencia y gore.
Evasión de Filtros: Los prompts generados por TEAR tienen una tasa de éxito de paso por filtros de texto (NSFW, Toxicidad) superior al 96%, lo que indica que son extremadamente sigilosos.
Transferibilidad: Los prompts optimizados en un modelo funcionan eficazmente en otros modelos no vistos (ataque de caja negra), con una tasa de transferencia promedio del 76.4%, lo que sugiere una debilidad fundamental compartida en la arquitectura de seguridad de los modelos T2V.
Robustez: El rendimiento mejora con más rondas de refinamiento y es estable en diferentes configuraciones de generación (pasos de inferencia, escala CFG).

5. Significado e Impacto

Seguridad Proactiva: TEAR proporciona una herramienta escalable para que los desarrolladores auditen sus modelos antes del despliegue público, identificando fallos complejos que las evaluaciones estáticas pasan por alto.
Nueva Dimensión de Riesgo: El trabajo establece que la seguridad de los modelos generativos de video no puede evaluarse solo frame a frame; la coherencia temporal es un vector de ataque crítico.
Llamado a la Acción: Los resultados indican que los filtros de seguridad actuales son inadecuados para el futuro de la generación de video, impulsando la necesidad de desarrollar mecanismos de alineación que consideren la secuencia temporal de eventos y no solo el contenido estático.

En resumen, el artículo demuestra que la seguridad de los modelos T2V es frágil frente a ataques que manipulan la narrativa temporal, y propone TEAR como la solución estándar para descubrir y mitigar estos riesgos antes de que se conviertan en amenazas reales.

TEAR: Temporal-aware Automated Red-teaming for Text-to-Video Models

¿Qué es TEAR? (El "Detective del Tiempo")

¿Cómo funciona? (La Analogía del "Rompecabezas Peligroso")

¿Qué descubrieron? (Los Resultados)

En resumen

1. El Problema

2. Metodología: Framework TEAR

A. Componentes del Sistema

B. Proceso de Optimización (Dos Etapas)

C. Refinamiento Iterativo

3. Contribuciones Clave

4. Resultados Experimentales

5. Significado e Impacto

Más como este

Towards Automatic Stress Analysis using Scaled Boundary Finite Element Method with Quadtree Mesh of High-order Elements

Computing Characteristic Polynomials of p-Curvatures in Average Polynomial Time

Non-degenerate Rigid Alignment in a Patch Framework

Shirakami: A Hybrid Concurrency Control Protocol for Tsurugi Relational Database System

The MCC approaches the geometric mean of precision and recall as true negatives approach infinity