DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

El artículo presenta DeformTrace, un modelo innovador que combina dinámicas deformables y un mecanismo de tokens de relevo dentro de arquitecturas de Espacio de Estados (SSM) para lograr una localización temporal de falsificaciones en video y audio con mayor precisión, eficiencia y robustez que los métodos actuales.

Xiaodong Zhu, Suting Wang, Yuanming Zheng, Junqi Yang, Yangxu Liao, Yuhong Yang, Weiping Tu, Zhongyuan Wang

Publicado 2026-03-06
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el mundo de los videos falsos (deepfakes) es como una gran fiesta de disfraces. Alguien ha entrado en la fiesta y ha cambiado de disfraz en medio de la canción, pero lo ha hecho tan bien que a simple vista parece que siempre estuvo así.

El problema es que los investigadores anteriores eran como detectives con una linterna muy débil: podían decir "¡Alguien hizo trampa aquí!", pero no podían señalar exactamente cuándo empezó el disfraz y cuándo terminó. A veces, su linterna se apagaba si la fiesta duraba mucho tiempo, o se confundían porque la mayoría de la fiesta era real y solo había un pequeño trozo falso.

Aquí es donde entra DeformTrace, el nuevo superdetective propuesto en este artículo. Vamos a explicar cómo funciona con tres trucos mágicos:

1. El "Ojo Flexible" (Deformable Self-SSM)

Imagina que los métodos antiguos eran como una cámara de seguridad fija que solo podía mirar un cuadro de 5 segundos a la vez. Si el cambio de disfraz ocurría justo en el borde de ese cuadro, la cámara se perdía.

DeformTrace tiene un ojo flexible. En lugar de mirar un cuadro fijo, su "ojo" puede estirarse y encogerse. Si detecta algo raro, su ojo se estira hacia adelante o hacia atrás para mirar exactamente el momento del cambio, sin importar dónde esté. Es como si el detective pudiera estirar su brazo para agarrar el momento exacto del truco, en lugar de quedarse quieto mirando por la ventana.

2. Los "Relés de Mensajes" (Relay Tokens)

Los videos largos son como un juego de "teléfono descompuesto" (el juego donde pasas un mensaje de oreja en oreja). Si el video es muy largo, el mensaje (la información de que algo es falso) se va perdiendo o distorsionando hasta que llega al final y ya nadie recuerda qué pasó al principio.

Para arreglar esto, DeformTrace coloca estaciones de relevo (como los repetidores de señal en una montaña) a lo largo del video.

  • Imagina que el video es un río muy largo. El agua (la información) fluye, pero si el río es muy largo, el agua se evapora.
  • Los "Relés" son como bomberos que recogen el agua en cubos y la pasan al siguiente equipo. Así, la información de que "aquí hubo un truco" llega fresca y fuerte hasta el final del video, sin perderse en el camino.

3. El "Buscador de Agujas" (Deformable Cross-SSM)

En la mayoría de los videos, el 99% es real y solo el 1% es falso. Es como buscar una aguja en un pajar gigante. Los métodos anteriores miraban todo el pajar de una vez y se abrumaban con tanto "paja" (información real) que olvidaban buscar la "aguja".

DeformTrace usa un enfoque diferente: envía pequeños exploradores (preguntas) que solo se interesan por lo sospechoso.

  • Imagina que tienes un equipo de detectives. En lugar de que todos revisen toda la fiesta, envías a un detective específico a preguntar: "¿Dónde está el disfraz falso?".
  • Este detective ignora todo lo que es normal (la gente bailando, riendo) y solo se conecta con la parte del video que parece sospechosa. Esto hace que sea mucho más fácil encontrar la aguja en el pajar.

¿Por qué es tan genial?

Además de ser un detective muy listo, DeformTrace es rápido y eficiente.

  • Los métodos anteriores eran como un camión de bomberos gigante: potentes, pero lentos y gastaban mucha gasolina (computación).
  • DeformTrace es como una moto de policía ágil: hace el mismo trabajo (o mejor), pero llega más rápido, gasta menos combustible y necesita menos espacio para estacionarse (menos memoria en la computadora).

En resumen

DeformTrace es un nuevo sistema que combina la inteligencia de los detectives modernos con la velocidad de un atleta.

  1. Mira con flexibilidad para encontrar los bordes exactos de la mentira.
  2. Usa estaciones de relevo para no olvidar lo que pasó al principio del video.
  3. Se enfoca solo en lo sospechoso para no perder tiempo en lo que es real.

Gracias a esto, ahora podemos detectar y localizar videos falsos con una precisión increíble, incluso si son muy largos o si la falsificación es muy sutil, todo mientras consumen menos recursos que los métodos anteriores. ¡Es como darle a la policía forense unas gafas de visión nocturna y un motor de cohete!