VidEoMT: Your ViT is Secretly Also a Video Segmentation Model

El artículo presenta VidEoMT, un modelo de segmentación de video basado únicamente en un codificador ViT que elimina la necesidad de módulos de seguimiento especializados mediante un mecanismo de propagación de consultas, logrando una precisión competitiva con una velocidad de procesamiento entre 5 y 10 veces superior a los métodos existentes.

Narges Norouzi, Idil Esen Zulfikar, Niccolò Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus

Publicado 2026-03-05
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el video es como una película de acción y los objetos que aparecen en ella son los actores. El trabajo de la segmentación de video es como tener un director de cine que, en cada fotograma, tiene que hacer tres cosas:

  1. Encontrar a los actores (dónde están).
  2. Saber quiénes son (¿es el héroe o el villano?).
  3. Seguir la pista de cada actor a lo largo de toda la película para no confundirlos (que el héroe no se convierta en villano en el siguiente plano).

Hasta ahora, para hacer esto, los ordenadores usaban un equipo de trabajo muy complejo y pesado.

El Problema: El Equipo de Trabajo Excesivo

Imagina que para dirigir esta película, tenías que contratar a:

  • Un detective que mira cada foto y dice "aquí hay un coche".
  • Un traductor que le dice al detective qué tipo de coche es.
  • Un guardaespaldas que vigila al detective para asegurarse de que el coche de la foto 1 es el mismo que el de la foto 2.
  • Un bibliotecario que organiza todo para que no se pierda la información.

Este sistema funcionaba bien, pero era lento, caro y consumía mucha energía, como intentar dirigir una película usando un camión de mudanzas en lugar de un coche deportivo.

La Solución: VidEoMT (El "Super-Actor" Solitario)

Los autores de este paper (VidEoMT) se preguntaron: "¿Realmente necesitamos todo ese equipo? ¿No podría una sola persona muy inteligente hacer todo el trabajo?".

Su respuesta es .

Presentan VidEoMT, un modelo que es como un actor prodigio (un modelo de Inteligencia Artificial llamado "ViT" o Transformador de Visión) que ya ha estudiado millones de películas antes de empezar. Este actor es tan listo que:

  1. No necesita al detective, ni al traductor, ni al guardaespaldas.
  2. Él mismo ve la imagen, sabe quién es el objeto y recuerda quién era en el fotograma anterior.

¿Cómo lo hace? (La Magia de la "Propagación de Preguntas")

Aquí es donde entran las analogías creativas para entender la técnica:

  1. El Modelo Base (El Actor con Memoria):
    Imagina que tienes un actor que ha visto tantas películas que, si le das una foto, sabe exactamente qué hay en ella. Pero si le das una película, olvida lo que vio en la foto anterior. Es como si tuviera amnesia entre fotogramas.

  2. La Propagación de Consultas (El "Pase de Testigo"):
    Para que el actor no olvide, VidEoMT le da un pase de testigo. En lugar de empezar de cero en cada foto, le pasa una "nota mental" (llamada query) de la foto anterior.

    • Analogía: Es como si en una carrera de relevos, el corredor anterior le pasara el testigo al siguiente. El nuevo corredor (la nueva foto) ya sabe quién llevaba el testigo y de qué color era, así que no tiene que adivinarlo.
  3. La Fusión de Consultas (Mezclar lo Viejo con lo Nuevo):
    Pero hay un problema: si solo pasas la nota de la foto anterior, ¿qué pasa si aparece un nuevo actor en la escena? El modelo podría confundirse.

    • La solución: VidEoMT usa una mezcla inteligente. Toma la "nota" del actor anterior (para mantener la continuidad) y la mezcla con una "lista de nuevos actores" que puede aprender en el momento.
    • Analogía: Es como un director de orquesta que tiene la partitura de la canción que están tocando (lo que ya sabemos) pero también tiene un micrófono abierto para captar si entra un nuevo instrumento (un objeto nuevo). Mezcla ambos sonidos perfectamente.

Los Resultados: ¡Velocidad de Luz!

El resultado de quitar todo el equipo pesado y usar solo a este "actor prodigio" es asombroso:

  • Velocidad: El sistema antiguo tardaba mucho en procesar los videos. VidEoMT es 5 a 10 veces más rápido.
    • Imagina: Si el sistema antiguo tardaba 10 segundos en procesar un minuto de video, VidEoMT lo hace en 1 segundo. ¡Puede procesar 160 fotogramas por segundo!
  • Precisión: A pesar de ser tan rápido, no pierde calidad. Sigue siendo tan preciso como los sistemas antiguos y complejos.
  • Simplicidad: Elimina la necesidad de componentes especiales y complicados. Todo ocurre dentro de un solo cerebro (el modelo ViT).

En Resumen

El paper nos dice que, gracias a que estos modelos de Inteligencia Artificial se entrenan con cantidades masivas de datos (como un actor que ha visto todas las películas del mundo), ya no necesitamos construir máquinas complejas y pesadas para seguir objetos en video.

Basta con un modelo simple, bien entrenado, que use un truco inteligente para recordar lo que vio hace un segundo y mezclarlo con lo que ve ahora. Es como pasar de usar un camión de mudanzas para ir a la tienda de la esquina a usar una bicicleta eléctrica: es más rápido, más limpio y hace el mismo trabajo perfectamente.

VidEoMT es esa bicicleta eléctrica para la visión por computadora: simple, rápida y sorprendentemente efectiva.