TRecViT: A Recurrent Video Transformer

El artículo presenta TRecViT, un modelo de video causal basado en transformadores recurrentes que, mediante una factorización espacio-tiempo-canal, logra un rendimiento superior o comparable a modelos no causales como ViViT con una eficiencia significativamente mayor en parámetros, memoria y FLOPs, estableciendo nuevos récords en tareas de video a gran escala.

Viorica Pătrăucean, Xu Owen He, Joseph Heyward, Chuhan Zhang, Mehdi S. M. Sajjadi, George-Cristian Muraru, Artem Zholus, Mahdi Karami, Ross Goroshin, Yutian Chen, Simon Osindero, João Carreira, Razvan Pascanu

Publicado 2026-02-17
📖 5 min de lectura🧠 Análisis profundo

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que quieres enseñarle a una computadora a entender un video, como si fuera un niño aprendiendo a ver el mundo. El problema es que los videos son enormes: tienen miles de cuadros (imágenes), mucha información y cambian constantemente.

Aquí te explico el paper sobre TRecViT como si fuera una historia de cómo construir el mejor "cerebro" para ver videos, usando analogías sencillas.


🎬 El Problema: Ver un video es como leer un libro gigante

Imagina que tienes que entender una película entera.

  • Los modelos antiguos (Redes Neuronales Recurrentes): Eran como un lector muy lento que lee una palabra a la vez. Es bueno para recordar el contexto, pero si el libro es muy largo, se aburre, se olvida del principio y tarda muchísimo en terminar.
  • Los modelos modernos (Transformers como ViViT): Son como un lector que puede saltar a cualquier página del libro al mismo tiempo. ¡Es súper rápido! Pero tiene un gran defecto: para entender una página, necesita mirar todas las páginas anteriores y siguientes a la vez. Si el libro es de 1000 páginas, el lector se queda sin espacio en la mesa (memoria) y se vuelve extremadamente lento. Además, estos modelos suelen mirar el libro completo de una vez, lo cual es imposible si estás viendo una película en vivo (como en un robot o realidad aumentada).

💡 La Solución: TRecViT (El "Detective" Inteligente)

Los autores de Google DeepMind crearon TRecViT. Imagina que TRecViT es un detective muy organizado que no intenta leer todo el libro de golpe, sino que usa un sistema de tres pasos muy eficiente:

1. El Tiempo (La línea de vida) 🕰️

El tiempo en un video es especial: siempre va hacia adelante (no puedes ver el futuro). TRecViT usa un componente llamado LRU (Unidad Recurrente Lineal).

  • La analogía: Imagina que tienes una cinta transportadora que lleva los cuadros del video uno por uno. El LRU es como un guardián que se queda en la cinta. No necesita mirar todo el video de golpe; solo mira el cuadro que pasa ahora y lo compara con lo que recuerda de los cuadros anteriores.
  • El truco: Este guardián tiene una "memoria comprimida". En lugar de guardar cada cuadro en una caja gigante, guarda un resumen pequeño. Por eso, aunque el video sea de 1 hora, el guardián no se cansa ni necesita más espacio. ¡Puede ver videos infinitos en tiempo real!

2. El Espacio (La foto fija) 📸

Cada cuadro del video es una foto llena de detalles (colores, formas, objetos).

  • La analogía: Una vez que el guardián (LRU) pasa el cuadro por la cinta, lo envía a un artista (el bloque ViT). Este artista no mira la cinta, sino que toma la foto y la examina todas sus partes al mismo tiempo.
  • El truco: El artista puede ver la cara, el fondo y los objetos de la foto simultáneamente para entender cómo se relacionan entre sí. Esto es mucho más rápido que mirar la foto píxel por píxel.

3. Los Canales (Los colores y detalles) 🎨

Finalmente, hay una capa que mezcla los colores y las características profundas, como un chef que mezcla los ingredientes finales para dar el sabor perfecto.

🚀 ¿Por qué es tan increíble TRecViT?

El papel dice que TRecViT es el primer modelo de video que es "causal" (solo mira el pasado y el presente, nunca el futuro) y que es tan eficiente como los modelos más grandes, pero mucho más pequeño.

Aquí tienes las comparaciones mágicas:

  • 🧠 Menos cerebro, más fuerza: TRecViT tiene 3 veces menos parámetros (cerebro) que el modelo famoso ViViT-L. Es como tener un coche deportivo pequeño que va tan rápido como un camión gigante.
  • 💾 Menos maletas: Ocupa 12 veces menos memoria. Imagina que ViViT necesita un camión de mudanzas para guardar sus recuerdos, mientras que TRecViT cabe en una mochila de día.
  • ⚡ Más rápido: Hace 5 veces menos cálculos (FLOPs). Es como si TRecViT pudiera procesar 300 cuadros por segundo. ¡Es más rápido que el ojo humano!
  • 🏆 El rey de los videos en vivo: Como solo mira hacia adelante (causal), es perfecto para robots, gafas de realidad aumentada o cámaras de seguridad que necesitan reaccionar al instante. Los otros modelos necesitan ver todo el video antes de decirte qué pasó; TRecViT te lo dice mientras sucede.

🏆 Los Resultados: ¿Quién gana?

El equipo probó a TRecViT en dos tipos de pruebas:

  1. Entender el movimiento: En un dataset donde hay que diferenciar acciones sutiles (como "verter agua" vs. "fingir verter agua"), TRecViT ganó a todos, incluso a los modelos gigantes que no son causales.
  2. Reconstruir el pasado: Le pidieron que recordara un cuadro que vio hace mucho tiempo. Aunque los modelos gigantes (ViViT) son un poco mejores si el video es corto, cuando el video se hace largo, ViViT se olvida y empieza a alucinar (ver cosas que no existen). TRecViT, en cambio, mantiene la memoria clara y estable.

🎓 En resumen

TRecViT es como un detective eficiente que no necesita leer todo el libro de una vez.

  • Usa una cinta transportadora (LRU) para seguir el tiempo sin perderse.
  • Usa un artista (ViT) para entender cada foto al instante.
  • Y lo hace todo en tiempo real, ocupando muy poco espacio y consumiendo poca energía.

Es un gran paso para que los robots y las inteligencias artificiales puedan ver el mundo tal como lo hacemos nosotros: cuadro a cuadro, en tiempo real, sin necesitar una supercomputadora para cada segundo.

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →