WeaveTime: Stream from Earlier Frames into Emergent Memory in VideoLLMs

WeaveTime es un marco eficiente y agnóstico al modelo que mejora la capacidad de los VideoLLMs para el procesamiento en streaming mediante la inculcación de representaciones conscientes del orden temporal y un mecanismo de recuperación dinámica que distingue entre observaciones presentes e historia acumulada, resolviendo así la ceguera temporal y la ambigüedad en secuencias causales.

Yulin Zhang, Cheng Shi, Sibei Yang

Publicado 2026-02-26
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

Imagina que tienes un amigo muy inteligente, un "experto en video", pero tiene un problema grave: tiene mala memoria del tiempo.

Si le muestras un video de una persona entrando a una habitación y luego saliendo, este experto podría confundirse y pensar que la persona salió antes de entrar. O peor aún, si le preguntas "¿De qué color es la flor que ves ahora?", podría empezar a hablar de una flor que vio hace 10 minutos, ignorando lo que tiene frente a sus ojos en este preciso instante.

Los investigadores llaman a esto "Agnosticismo del Tiempo" (Time-Agnosticism). Para el modelo, el video es como una bolsa de fotos desordenadas; no entiende que las cosas suceden en una secuencia causal (primero esto, luego aquello).

Aquí es donde entra WeaveTime (que podríamos traducir como "Tejiendo el Tiempo"), una nueva solución que arregla este problema de forma sencilla y eficiente.

La Metáfora: El Bibliotecario vs. El Caos

Imagina que el video es una biblioteca gigante que se va llenando de libros (imágenes) segundo a segundo.

  1. El Problema (La Biblioteca Caótica):
    Los modelos actuales actúan como un bibliotecario que tira todos los libros en el suelo y los mezcla. Cuando le preguntas algo, busca en el montón desordenado. A veces adivina bien, pero si la pregunta requiere saber cuándo pasó algo, se equivoca. Además, si le preguntas algo obvio que está en la mesa (el presente), él va a buscar en los estantes del fondo (el pasado) perdiendo tiempo y confundiendo las cosas.

  2. La Solución WeaveTime (El Bibliotecario Organizado):
    WeaveTime es como darle al bibliotecario dos herramientas mágicas:

    • Herramienta 1: "El Entrenamiento de Orden" (SOPE)
      Antes de empezar a trabajar, el bibliotecario recibe un entrenamiento especial. Le muestran una pila de libros desordenados y le dicen: "¡Ordena esta historia cronológicamente!".

      • La analogía: Es como si le enseñaran a un niño a poner los capítulos de una novela en orden (1, 2, 3) en lugar de leerlos al azar. Al hacer esto, el modelo aprende que el tiempo es una línea, no un círculo. Ya no ve solo "imágenes", ve una "historia".
    • Herramienta 2: "El Filtro de Atención Dinámica" (PCDF-Cache)
      Ahora que sabe ordenar las cosas, el bibliotecario necesita saber cuándo buscar en los archivos antiguos.

      • La analogía: Imagina que tienes un asistente muy atento.
        • Si le preguntas algo sencillo (ej: "¿Qué color es el coche?"), el asistente mira solo lo que tiene enfrente ahora mismo. ¡Rápido y eficiente!
        • Pero si le preguntas algo difícil (ej: "¿Dónde dejé las llaves hace 5 minutos?"), el asistente se detiene, piensa: "No estoy seguro de la respuesta solo mirando ahora" (esto es la "incertidumbre"). Entonces, decide buscar en sus archivos del pasado, pero de forma inteligente: primero busca rápido en los títulos de los libros (búsqueda gruesa) y luego lee solo las páginas relevantes (búsqueda fina).

¿Por qué es importante esto?

Hasta ahora, para que una Inteligencia Artificial entendiera videos en tiempo real (como en un coche autónomo o una videollamada), necesitaba:

  • Re-entrenarse con millones de videos especiales (muy caro y lento).
  • O revisar todo el video desde el principio hasta el final cada vez que le hacían una pregunta (muy lento y pesado).

WeaveTime cambia las reglas del juego:

  • Es ligero: No necesita millones de videos nuevos, solo un poco de entrenamiento para entender el orden.
  • Es rápido: No revisa todo el pasado si no es necesario. Solo "recuerda" cuando se siente inseguro.
  • Es preciso: Entiende que "antes" y "después" son cosas diferentes, evitando errores como pensar que alguien salió de la habitación antes de entrar.

En resumen

WeaveTime es como darle a una Inteligencia Artificial un reloj interno y un libro de notas organizado.

  1. Le enseña a entender que el tiempo fluye en una dirección (no es una bolsa de fotos).
  2. Le enseña a no mirar el pasado si la respuesta está justo frente a sus ojos, pero a buscar en el pasado con inteligencia si la pregunta lo requiere.

El resultado es un sistema que puede ver el mundo en tiempo real, entender historias complejas y responder preguntas al instante, sin confundirse ni tardar horas en pensar. ¡Es como pasar de tener un amigo despistado a tener un narrador de historias perfectamente organizado!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →