Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

Publicado 2026-03-13

📖 5 min de lectura🧠 Análisis profundo

Ver en arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

¡Hola! Imagina que estás viendo una película en vivo, pero en lugar de sentarte en el sofá, eres el director de la película y el guionista al mismo tiempo. Cada pocos segundos, el público (el usuario) te hace una pregunta sobre lo que acaba de pasar.

El problema con los "cerebros de IA" actuales (los modelos de lenguaje multimodal) es que son como un estudiante muy inteligente, pero con una memoria de pez dorado cuando las cosas se mueven rápido. Si les muestras un video completo de una vez, responden genial. Pero si les das el video trozo a trozo, mientras hablan, se olvidan de lo que vieron hace un minuto.

Aquí es donde entra el trabajo "Think While Watching" (Piensa mientras ves), que proponen los autores de este paper. Vamos a desglosarlo con analogías sencillas:

1. El Problema: El "Cuello de Botella" y la "Memoria que se Derrite"

Imagina que estás viendo un partido de fútbol en vivo y el comentarista (la IA) tiene que describir la jugada.

El método antiguo (Interleaved): El comentarista ve la jugada, se detiene, escribe el comentario, lo dice, y solo entonces puede ver la siguiente jugada.
- El problema: Mientras escribe, el partido sigue avanzando. Se acumulan jugadas sin ver. Además, como se detiene tanto tiempo, olvida los detalles de la jugada que vio hace 5 minutos. Es como intentar recordar lo que comiste en el desayuno mientras te están contando una historia nueva y tú estás escribiendo una carta.

2. La Solución: "Think While Watching" (Piensa mientras ves)

Los autores proponen un sistema que funciona como un director de orquesta con una libreta de notas mágica.

A. La Libreta de Notas (Memoria por Segmentos)

En lugar de intentar recordar todo el video de golpe, el sistema divide el video en pequeños "trozos" o segmentos (como capítulos de un libro).

Cada vez que termina un trozo de video, la IA escribe una nota rápida en su libreta.
Ejemplo: "En este trozo, el mago llevaba una chaqueta negra y el juez aplaudió".
Esta libreta es su memoria persistente. Cuando el usuario hace una pregunta, la IA no necesita "volver a ver" todo el video; solo consulta su libreta para encontrar la nota relevante.

B. Ver y Pensar al Mismo Tiempo (Paralelismo)

Aquí está la magia técnica. El sistema separa dos tareas que antes hacían una tras otra:

Ver (Ingesta): El sistema sigue recibiendo el video en tiempo real, sin parar.
Pensar/Responder (Generación): Al mismo tiempo, está escribiendo la respuesta a la pregunta anterior.

La analogía: Imagina que eres un chef. En el método antiguo, cocinabas un plato, lo servías, y luego empezabas a cortar las verduras para el siguiente. En este nuevo método, tienes una cinta transportadora (el video) que nunca para. Mientras cortas verduras (escribes la respuesta), la cinta sigue trayendo ingredientes nuevos. No te detienes a esperar.

3. El Entrenamiento: Los Tres Niveles de la Academia

Para que este sistema funcione, los autores crearon un "plan de estudios" de tres niveles para entrenar a la IA:

Nivel 1 (Anotar y Responder): Enseñan a la IA a ver un trozo de video, escribir una nota en su libreta y responder una sola pregunta. Es como aprender a tomar apuntes en clase.
Nivel 2 (Conversación Multi-turno): Ahora, el usuario hace varias preguntas seguidas. La IA debe usar sus notas antiguas para responder la nueva pregunta sin olvidar lo anterior. Es como una conversación real donde no puedes decir "¿Quién era ese tipo de nuevo?" porque ya lo anotaste.
Nivel 3 (Largo Plazo y Distracciones): Usan videos muy largos (como documentales de YouTube) y les ponen "trampas" (escenas que no importan). La IA debe aprender a ignorar el ruido y recordar detalles de hace mucho tiempo, incluso si hay mucho video de por medio.

4. Los Resultados: ¿Funciona?

¡Sí! Y muy bien.

Precisión: En pruebas de video en vivo, la IA mejora su precisión en un 2.6% a 3.8% comparada con los mejores modelos actuales.
Eficiencia: Al usar la libreta de notas, la IA necesita escribir mucho menos texto para explicar las cosas. Ahorra un 56% de "tinta" (tokens) digital.
Velocidad: Como no se detiene a esperar, la respuesta llega mucho más rápido. Es como pasar de un coche que tiene que parar en cada semáforo a uno que tiene un carril exclusivo.

En Resumen

"Think While Watching" es como darle a una IA un cuaderno de notas inteligente y la capacidad de hacer dos cosas a la vez (ver y escribir).

Antes: Ve -> Para -> Escribe -> Olvida -> Ve -> Para -> Escribe.
Ahora: Ve (y anota) -> Sigue viendo (y piensa en la respuesta anterior) -> Responde -> Sigue viendo.

Es un paso gigante para que las IAs puedan ser verdaderos asistentes en tiempo real, capaces de seguir una conversación fluida mientras miran un video en vivo, sin perder el hilo de la historia.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Think While Watching

1. El Problema: Limitaciones de los Modelos de Video en Streaming

Los Modelos de Lenguaje Multimodal (MLLMs) actuales han demostrado un rendimiento sólido en tareas de comprensión de video offline, donde el video completo está disponible antes de la inferencia. Sin embargo, enfrentan desafíos críticos en escenarios de streaming en tiempo real (transmisiones en vivo, robótica, monitoreo), caracterizados por:

Interacción Multi-turno: Los usuarios hacen preguntas en cualquier momento, y las respuestas futuras dependen de la memoria de interacciones y evidencias visuales pasadas.
Erosión de la Memoria (Memory Erosion): Los enfoques existentes utilizan un paradigma intercalado (percepción $\rightarrow$ generación $\rightarrow$ percepción). Este proceso serializado hace que el modelo "olvide" detalles visuales tempranos a medida que la secuencia de video crece, perdiendo la consistencia temporal a largo plazo.
Cuello de Botella de Serialización: En los modelos intercalados, la generación de texto bloquea la ingesta de nuevos frames de video. Esto provoca una acumulación de retraso (latencia) y una incapacidad para procesar el flujo de video mientras se piensa, lo que es inaceptable para aplicaciones en tiempo real.

2. Metodología: Think While Watching

Los autores proponen Think While Watching, un marco de razonamiento de video en streaming anclado a la memoria, diseñado para mantener la percepción y la generación desacopladas.

Memoria a Nivel de Segmento:
- En lugar de procesar frame a frame o esperar al video completo, el video se divide en segmentos ( $S_t$ ).
- Por cada segmento observado, el modelo escribe explícitamente una "nota de memoria" ( $m_t$ ) compacta que resume entidades, acciones, cambios de escena y relaciones temporales.
- Estas notas se almacenan en un banco de memoria persistente ( $M_t$ ). Cuando llega una pregunta, el modelo recupera e integra las notas relevantes mediante el mecanismo de atención, en lugar de depender únicamente de los tokens visuales crudos.
Arquitectura y Causalidad Estricta:
- Máscara de Streaming a Nivel de Segmento: Se introduce una máscara de atención causal que asegura que, en cualquier turno de razonamiento, el modelo solo pueda acceder a los segmentos y notas de memoria que han ocurrido antes o en el momento actual, prohibiendo la fuga de información futura.
- Codificación Posicional de Streaming: Se utiliza una variante de MRoPE (Multimodal Rotary Positional Embeddings) donde los flujos de entrada (video) y salida (texto) tienen codificaciones posicionales independientes. Esto permite que el modelo asigne posiciones correctas a nuevos segmentos de video incluso mientras está generando texto, habilitando el paralelismo.
Pipeline de Inferencia Paralelo:
- Inspirado en la programación de procesos de CPU, el sistema utiliza una doble caché KV (Key-Value).
- Esto desacopla la ingesta continua de video (percepción) de la decodificación autoregresiva de texto (generación). El modelo puede seguir "viendo" (ingestando segmentos) mientras "piensa" (generando respuestas), eliminando el cuello de botella de serialización.
Estrategia de Entrenamiento de Tres Etapas:
1. Etapa 1 (CoT de un solo turno): Enseña al modelo a escribir notas de memoria y responder preguntas basadas en el prefijo observado.
2. Etapa 2 (CoT Multi-turno): Entrena la consistencia en diálogos largos, forzando al modelo a reutilizar notas de memoria anteriores sin acceder a futuros segmentos.
3. Etapa 3 (Capacidad de Largo Alcance): Se entrena con videos largos de YouTube (tutoriales, conferencias) para mejorar la retención de evidencia a largo plazo, el manejo de la incertidumbre (posponer respuestas si la evidencia es insuficiente) y la robustez ante distractores visuales.

3. Contribuciones Clave

Marco "Think While Watching": Un enfoque novedoso que mantiene un estado de memoria persistente a nivel de segmento, permitiendo recuperar información histórica de manera implícita y desacoplando la percepción de la generación.
Dataset de CoT en Streaming: Construcción de un dataset sintético de tres etapas con diálogos multi-turno y anotaciones de razonamiento (Chain-of-Thought) alineadas con la causalidad estricta del streaming, algo que antes era escaso.
Pipeline de Inferencia Eficiente: Implementación de un pipeline con doble caché KV y enmascaramiento causal adaptativo que reduce la latencia y permite el procesamiento paralelo.
Rendimiento Superior: Validación experimental que demuestra mejoras significativas en precisión y eficiencia en comparación con los enfoques intercalados y modelos offline.

4. Resultados Experimentales

Los experimentos se realizaron sobre la familia de modelos Qwen3-VL (2B, 4B, 8B) utilizando los benchmarks StreamingBench y OVO-Bench.

Precisión en Streaming (Single-Round):
- En StreamingBench, el método mejoró la precisión en un 2.6% (con Qwen3-VL-4B) respecto al modelo Thinking base.
- En OVO-Bench, la mejora fue del 3.79%.
- Se observó que los modelos sin entrenamiento alineado al streaming colapsan en escenarios online (caída de ~40% de precisión), mientras que Think While Watching mantiene y mejora el rendimiento.
Eficiencia en Multi-Turno:
- En el protocolo de múltiples rondas, el método mantiene un rendimiento competitivo (e incluso superior en algunos casos) mientras reduce el número de tokens de salida en un 56%. Esto se debe a que las notas de memoria compactas evitan la necesidad de repetir información visual en cada respuesta.
Análisis de Latencia:
- El tiempo hasta el primer token (TTFT) se redujo drásticamente (92.6% menos que el enfoque por lotes) al eliminar el bloqueo de la ingesta de video durante la generación.
- El análisis teórico muestra que el método evita la "explosión de retraso" (backlog) que ocurre en los sistemas intercalados cuando la tasa de llegada de video se acerca a la tasa de procesamiento.
Generalización Offline:
- Curiosamente, el entrenamiento en streaming también mejoró el rendimiento en tareas de video offline (benchmarks Video-MME y LV-Bench), sugiriendo que la capacidad de razonamiento temporal a largo plazo aprendida se transfiere eficazmente.

5. Significado e Impacto

Este trabajo representa un avance fundamental hacia la interacción multimodal en tiempo real.

Superación de Limitaciones Actuales: Resuelve el dilema fundamental de los MLLMs actuales: la incapacidad de mantener la coherencia en conversaciones largas sobre video en vivo sin sacrificar la velocidad.
Escalabilidad: Al desacoplar la percepción de la generación, el sistema es escalable para flujos de video infinitos, lo cual es crucial para aplicaciones como asistentes robóticos, análisis de seguridad en vivo y asistentes de transmisión.
Nueva Paradigma de Memoria: Introduce la idea de que la "memoria" en MLLMs no debe ser solo un contexto de ventana deslizante, sino un estado explícito y persistente que se actualiza y consulta activamente, similar a cómo los humanos toman notas mentales mientras observan un evento.

En resumen, Think While Watching establece un nuevo estándar para el razonamiento de video en streaming, logrando un equilibrio óptimo entre precisión a largo plazo, consistencia multi-turno y latencia ultrabaja.