Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

Publicado 2026-03-13

📖 4 min de leitura☕ Leitura rápida

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme ao vivo, sem poder pular para frente ou voltar. De repente, alguém no cinema grita: "Ei, o que aquele homem de casaco preto estava fazendo no início do filme?".

Se o seu cérebro (ou um modelo de IA tradicional) estivesse focado apenas no que está acontecendo agora, você provavelmente esqueceria o início do filme. Você teria que parar o filme, voltar 20 minutos, assistir de novo e só então responder. Isso é lento e quebra a imersão.

O artigo "Think While Watching" (Pense Enquanto Assiste) propõe uma nova maneira para as Inteligências Artificiais lidarem com vídeos que estão acontecendo em tempo real. Aqui está a explicação simples:

1. O Problema: O "Esquecimento" e o "Trânsito"

Atualmente, a maioria das IAs que assistem vídeos funciona de um jeito meio desajeitado:

Esquecimento (Erosão da Memória): Elas assistem um pouquinho, respondem uma pergunta, assistem mais um pouquinho e respondem outra. Com o tempo, elas esquecem o que viram no começo, como se a memória fosse uma esponja que vaza água.
Trânsito (Gargalo de Serialização): Elas funcionam como um carro em uma estrada de mão única. Para responder a uma pergunta, a IA tem que parar de assistir o vídeo. Ela só volta a assistir depois de terminar de falar. Se o vídeo é rápido e as perguntas são muitas, a IA fica atolada no trânsito, atrasando tudo.

2. A Solução: O "Diário de Bordo" (Think While Watching)

Os autores criaram um sistema chamado Think While Watching. A ideia é simples, mas genial:

Imagine que a IA é um detetive assistindo a um crime ao vivo.

O Método Antigo: O detetive olha para a cena, para, escreve um relatório, olha de novo, para, escreve outro relatório. Ele perde detalhes entre as pausas.
O Novo Método (Think While Watching): O detetive tem um Diário de Bordo (a memória).
1. Enquanto o vídeo passa, ele não para. Ele apenas anota rapidamente no seu caderno: "Homem de casaco preto entrou", "Cachorro latiu", "Mágico fez um truque".
2. Quando alguém faz uma pergunta ("O que o homem de casaco preto fez?"), ele não precisa parar o vídeo. Ele apenas olha rapidamente para o seu caderno (a memória), encontra a anotação e responde.
3. Enquanto ele responde, o vídeo continua passando e ele continua anotando coisas novas no caderno.

A mágica: O vídeo (assistir) e a resposta (pensar) acontecem ao mesmo tempo, como se fossem duas pessoas trabalhando em paralelo.

3. Como eles ensinaram isso? (O Treinamento em 3 Etapas)

Para ensinar a IA a fazer isso, eles criaram um "curso intensivo" com três fases:

Aprendendo a Anotar: A IA aprende a ver um pedaço do vídeo e escrever um resumo curto e útil (uma "nota de memória") sobre o que aconteceu.
Aprendendo a Conversar: A IA aprende a usar essas anotações para responder a várias perguntas seguidas, sem se perder.
Aprendendo a Longo Prazo: A IA é treinada com vídeos muito longos e cheios de distrações (como cenas de filmes que não têm nada a ver com a história principal) para aprender a focar no que importa e não esquecer o início da história mesmo após horas de vídeo.

4. Os Resultados: Mais Rápido e Mais Preciso

Quando testaram esse sistema:

Precisão: A IA acertou muito mais perguntas sobre vídeos ao vivo do que os sistemas antigos. Ela não esquecia quem era o personagem principal depois de 10 minutos.
Velocidade: Como ela não precisa parar o vídeo para responder, a resposta chega muito mais rápido.
Eficiência: Eles conseguiram reduzir a quantidade de "texto" que a IA gera em mais da metade (56%) sem perder qualidade. É como se ela aprendesse a ser mais direta e inteligente, falando menos para dizer a mesma coisa.

Resumo em uma Frase

O Think While Watching é como dar à IA um caderno de anotações inteligente que ela preenche enquanto assiste ao vídeo, permitindo que ela responda perguntas em tempo real sem nunca precisar parar o filme ou esquecer o que aconteceu no início.

É a diferença entre um espectador que precisa parar o filme para consultar o roteiro e um detetive experiente que resolve o caso enquanto a ação acontece.

Each language version is independently generated for its own context, not a direct translation.

1. O Problema

Os Modelos de Linguagem Multimodal (MLLMs) atuais demonstram desempenho robusto em tarefas de compreensão de vídeo offline, onde o vídeo completo está disponível antes da inferência. No entanto, eles enfrentam desafios significativos em cenários de streaming online e interação multi-turno (onde o usuário faz perguntas em tempo real enquanto o vídeo continua a chegar).

O artigo identifica duas limitações principais nas abordagens existentes de streaming (que geralmente alternam entre percepção e geração):

Erosão da Memória (Memory Erosion): Em interações multi-turno, perguntas subsequentes frequentemente referenciam eventos ou pistas visuais do início do vídeo. A alternância entre geração de texto e ingestão de vídeo faz com que o modelo "esqueça" informações de longo prazo, degradando a consistência temporal.
Gargalo de Serialização (Serialization Bottleneck): Nas abordagens interleaved (entrelaçadas), o processo de decodificação de texto bloqueia a ingestão de novos quadros de vídeo. Isso impede o processamento paralelo, aumentando a latência e criando um atraso cumulativo à medida que o vídeo avança.

2. Metodologia: Think While Watching (TWW)

O authors propõem o Think While Watching, um framework de raciocínio de vídeo ancorado em memória que permite ao modelo "assistir" e "pensar" simultaneamente, mantendo um estado persistente.

Principais Componentes Técnicos:

Memória de Nível de Segmento (Segment-Level Memory):
- O vídeo é tratado como uma sequência de segmentos ( $S_1, S_2, ...$ ).
- Para cada segmento observado, o modelo escreve explicitamente uma nota de memória compacta ( $m_t$ ) contendo evidências reutilizáveis (entidades, ações, mudanças de cena).
- Essas notas são acumuladas em um banco de memória persistente ( $M_t$ ). Quando uma pergunta chega, o modelo responde integrando implicitamente as notas relevantes via mecanismo de atenção, em vez de depender apenas do contexto imediato.
Arquitetura e Causalidade Streaming:
- Máscara de Causalidade de Nível de Segmento: Uma máscara de atenção estrita é aplicada para garantir que o modelo só possa acessar segmentos e notas de memória que já foram observados, prevenindo vazamento de informações futuras.
- Codificação Posicional Streaming (Streaming MRoPE): Para permitir o paralelismo entre entrada e saída, o método desacopla as codificações posicionais. A entrada (vídeo) segue um deslocamento cumulativo, enquanto a saída (texto) reinicia sua contagem de posição independentemente. Isso permite que o modelo continue recebendo novos segmentos de vídeo enquanto gera a resposta para uma pergunta anterior.
Pipeline de Inferência Eficiente:
- Utiliza um cache KV duplo (Dual KV Cache) para desacoplar a ingestão contínua de fontes da decodificação autoregressiva.
- Implementa um backend de atenção adaptativo: usa Flash Attention quando o padrão é causal padrão e alterna para atenção eficiente em memória quando a máscara de streaming personalizada é necessária, mantendo a velocidade sem sacrificar a causalidade.

Estratégia de Treinamento (Dataset CoT de 3 Estágios):

Os autores construíram um dataset de Cadeia de Pensamento (CoT) específico para streaming com três estágios de treinamento:

Estágio 1 (Single-round CoT): Adaptação à entrada streaming e escrita de notas de memória para perguntas únicas.
Estágio 2 (Multi-round CoT): Treinamento para consistência em diálogos multi-turno, onde respostas futuras devem depender de notas de memória anteriores.
Estágio 3 (Long-range Capability): Focado em vídeos longos (YouTube), ensinando o modelo a:
- Recuperar evidências de longo prazo.
- Lidar com incerteza (adiar a resposta se a evidência não estiver clara).
- Resistir a segmentos distratores (informações irrelevantes).

3. Contribuições Chave

Framework TWW: Uma nova arquitetura que mantém a memória de nível de segmento como um estado persistente, permitindo a recuperação implícita de informações e a desacoplagem entre percepção e geração.
Dataset e Estratégia de Treinamento: Criação de um dataset CoT streaming de três estágios com máscaras causais e codificação posicional específica, preenchendo a lacuna de dados para raciocínio de vídeo online multi-turno.
Pipeline de Inferência: Uma implementação prática com cache KV duplo e atenção adaptativa que reduz significativamente a latência e permite o processamento em tempo real.

4. Resultados Experimentais

O método foi avaliado nos benchmarks StreamingBench e OVO-Bench, utilizando o modelo base Qwen3-VL (2B, 4B e 8B).

Precisão em Streaming Único (Single-round):
- Melhoria de 2.6% no StreamingBench e 3.79% no OVO-Bench em comparação com o baseline Thinking do Qwen3-VL-4B.
Protocolo Multi-turno:
- O modelo manteve a precisão competitiva enquanto reduziu o número de tokens de saída em 56% em comparação com o baseline, demonstrando eficiência superior.
- Em cenários offline (Video-MME e LV-Bench), o treinamento streaming também transferiu benefícios, melhorando a precisão em vídeos longos.
Latência (TTFT - Time to First Token):
- Redução drástica de 92.6% no tempo para o primeiro token em comparação com o processamento em lote (batch), mantendo precisão comparável.
- A abordagem evita o "backlog" de ingestão que ocorre em métodos interleaved, onde a geração de texto para a ingestão de vídeo.

5. Significado e Impacto

O trabalho "Think While Watching" representa um avanço significativo na viabilidade de assistentes multimodais em tempo real. Ao resolver o problema da erosão de memória e do gargalo de serialização, o método permite que MLLMs interajam de forma fluida e consistente com fluxos de vídeo contínuos (como transmissões ao vivo, monitoramento e robótica).

A introdução de memória explícita de nível de segmento e a desacoplagem de entrada/saída oferecem um novo paradigma para o raciocínio temporal em vídeos longos, superando as limitações das abordagens atuais que tratam o vídeo como um bloco estático ou que sofrem com a latência acumulada. O código e os dados estão disponíveis publicamente, facilitando a reprodução e o avanço futuro na área de vídeo streaming.

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

1. O Problema: O "Esquecimento" e o "Trânsito"

2. A Solução: O "Diário de Bordo" (Think While Watching)

3. Como eles ensinaram isso? (O Treinamento em 3 Etapas)

4. Os Resultados: Mais Rápido e Mais Preciso

Resumo em uma Frase

1. O Problema

2. Metodologia: Think While Watching (TWW)

Principais Componentes Técnicos:

Estratégia de Treinamento (Dataset CoT de 3 Estágios):

3. Contribuições Chave

4. Resultados Experimentais

5. Significado e Impacto

Mais como este

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks