Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

O artigo apresenta o "Think While Watching", um framework de raciocínio em vídeo para modelos multimodais que, ao preservar memória contínua em nível de segmento e permitir a percepção e geração simultâneas, supera as limitações de métodos de streaming existentes e alcança desempenho superior em benchmarks de interação multi-turno.

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

Publicado 2026-03-13
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está assistindo a um filme ao vivo, sem poder pular para frente ou voltar. De repente, alguém no cinema grita: "Ei, o que aquele homem de casaco preto estava fazendo no início do filme?".

Se o seu cérebro (ou um modelo de IA tradicional) estivesse focado apenas no que está acontecendo agora, você provavelmente esqueceria o início do filme. Você teria que parar o filme, voltar 20 minutos, assistir de novo e só então responder. Isso é lento e quebra a imersão.

O artigo "Think While Watching" (Pense Enquanto Assiste) propõe uma nova maneira para as Inteligências Artificiais lidarem com vídeos que estão acontecendo em tempo real. Aqui está a explicação simples:

1. O Problema: O "Esquecimento" e o "Trânsito"

Atualmente, a maioria das IAs que assistem vídeos funciona de um jeito meio desajeitado:

  • Esquecimento (Erosão da Memória): Elas assistem um pouquinho, respondem uma pergunta, assistem mais um pouquinho e respondem outra. Com o tempo, elas esquecem o que viram no começo, como se a memória fosse uma esponja que vaza água.
  • Trânsito (Gargalo de Serialização): Elas funcionam como um carro em uma estrada de mão única. Para responder a uma pergunta, a IA tem que parar de assistir o vídeo. Ela só volta a assistir depois de terminar de falar. Se o vídeo é rápido e as perguntas são muitas, a IA fica atolada no trânsito, atrasando tudo.

2. A Solução: O "Diário de Bordo" (Think While Watching)

Os autores criaram um sistema chamado Think While Watching. A ideia é simples, mas genial:

Imagine que a IA é um detetive assistindo a um crime ao vivo.

  • O Método Antigo: O detetive olha para a cena, para, escreve um relatório, olha de novo, para, escreve outro relatório. Ele perde detalhes entre as pausas.
  • O Novo Método (Think While Watching): O detetive tem um Diário de Bordo (a memória).
    1. Enquanto o vídeo passa, ele não para. Ele apenas anota rapidamente no seu caderno: "Homem de casaco preto entrou", "Cachorro latiu", "Mágico fez um truque".
    2. Quando alguém faz uma pergunta ("O que o homem de casaco preto fez?"), ele não precisa parar o vídeo. Ele apenas olha rapidamente para o seu caderno (a memória), encontra a anotação e responde.
    3. Enquanto ele responde, o vídeo continua passando e ele continua anotando coisas novas no caderno.

A mágica: O vídeo (assistir) e a resposta (pensar) acontecem ao mesmo tempo, como se fossem duas pessoas trabalhando em paralelo.

3. Como eles ensinaram isso? (O Treinamento em 3 Etapas)

Para ensinar a IA a fazer isso, eles criaram um "curso intensivo" com três fases:

  1. Aprendendo a Anotar: A IA aprende a ver um pedaço do vídeo e escrever um resumo curto e útil (uma "nota de memória") sobre o que aconteceu.
  2. Aprendendo a Conversar: A IA aprende a usar essas anotações para responder a várias perguntas seguidas, sem se perder.
  3. Aprendendo a Longo Prazo: A IA é treinada com vídeos muito longos e cheios de distrações (como cenas de filmes que não têm nada a ver com a história principal) para aprender a focar no que importa e não esquecer o início da história mesmo após horas de vídeo.

4. Os Resultados: Mais Rápido e Mais Preciso

Quando testaram esse sistema:

  • Precisão: A IA acertou muito mais perguntas sobre vídeos ao vivo do que os sistemas antigos. Ela não esquecia quem era o personagem principal depois de 10 minutos.
  • Velocidade: Como ela não precisa parar o vídeo para responder, a resposta chega muito mais rápido.
  • Eficiência: Eles conseguiram reduzir a quantidade de "texto" que a IA gera em mais da metade (56%) sem perder qualidade. É como se ela aprendesse a ser mais direta e inteligente, falando menos para dizer a mesma coisa.

Resumo em uma Frase

O Think While Watching é como dar à IA um caderno de anotações inteligente que ela preenche enquanto assiste ao vídeo, permitindo que ela responda perguntas em tempo real sem nunca precisar parar o filme ou esquecer o que aconteceu no início.

É a diferença entre um espectador que precisa parar o filme para consultar o roteiro e um detetive experiente que resolve o caso enquanto a ação acontece.