Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Dit paper introduceert 'Think While Watching', een innovatief framework dat multimodale grote taalmodellen in staat stelt om tijdens het streamen van video's continue segmentgeheugen te behouden en gelijktijdig te waarnemen en redeneren, waardoor de prestaties bij meervoudige interacties aanzienlijk worden verbeterd en de output efficiënter wordt.

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

Gepubliceerd 2026-03-13
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een live televisiepresentator bent die een lang, spannend verhaal vertelt, terwijl de camera continu beelden uit een onbekende wereld naar je stroomt.

De meeste slimme computers (AI's) die we vandaag de dag hebben, zijn als filmcritici. Ze kunnen pas een oordeel vellen als de hele film klaar is. Ze kijken naar het einde, kijken terug naar het begin, en zeggen dan: "Ah, nu snap ik het!" Maar wat als je live op tv zit? Wat als de kijker halverwege de film vraagt: "Wie was die man in de rode jas die net langsliep?" En de computer moet dan direct antwoorden, terwijl de film nog doorgaat?

Tot nu toe faalden computers hierin. Ze vergeten wie ze net zagen, of ze blokkeren de film omdat ze eerst moeten nadenken.

Dit paper introduceert een nieuwe manier van werken genaamd "Think While Watching" (Denk terwijl je kijkt). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vergetelheid" en de "File"

Stel je een oude, trage assistent voor die twee dingen tegelijk moet doen: kijken en praten.

  • Het probleem van het vergeten: Als de assistent praat, stopt hij met kijken. Als hij weer gaat kijken, is de vorige scène al uit zijn hoofd verdwenen. Dit noemen de auteurs "Memory Erosion" (Erosie van het geheugen). Na tien vragen weet hij niet meer wie de eerste persoon was.
  • Het probleem van de file: Omdat hij niet tegelijk kan kijken en praten, moet hij wachten tot hij klaar is met praten voordat hij de volgende beelden kan opnemen. Dit zorgt voor een enorme vertraging, alsof je in een file staat terwijl je toch snel wilt komen.

2. De Oplossing: Een Slimme Notitieblok

De nieuwe methode, Think While Watching, lost dit op met een heel simpel idee: Schrijf een samenvatting op, terwijl je kijkt.

In plaats van dat de computer alles in zijn hoofd probeert te houden, doet hij het volgende:

  1. Deel het verhaal op: De video wordt opgedeeld in kleine stukjes (bijvoorbeeld elke 10 seconden).
  2. Het Notitieblok (Memory): Na elk stukje video schrijft de computer een korte, slimme notitie op een digitaal notitieblok. "Oké, in dit stukje zag ik een goochelaar in een zwart jasje die een kaarttrick deed."
  3. Tegelijkertijd: Terwijl hij die notitie schrijft, kijkt hij al naar het volgende stukje video. Hij hoeft niet te wachten!

3. Hoe werkt het antwoord geven?

Als een kijker nu vraagt: "Wie deed die truc?", hoeft de computer niet de hele video opnieuw te bekijken. Hij pakt gewoon zijn notitieblok erbij.

  • Hij leest: "Ah, in notitie 1 staat: 'Goochelaar in zwart jasje'."
  • Hij geeft het antwoord: "De goochelaar."
  • Terwijl hij dit antwoord geeft, kijkt hij alweer naar het volgende stukje video en schrijft de volgende notitie.

Dit is als een journalist die tijdens een live sportwedstrijd aantekeningen maakt. Als de trainer later vraagt: "Wie scoorde er in de eerste helft?", hoeft de journalist niet de hele wedstrijd opnieuw te bekijken. Hij kijkt gewoon in zijn notitieblok.

4. De "Magische" Techniek (Voor de liefhebbers)

Om dit technisch mogelijk te maken, gebruiken de onderzoekers twee slimme trucjes:

  • Onafhankelijke klokken: Normaal gesproken moeten de "kijk-uren" en de "schrijf-uren" perfect op elkaar afgestemd zijn. Hier krijgen ze elk hun eigen klok. De computer kan dus "kijken" (invoeren) terwijl hij "schrijft" (antwoorden), zonder dat ze elkaar blokkeren.
  • Een slim masker: De computer krijgt een regel: "Je mag alleen kijken naar wat je al hebt gezien en wat je al hebt geschreven." Hij mag nooit naar de toekomst kijken. Dit zorgt ervoor dat hij eerlijk blijft en niet "cheat" door het einde van de video te zien.

5. Waarom is dit geweldig?

De onderzoekers hebben dit getest op verschillende benchmarks (proefjes) en het resultaat is indrukwekkend:

  • Minder vergeten: De computer vergeet bijna niets meer, zelfs niet na tientallen vragen.
  • Sneller: Omdat hij niet hoeft te wachten, is de reactietijd veel korter.
  • Efficiënter: Hij gebruikt minder rekenkracht en schrijft kortere, krachtigere antwoorden.

Kortom:
Vroeger was een video-AI als een filmcriticus die pas na de film kon oordelen. Met "Think While Watching" is het een live verslaggever die een notitieblok bijhoudt, terwijl hij de gebeurtenissen live volgt. Hij kan tegelijkertijd kijken, denken en praten, zonder ooit iets te vergeten.