Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

Gepubliceerd 2026-03-13

📖 4 min leestijd☕ Koffiepauze-leesvoer

Bekijk op arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een live televisiepresentator bent die een lang, spannend verhaal vertelt, terwijl de camera continu beelden uit een onbekende wereld naar je stroomt.

De meeste slimme computers (AI's) die we vandaag de dag hebben, zijn als filmcritici. Ze kunnen pas een oordeel vellen als de hele film klaar is. Ze kijken naar het einde, kijken terug naar het begin, en zeggen dan: "Ah, nu snap ik het!" Maar wat als je live op tv zit? Wat als de kijker halverwege de film vraagt: "Wie was die man in de rode jas die net langsliep?" En de computer moet dan direct antwoorden, terwijl de film nog doorgaat?

Tot nu toe faalden computers hierin. Ze vergeten wie ze net zagen, of ze blokkeren de film omdat ze eerst moeten nadenken.

Dit paper introduceert een nieuwe manier van werken genaamd "Think While Watching" (Denk terwijl je kijkt). Hier is hoe het werkt, vertaald naar alledaagse taal:

1. Het Probleem: De "Vergetelheid" en de "File"

Stel je een oude, trage assistent voor die twee dingen tegelijk moet doen: kijken en praten.

Het probleem van het vergeten: Als de assistent praat, stopt hij met kijken. Als hij weer gaat kijken, is de vorige scène al uit zijn hoofd verdwenen. Dit noemen de auteurs "Memory Erosion" (Erosie van het geheugen). Na tien vragen weet hij niet meer wie de eerste persoon was.
Het probleem van de file: Omdat hij niet tegelijk kan kijken en praten, moet hij wachten tot hij klaar is met praten voordat hij de volgende beelden kan opnemen. Dit zorgt voor een enorme vertraging, alsof je in een file staat terwijl je toch snel wilt komen.

2. De Oplossing: Een Slimme Notitieblok

De nieuwe methode, Think While Watching, lost dit op met een heel simpel idee: Schrijf een samenvatting op, terwijl je kijkt.

In plaats van dat de computer alles in zijn hoofd probeert te houden, doet hij het volgende:

Deel het verhaal op: De video wordt opgedeeld in kleine stukjes (bijvoorbeeld elke 10 seconden).
Het Notitieblok (Memory): Na elk stukje video schrijft de computer een korte, slimme notitie op een digitaal notitieblok. "Oké, in dit stukje zag ik een goochelaar in een zwart jasje die een kaarttrick deed."
Tegelijkertijd: Terwijl hij die notitie schrijft, kijkt hij al naar het volgende stukje video. Hij hoeft niet te wachten!

3. Hoe werkt het antwoord geven?

Als een kijker nu vraagt: "Wie deed die truc?", hoeft de computer niet de hele video opnieuw te bekijken. Hij pakt gewoon zijn notitieblok erbij.

Hij leest: "Ah, in notitie 1 staat: 'Goochelaar in zwart jasje'."
Hij geeft het antwoord: "De goochelaar."
Terwijl hij dit antwoord geeft, kijkt hij alweer naar het volgende stukje video en schrijft de volgende notitie.

Dit is als een journalist die tijdens een live sportwedstrijd aantekeningen maakt. Als de trainer later vraagt: "Wie scoorde er in de eerste helft?", hoeft de journalist niet de hele wedstrijd opnieuw te bekijken. Hij kijkt gewoon in zijn notitieblok.

4. De "Magische" Techniek (Voor de liefhebbers)

Om dit technisch mogelijk te maken, gebruiken de onderzoekers twee slimme trucjes:

Onafhankelijke klokken: Normaal gesproken moeten de "kijk-uren" en de "schrijf-uren" perfect op elkaar afgestemd zijn. Hier krijgen ze elk hun eigen klok. De computer kan dus "kijken" (invoeren) terwijl hij "schrijft" (antwoorden), zonder dat ze elkaar blokkeren.
Een slim masker: De computer krijgt een regel: "Je mag alleen kijken naar wat je al hebt gezien en wat je al hebt geschreven." Hij mag nooit naar de toekomst kijken. Dit zorgt ervoor dat hij eerlijk blijft en niet "cheat" door het einde van de video te zien.

5. Waarom is dit geweldig?

De onderzoekers hebben dit getest op verschillende benchmarks (proefjes) en het resultaat is indrukwekkend:

Minder vergeten: De computer vergeet bijna niets meer, zelfs niet na tientallen vragen.
Sneller: Omdat hij niet hoeft te wachten, is de reactietijd veel korter.
Efficiënter: Hij gebruikt minder rekenkracht en schrijft kortere, krachtigere antwoorden.

Kortom:
Vroeger was een video-AI als een filmcriticus die pas na de film kon oordelen. Met "Think While Watching" is het een live verslaggever die een notitieblok bijhoudt, terwijl hij de gebeurtenissen live volgt. Hij kan tegelijkertijd kijken, denken en praten, zonder ooit iets te vergeten.

Each language version is independently generated for its own context, not a direct translation.

1. Het Probleem

Multimodale Large Language Models (MLLMs) presteren uitstekend in offline videobegrip, waar het volledige video-bestand beschikbaar is voordat de inferentie begint. Echter, veel real-world scenario's (zoals live-uitzendingen, monitoring en robotica) vereisen online streaming, waarbij video continu binnenkomt en gebruikers op elk moment vragen kunnen stellen.

Bestaande aanpakken voor streaming MLLMs gebruiken vaak een verweven (interleaved) perceptie-generatie paradigma: het model kijkt naar een stukje video, genereert een antwoord, kijkt naar het volgende stukje, enzovoort. Dit leidt tot twee fundamentele problemen:

Memory Erosie (Geheugenerosie): Omdat het model afwisselend kijkt en genereert, verliest het langere-termijn afhankelijkheden. Vragen in latere rondes (multi-turn) die verwijzen naar eerdere visuele aanwijzingen, kunnen niet correct beantwoord worden omdat het model het eerdere geheugen "vergeet".
Serialisatiebottleneck: Zodra het model begint met het genereren van tekst (decoderen), moet het stoppen met het binnenhalen van nieuwe video-frames. Dit veroorzaakt wachtrijen en verhoogt de latentie, wat real-time responsiviteit ondermijnt.

2. Methodologie: "Think While Watching"

De auteurs stellen Think While Watching (TWW) voor, een framework dat geheugen en perceptie ontkoppelt om gelijktijdig te kunnen "kijken" (video verwerken) en "denken" (antwoorden genereren).

Kerncomponenten:

Segment-Level Memory Notes:
In plaats van de volledige video of ruwe tokens te onthouden, schrijft het model voor elk binnenkomend videosegment ( $S_t$ ) een compacte geheugennotitie ( $m_t$ ). Deze notities worden opgeslagen in een persistente geheugenbank.
- Functie: Ze bevatten samengevatte bewijzen (entiteiten, attributen, acties, scène-veranderingen).
- Gebruik: Bij een vraag ( $q_r$ ) haalt het model impliciet de relevante notities op via de attention-mechanisme om het antwoord te vormen, zonder de volledige video opnieuw te hoeven verwerken.
Ontkoppeling van Perceptie en Generatie:
Het framework gebruikt een dubbele KV-cache (Key-Value cache) architectuur.
- De invoerstream (video) en de uitvoerstream (tekst) hebben onafhankelijke posities.
- Dit maakt Input-Output Parallelism mogelijk: het model kan doorgaan met het verwerken van nieuwe videosegmenten terwijl het tegelijkertijd een antwoord genereert voor een eerdere vraag. Dit elimineert de serialisatiebottleneck.
Streaming Causal Mask & Positional Encoding:
Om strikte causaliteit te garanderen (geen toegang tot toekomstige frames), gebruiken ze:
- Een segment-level streaming causal mask: Een generated unit kan alleen kijken naar ontvangen units die al zijn binnengekomen.
- Streaming MRoPE (Multimodal Rotary Positional Embeddings): De invoer en uitvoer krijgen onafhankelijke posities. De invoer telt op basis van de binnenkomst, terwijl de uitvoer onafhankelijk start bij 0. Dit voorkomt dat de lengte van het antwoord de positie van nieuwe invoer blokkeert.

Trainingsstrategie (Drie Stadia):

Om het model te trainen voor deze complexe taak, hebben de auteurs een drie-stadia Chain-of-Thought (CoT) dataset geconstrueerd:

Stadium 1 (Single-round CoT): Leren om segment-gebaseerde geheugennotities te schrijven en vragen op basis van één video-prefix te beantwoorden.
Stadium 2 (Multi-round CoT): Trainen voor multi-turn dialogen, waarbij latere antwoorden afhankelijk zijn van eerdere geheugennotities zonder naar de toekomst te "kijken".
Stadium 3 (Long-range Capability): Trainen op lange video's (uit YouTube) met taken zoals het onthouden van bewijs uit het verleden, het omgaan met onzekerheid (uitstel van antwoord), en het negeren van afleidende segmenten (distractors).

3. Belangrijkste Bijdragen

Think While Watching Framework: Een nieuw paradigma dat segment-level geheugen als een persistente staat behoudt, waardoor multi-turn consistentie wordt verbeterd en perceptie/generatie ontkoppeld kunnen worden.
Geavanceerde Infrastructuur: Implementatie van een dubbele KV-cache en streaming causal masking voor echte real-time parallelle verwerking.
Dataset: Constructie van een unieke, drie-stadia streaming CoT-dataset met multi-turn dialogen, specifiek ontworpen om causaliteit en langdurig geheugen te trainen.
Efficiëntie en Kwaliteit: Het bereiken van een sterke afweging tussen nauwkeurigheid en efficiëntie, met name door het reduceren van het aantal gegenereerde tokens zonder in te leveren op prestaties.

4. Resultaten

De methode is geëvalueerd op StreamingBench en OVO-Bench met de Qwen3-VL familie van modellen (2B, 4B, 8B parameters).

Nauwkeurigheid (Single-round):
- Verbetering van +2.6% op StreamingBench en +3.79% op OVO-Bench ten opzichte van de beste "Thinking" baseline (Qwen3-VL-4B).
- Dit toont aan dat streaming-aligned training cruciaal is; naaieve streaming zonder specifieke training stort in (daling van ~40% in nauwkeurigheid).
Multi-turn Prestaties:
- In multi-turn scenario's behoudt TWW de nauwkeurigheid terwijl het het aantal gegenereerde tokens met 56% reduceert.
- Dit komt doordat het model niet de volledige context hoeft te herhalen, maar verwijst naar de compacte geheugennotities.
Latentie:
- De Time-To-First-Token (TTFT) is drastisch verlaagd (met ~92% vergeleken met batch-verwerking) omdat het model niet hoeft te wachten tot de volledige video is verwerkt voordat het begint met antwoorden.
- Het vermijdt de "backlog-explosie" die optreedt bij verweven systemen wanneer de invoersnelheid de verwerkingssnelheid nadert.
Generalisatie:
- De methode verbetert ook de prestaties op offline benchmarks (Video-MME, LV-Bench), wat aantoont dat de vaardigheden voor langdurig streaming-reasoning overdraagbaar zijn naar traditionele taken.

5. Betekenis en Impact

Dit paper is significant omdat het een van de eerste werkende oplossingen biedt voor echt real-time, multi-turn videobegrip met MLLMs.

Oplossing voor een fundamenteel probleem: Het doorbreekt de trade-off tussen causaliteit (niet naar de toekomst kijken) en responsiviteit (niet wachten op volledige verwerking).
Schaalbaarheid: Door het gebruik van segment-level geheugen en ontkoppelde inferentie, wordt het mogelijk om onbeperkte videostreams te verwerken zonder dat de contextlimieten van het model worden overschreden of de latentie onbeheersbaar wordt.
Toekomstige Toepassingen: Het maakt geavanceerde interactieve assistenten mogelijk voor live-uitzendingen, robotica en monitoring, waar het systeem continu moet "leren" en reageren terwijl de video doorgaat.

Kortom, "Think While Watching" transformeert videobegrip van een statische, offline taak naar een dynamisch, continu proces waarbij het model effectief "denkt terwijl het kijkt".

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

1. Het Probleem: De "Vergetelheid" en de "File"

2. De Oplossing: Een Slimme Notitieblok

3. Hoe werkt het antwoord geven?

4. De "Magische" Techniek (Voor de liefhebbers)

5. Waarom is dit geweldig?

1. Het Probleem

2. Methodologie: "Think While Watching"

Kerncomponenten:

Trainingsstrategie (Drie Stadia):

3. Belangrijkste Bijdragen

4. Resultaten

5. Betekenis en Impact

Meer zoals dit

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks