Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

Lu Wang (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Zhuoran Jin (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yupu Hao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yubo Chen (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Kang Liu (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China), Yulong Ao (Beijing Academy of Artificial Intelligence), Jun Zhao (The Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences, Beijing, China)

Publié 2026-03-13

📖 4 min de lecture☕ Lecture pause café

Voir sur arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Visionnage "En Mode Pause"

Imaginez que vous regardez un film en direct avec un ami très intelligent, mais un peu lent.

L'ancienne méthode (Interleaved) : Votre ami regarde 10 secondes du film, puis s'arrête net. Il réfléchit, répond à votre question, écrit sa réponse, et ensuite il reprend le film.
- Le problème : Pendant qu'il réfléchit et écrit, le film continue de tourner dans le lecteur. Votre ami rate des scènes ! De plus, s'il doit répondre à plusieurs questions de suite, il oublie ce qui s'est passé au début du film parce qu'il a trop de choses en tête. C'est comme essayer de retenir une conversation de 10 minutes tout en écrivant une lettre : on oublie le début.

C'est ce que font la plupart des intelligences artificielles actuelles avec les vidéos en direct : elles regardent, s'arrêtent pour répondre, puis regardent à nouveau. Cela crée des retards et des oublis.

💡 La Solution : "Think While Watching" (Penser en Regardant)

Les chercheurs proposent une nouvelle méthode où l'IA ne s'arrête jamais. Elle regarde le film en continu, tout en pensant et en répondant en même temps.

Pour y arriver, ils utilisent trois astuces magiques :

1. Le "Carnet de Notes" (La Mémoire par Segments)

Au lieu d'essayer de se souvenir de chaque seconde de la vidéo (ce qui est trop lourd), l'IA divise la vidéo en petits morceaux (des "segments").

L'analogie : Imaginez que vous regardez un documentaire. À la fin de chaque chapitre, vous écrivez une fiche de résumé sur un post-it.
- Post-it 1 : "Le magicien porte un manteau noir."
- Post-it 2 : "Le juge a applaudi."
Quand on lui pose une question sur le début du film, elle ne relit pas tout le film. Elle va chercher les post-its pertinents dans son carnet. Cela lui permet de se souvenir de ce qui s'est passé il y a 10 minutes sans être submergée.

2. Le "Double Canal" (Regarder et Écrire en Parallèle)

Dans l'ancienne méthode, l'IA utilisait un seul cerveau pour regarder et écrire. C'était comme essayer de conduire une voiture tout en écrivant un roman : impossible de faire les deux en même temps sans accident.

La nouvelle méthode : Ils ont créé un système à deux canaux.
- Le Canal A (les yeux) continue de regarder la vidéo en temps réel, sans jamais s'arrêter.
- Le Canal B (la bouche) écrit la réponse à la question.
L'analogie : C'est comme un chef de cuisine qui continue de surveiller les plats qui cuisent (le canal A) tout en servant les clients à la table (le canal B). Il ne rate rien de la cuisson pendant qu'il sert.

3. Le "Chronomètre Intelligent" (La Causalité)

Pour que l'IA ne triche pas (en utilisant des informations du futur pour répondre à une question du présent), ils ont mis en place un système de "masque".

L'analogie : C'est comme un jeu de cartes où vous ne pouvez voir que les cartes déjà posées sur la table. Vous ne pouvez pas regarder les cartes qui sont encore dans le paquet. Cela force l'IA à être honnête et à répondre uniquement avec ce qu'elle a vu jusqu'à présent.

🏆 Les Résultats : Pourquoi c'est génial ?

Les chercheurs ont testé cette méthode sur des vidéos réelles (comme des émissions de télé-réalité ou des tutoriels).

Moins d'oubli : L'IA se souvient beaucoup mieux du début de la vidéo, même après 10 minutes de discussion.
Plus rapide : Comme elle ne s'arrête plus pour regarder, elle répond beaucoup plus vite.
Plus économe : Elle utilise moins de "mots" pour expliquer les choses car elle s'appuie sur ses notes (les post-its) plutôt que de tout réexpliquer.

🚀 En Résumé

Imaginez un assistant personnel qui regarde un match de football en direct avec vous.

Avant : Il regardait 5 minutes, s'arrêtait pour dire "Oh, il a marqué !", puis reprenait le match. Vous aviez raté les 2 minutes suivantes.
Aujourd'hui (Think While Watching) : Il regarde le match en continu, note mentalement les buts sur un petit carnet, et vous chuchote les commentaires en temps réel sans jamais perdre une seconde du spectacle.

C'est une avancée majeure pour rendre les intelligences artificielles capables de vivre des expériences en temps réel avec nous, comme nous le faisons nous-mêmes.

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

🎬 Le Problème : Le Visionnage "En Mode Pause"

💡 La Solution : "Think While Watching" (Penser en Regardant)

1. Le "Carnet de Notes" (La Mémoire par Segments)

2. Le "Double Canal" (Regarder et Écrire en Parallèle)

3. Le "Chronomètre Intelligent" (La Causalité)

🏆 Les Résultats : Pourquoi c'est génial ?

🚀 En Résumé

1. Problématique et Contexte

2. Méthodologie : "Think While Watching"

A. Architecture et Mémoire de Niveau Segment

B. Découplage Perception-Génération

C. Stratégie d'Entraînement et de Données

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Think While Watching: Online Streaming Segment-Level Memory for Multi-Turn Video Reasoning in Multimodal Large Language Models

🎬 Le Problème : Le Visionnage "En Mode Pause"

💡 La Solution : "Think While Watching" (Penser en Regardant)

1. Le "Carnet de Notes" (La Mémoire par Segments)

2. Le "Double Canal" (Regarder et Écrire en Parallèle)

3. Le "Chronomètre Intelligent" (La Causalité)

🏆 Les Résultats : Pourquoi c'est génial ?

🚀 En Résumé

1. Problématique et Contexte

2. Méthodologie : "Think While Watching"

A. Architecture et Mémoire de Niveau Segment

B. Découplage Perception-Génération

C. Stratégie d'Entraînement et de Données

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

OraPO: Oracle-educated Reinforcement Learning for Data-efficient and Factual Radiology Report Generation

Stop Before You Fail: Operational Capability Boundaries for Mitigating Unproductive Reasoning in Large Reasoning Models

Seeing Straight: Document Orientation Detection for Efficient OCR

On the Existence and Behavior of Secondary Attention Sinks