Thinking in Streaming Video

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous regardez un film en direct, mais au lieu de simplement regarder passivement, vous devez réfléchir et répondre à des questions sur ce qui se passe, tout en continuant à regarder, sans jamais pouvoir faire marche arrière. C'est le défi que relève le papier de recherche que vous avez partagé, intitulé "Thinking in Streaming Video" (Penser en flux vidéo).

Voici une explication simple, avec des images mentales, pour comprendre comment fonctionne leur invention, ThinkStream.

1. Le Problème : Le "Cerveau" qui s'essouffle

Actuellement, la plupart des intelligences artificielles qui regardent des vidéos fonctionnent comme un étudiant qui lit tout un livre avant de répondre à une question.

L'approche actuelle (Paradigme par lots) : L'IA regarde toute la vidéo, la stocke dans sa mémoire, puis réfléchit.
Le problème : Si la vidéo est très longue (comme une journée entière de surveillance ou une conversation en direct), la mémoire de l'IA explose. Elle devient lente, coûteuse et ne peut pas répondre en temps réel. C'est comme essayer de retenir chaque mot d'une conversation de 10 heures sans jamais oublier un seul détail : c'est impossible pour un humain, et trop lourd pour un ordinateur.

2. La Solution : Le Paradigme "Regarder – Penser – Parler"

Les auteurs proposent une nouvelle façon de faire, qu'ils appellent ThinkStream. Imaginez un journaliste sur le terrain qui couvre un événement en direct.

Au lieu d'attendre la fin de l'événement pour écrire son article, il fait ceci à chaque instant :

Regarder (Watch) : Il observe une nouvelle scène qui arrive.
Penser (Think) : Il prend une note mentale rapide : "Ah, la personne en vert a pris un couteau. Elle semble préparer à manger."
Décider (Speak) : Il se demande : "Est-ce que j'ai assez d'infos pour répondre à la question du public ?"
- Si oui, il répond : "La personne prépare un repas."
- Si non, il reste silencieux et continue d'observer.

Ce cycle se répète en boucle. L'IA ne stocke pas tout le film, elle stocke seulement l'histoire qu'elle a comprise jusqu'à présent.

3. L'Innovation Clé : La "Mémoire Comprimée par la Réflexion"

C'est ici que ça devient fascinant. Comment faire pour ne pas saturer la mémoire de l'IA si la vidéo dure des heures ?

Imaginez que votre cerveau est une bibliothèque.

L'ancienne méthode : On empile tous les livres (les images vidéo) sur les étagères. À un moment, les étagères débordent et on ne peut plus rien ajouter.
La méthode ThinkStream (RCSM) : Au lieu de garder chaque page du livre (chaque image vidéo), l'IA écrit un résumé de ce qu'elle a vu.
- Dès qu'une vieille image devient inutile (par exemple, on a vu le visage de la personne, mais maintenant elle a tourné le dos), l'IA jette l'image brute.
- Mais elle garde le résumé ! Elle remplace l'image par une "note de pensée" (ex: "La personne était en train de cuisiner").
- Ces notes de pensée sont beaucoup plus petites et légères que les images, mais elles contiennent tout le sens nécessaire. C'est comme remplacer une bibliothèque entière par un seul carnet de notes bien rédigé.

4. L'Entraînement : Apprendre à ne pas parler trop tôt

Pour apprendre à l'IA à faire cela, les chercheurs ont utilisé une technique appelée Apprentissage par Renforcement (comme entraîner un chien avec des friandises).

Ils ont donné à l'IA des récompenses si elle :
1. Réfléchissait correctement (elle ne se trompait pas sur ce qu'elle voyait).
2. Répondait au bon moment (pas trop tôt, pas trop tard).
3. Respectait le format (dire "Je réfléchis..." avant de donner la réponse).

C'est comme si on entraînait un interprète simultané : on ne le félicite que s'il traduit exactement ce qui vient d'être dit, sans deviner le futur, et sans attendre la fin de la phrase pour commencer à parler.

5. Les Résultats : Rapide, Léger et Intelligent

Les tests montrent que ce système est incroyable :

Vitesse : Il répond en temps réel, même sur des vidéos très longues, alors que les autres systèmes deviennent lents comme un escargot.
Mémoire : Il utilise très peu de mémoire, car il ne garde que les "résumés" et jette les images inutiles.
Performance : Même avec un modèle de taille moyenne (3 milliards de paramètres), il bat des modèles beaucoup plus gros et plus lents.

En résumé

ThinkStream est comme un caméramen intelligent qui ne filme pas tout ce qui se passe pour le garder en mémoire, mais qui tient un journal de bord à jour. Il regarde, note l'essentiel, efface le superflu, et répond aux questions au moment précis où il a assez d'informations. Cela permet aux assistants virtuels de vivre avec nous en temps réel, sans jamais se fatiguer ni oublier le début de la conversation.

Each language version is independently generated for its own context, not a direct translation.

) qui intègre la nouvelle preuve au contexte accumulé. 3. **Speak (Parler) :** Le modèle décide, sur la base de son état de compréhension évolutif, soit de produire une réponse (), soit de rester silencieux (`) pour continuer à observer.
Ce processus permet une interaction proactive où le modèle détermine lui-même le moment opportun pour répondre.

B. Mémoire de Flux Compressée par Raisonnement (RCSM)

Pour résoudre le problème de la croissance infinie du contexte visuel, les auteurs introduisent la Reasoning-Compressed Streaming Memory (RCSM) :

Principe : Les traces de raisonnement intermédiaires (les tokens <think>) sont traitées comme une mémoire sémantique compacte.
Mécanisme : À mesure que le flux avance, les tokens visuels obsolètes (les plus anciens) sont expulsés du cache KV. Cependant, au lieu de perdre le contexte, les états de raisonnement correspondants sont conservés.
Avantage : Les traces de raisonnement agissent comme des "ancres sémantiques" qui résumment l'information visuelle passée. Cela permet de maintenir une longueur de contexte effective stable et une inférence en temps réel, même sur des vidéos très longues, sans sacrifier la cohérence historique.

C. Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR)

Pour entraîner le modèle à produire ce type de comportement, une approche Streaming Reinforcement Learning with Verifiable Rewards (RLVR) est utilisée :

Objectif : Aligner le raisonnement incrémental et le timing de la réponse avec les contraintes d'interaction en flux.
Fonction de Récompense : Elle est composée de trois éléments vérifiables automatiquement :
1. Précision ( $R_{acc}$ ) : La justesse de la réponse finale.
2. Format ( $R_{format}$ ) : Le respect strict du protocole structuré (utilisation des balises <think>, <silent>, <response>).
3. Temps ( $R_{time}$ ) : La pertinence temporelle de la réponse (pénalité pour les réponses trop précoces ou trop tardives par rapport à la vérité terrain).
Optimisation : Utilisation de l'algorithme GRPO (Group Relative Policy Optimization) pour optimiser la politique du modèle.

D. Infrastructure d'Inférence

Pour supporter l'inférence en flux à haut débit, les auteurs ont développé un backend personnalisé basé sur CUDA Graphs. Ce système gère dynamiquement l'éviction des tokens visuels et le préremplissage (prefill) des nouveaux tokens, permettant une boucle de streaming efficace "chunk par chunk" avec un déplacement de mémoire in-place.

3. Contributions Clés

Paradigme Watch–Think–Speak : Une nouvelle formulation de la compréhension vidéo en flux comme un processus de raisonnement et d'interaction incrémental.
Framework ThinkStream & RCSM : Une architecture capable de gérer des flux vidéo à long horizon en transformant les traces de raisonnement en mémoire compressée, remplaçant les tokens visuels évacués.
Méthode d'entraînement RLVR : Un schéma d'apprentissage par renforcement utilisant des récompenses automatiquement vérifiables pour synchroniser le raisonnement et le timing de réponse.
Dataset et Backend : Création d'un jeu de données à grande échelle avec des traces de raisonnement ancrées dans le temps et développement d'un moteur d'inférence optimisé pour le streaming.

4. Résultats Expérimentaux

Les expériences ont été menées sur plusieurs benchmarks de vidéo en flux (OVO-Bench, StreamingBench) et hors ligne (VideoMME, Long VideoBench).

Performance en Flux :
- ThinkStream-3B (un modèle de seulement 3 milliards de paramètres) surpasse significativement les modèles en flux existants (comme Streamo-3B, Dispider-7B) et même des modèles hors ligne beaucoup plus grands (Qwen2.5-VL-32B).
- Sur le benchmark StreamingBench Real-Time, ThinkStream-3B atteint 75.00, surpassant des modèles propriétaires comme GPT-4o (73.28) et Gemini 1.5 Pro (75.69).
Performance Hors Ligne :
- Malgré l'agressive éviction des tokens visuels, le modèle conserve des capacités de compréhension compétitives sur les tâches vidéo classiques, obtenant un score moyen de 59.4 (contre 54.4 pour la base Qwen2.5-VL-3B).
Efficacité et Latence :
- L'inférence personnalisée offre un gain de vitesse de 5x par rapport aux implémentations standard (30 tokens/s vs 154 tokens/s pour un batch de 1).
- La latence reste bornée (inférieure à 0,5 s) même lorsque la longueur de la vidéo augmente, contrairement aux modèles de base dont la latence dérive et viole les contraintes temps réel.

5. Signification et Impact

Ce travail marque une avancée significative dans le domaine des agents multimodaux :

Passage du Batch au Flux : Il démontre qu'il est possible de réaliser un raisonnement complexe en temps réel sans attendre la fin de la vidéo, rendant les assistants IA véritablement interactifs et réactifs.
Efficacité Mémoire : La méthode RCSM propose une solution élégante au problème de la mémoire infinie dans les transformers, en utilisant le raisonnement lui-même comme mécanisme de compression sémantique.
Accessibilité : La démonstration qu'un modèle compact (3B) peut surpasser des modèles massifs ou propriétaires sur des tâches de flux ouvre la voie à des déploiements d'agents intelligents sur des dispositifs aux ressources limitées.

En résumé, ThinkStream établit un nouveau standard pour la compréhension vidéo en flux, combinant raisonnement incrémental, gestion intelligente de la mémoire et optimisation matérielle pour une interaction temps réel fluide et précise.

Thinking in Streaming Video

1. Le Problème : Le "Cerveau" qui s'essouffle

2. La Solution : Le Paradigme "Regarder – Penser – Parler"

3. L'Innovation Clé : La "Mémoire Comprimée par la Réflexion"

4. L'Entraînement : Apprendre à ne pas parler trop tôt

5. Les Résultats : Rapide, Léger et Intelligent

En résumé

B. Mémoire de Flux Compressée par Raisonnement (RCSM)

C. Apprentissage par Renforcement avec Récompenses Vérifiables (RLVR)

D. Infrastructure d'Inférence

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks