Video Streaming Thinking: VideoLLMs Can Watch and Think Simultaneously

Each language version is independently generated for its own context, not a direct translation.

Imagine que vous regardez un film en direct, comme une émission de télé-réalité ou un match de football en streaming. Jusqu'à présent, les intelligences artificielles (les "robots") qui regardent ces vidéos avaient un gros problème : elles étaient soit très rapides mais un peu bêtes, soit très intelligentes mais très lentes.

Voici l'histoire simple de la nouvelle méthode appelée VST (Video Streaming Thinking), qui change la donne.

1. Le Problème : Le Dilemme du "Regarder" vs "Réfléchir"

Pour comprendre une vidéo en direct, un robot a deux choix, et les deux sont imparfaits :

Le robot "Voyageur de l'espace" (Méthode actuelle) : Il regarde la vidéo clip par clip. Dès qu'il voit quelque chose, il le note rapidement dans un petit carnet. Mais il ne réfléchit pas vraiment pendant le film. Quand vous lui posez une question à la fin, il doit fouiller dans son carnet, essayer de se souvenir de tout, et répondre vite.
- Résultat : Il répond vite, mais il fait souvent des erreurs car il n'a pas vraiment "compris" l'histoire en temps réel.
Le robot "Philosophe" (Méthode avec CoT) : Il attend que vous posiez la question. Une fois la question posée, il se met à réfléchir intensément, étape par étape, en revoyant toute la vidéo dans sa tête pour trouver la réponse.
- Résultat : Il donne une réponse très intelligente, mais il faut attendre 10 secondes (ou plus) pour l'avoir. C'est trop long pour une conversation en direct !

2. La Solution Magique : "Penser tout en regardant"

L'équipe derrière VST a eu une idée géniale, inspirée de la façon dont les humains fonctionnent.

Imaginez que vous regardez un film avec un ami très curieux. Au lieu de rester silencieux jusqu'à la fin, votre ami chuchote des réflexions pendant que le film avance :

"Tiens, ce type a l'air suspect..."
"Ah, la pendule indique 10h00, c'est important..."
"Attends, elle a changé de chemise, il y a eu un saut dans le temps..."

Votre ami ne s'arrête pas de regarder pour réfléchir. Il pense en même temps qu'il regarde. Il remplit son cerveau de petites idées au fur et à mesure que l'histoire se déroule.

C'est exactement ce que fait VST :

Pendant que la vidéo défile, le robot écrit activement des "pensées" (des résumés, des déductions) dans une mémoire à long terme.
Il ne s'arrête pas. Il digère l'information au fur et à mesure.
Quand vous posez votre question, le robot n'a plus besoin de réfléchir. Il a déjà fait tout le travail de réflexion pendant que vous regardiez la vidéo ! Il peut donc répondre immédiatement avec une grande précision.

3. Comment ils ont appris ça ? (L'École de la Pensée)

Pour enseigner cela à un robot, les chercheurs ont dû inventer deux choses :

L'Entraînement (SFT) : Ils ont créé des milliers de fausses vidéos avec des "sous-titres de pensée" générés automatiquement. Ils ont appris au robot à écrire ses pensées pendant l'action, et non après. C'est comme apprendre à un élève à prendre des notes pendant le cours, au lieu de réviser la veille de l'examen.
L'Auto-Entraînement (RL) : Ensuite, ils ont laissé le robot s'entraîner tout seul. Ils lui ont dit : "Si tu penses bien pendant la vidéo et que tu trouves la bonne réponse à la fin, tu gagnes des points." Le robot a ainsi appris à devenir de plus en plus efficace pour anticiper les événements.

4. Les Résultats : Rapide comme l'éclair, intelligent comme un détective

Les tests montrent que cette méthode est incroyable :

Vitesse : Le robot répond presque instantanément (en moins d'une seconde), car il a déjà fait le gros du travail.
Intelligence : Il est aussi intelligent que les modèles qui prennent leur temps, car il a eu le temps de réfléchir à chaque scène.
Mémoire : Il se souvient de détails qui se sont produits il y a longtemps dans la vidéo, car il les a notés au moment où ils arrivaient.

En résumé

Imaginez un détective privé.

L'ancien modèle était soit un détective qui regardait juste les photos sans réfléchir (rapide mais stupide), soit un détective qui attendait la fin de l'enquête pour lire tous ses dossiers et réfléchir (intelligent mais lent).
VST, c'est le détective qui note ses déductions sur son bloc-notes à chaque fois qu'il voit un indice, tout en marchant dans la rue. Quand le client arrive et pose la question, le détective a déjà résolu l'énigme dans sa tête et peut donner la réponse tout de suite.

C'est une révolution pour les assistants virtuels, les voitures autonomes et tout ce qui doit comprendre le monde en temps réel !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage vidéo (VideoLLMs) en ligne doivent interpréter des flux visuels continus et répondre en temps réel. Cependant, une dichotomie existe actuellement entre deux approches :

Perception en flux (Streaming Perception) : Les méthodes existantes gèrent efficacement la fenêtre de contexte et la compression des tokens visuels, mais elles se limitent à la perception. Elles manquent de capacités de raisonnement logique explicite et synchronisé avec le flux vidéo.
Raisonnement hors ligne (Offline CoT) : L'application de techniques de "Chain-of-Thought" (CoT) et de mise à l'échelle au moment du test (test-time scaling) améliore considérablement le raisonnement, mais en génère le coût computationnel après la réception de la requête utilisateur. Cela entraîne une latence de réponse inacceptable pour les scénarios interactifs en temps réel.

Le défi central est donc de concilier un raisonnement logique profond (nécessitant du temps de calcul) avec une réactivité immédiate (faible latence) dans un contexte de flux vidéo continu.

2. Méthodologie : Le Paradigme VST

Les auteurs proposent Video Streaming Thinking (VST), un nouveau paradigme qui permet au modèle de "penser tout en regardant". Au lieu d'attendre la fin de la vidéo ou la requête utilisateur pour raisonner, le modèle effectue un raisonnement intermédiaire de manière proactive pendant la lecture du flux vidéo.

A. Architecture du Flux de Pensée

Le processus est formulé comme une conversation vidéo multi-tours dans une fenêtre de contexte contrainte :

Mémoire Dual : Le modèle maintient une mémoire visuelle à court terme (tampon des tokens visuels récents) et une mémoire sémantique textuelle à long terme.
Génération Asynchrone : À chaque intervalle de temps (lorsqu'un nouveau clip vidéo est reçu), le modèle génère un "pensée de flux" (streaming thought) $z_k$ qui résume les événements clés et met à jour la mémoire textuelle.
Réponse Finale : Lorsqu'une requête utilisateur $q$ arrive, le modèle génère la réponse finale $y$ en s'appuyant sur la mémoire accumulée et le contexte visuel actuel, sans avoir besoin de recalculer le raisonnement depuis zéro.
Amortissement du Coût : Le coût computationnel du raisonnement (CoT) est amorti sur la durée de lecture de la vidéo, plutôt que d'être ajouté à la fin, garantissant ainsi une faible latence de réponse (QA Latency).

B. Pipeline de Post-Entraînement

Pour adapter un VideoLLM hors ligne à ce nouveau paradigme, les auteurs proposent un pipeline à deux étapes :

VST-SFT (Supervised Fine-Tuning) :
- Le modèle apprend à respecter la causalité temporelle stricte (ne pas voir le futur).
- Il apprend à générer des pensées intermédiaires basées sur des démonstrations hors politique (off-policy) qui respectent l'ordre chronologique des clips.
- Un masque d'attention spécifique est appliqué pour limiter la vue du modèle aux tokens visuels récents et au contexte textuel historique.
VST-RL (Reinforcement Learning) :
- Une étape de renforcement en ligne (on-policy) utilisant un algorithme de type GRPO (Group Relative Policy Optimization).
- Le modèle est récompensé uniquement sur la justesse de la réponse finale, ce qui l'incite à produire des pensées intermédiaires (streaming thoughts) utiles pour la résolution du problème.

C. Synthèse Automatique des Données

Face au manque de données d'entraînement pour le raisonnement en flux, les auteurs ont conçu un pipeline automatisé :

Extraction d'Entités : Utilisation d'un VideoLLM hors ligne pour extraire des entités et relations temporelles du flux vidéo.
Graphes de Connaissance : Construction d'un graphe de connaissances temporelles.
Échantillonnage de Preuves : Sélection de chaînes de preuves (evidence chains) via une recherche en profondeur (DFS) sur le graphe.
Génération QA : Un modèle (Gemini 3.0 flash) génère des paires Question-Réponse complexes accompagnées de chaînes de pensée (CoT) ancrées dans le flux vidéo, suivies d'un filtrage rigoureux pour assurer la cohérence logique.

3. Contributions Clés

Paradigme VST : Introduction d'un mécanisme de "pensée en flux" qui intercale la génération explicite de CoT avec la consommation continue de la vidéo, permettant une mise à l'échelle au moment du test sans pénalité de latence.
Pipeline d'Entraînement Spécialisé : Combinaison de VST-SFT (pour l'alignement temporel) et de VST-RL (pour l'optimisation end-to-end) adaptée aux contraintes de streaming.
Génération de Données à Grande Échelle : Création d'un pipeline automatisé basé sur des graphes de connaissances pour générer 100 000 échantillons de raisonnement en flux de haute qualité.
Performance et Efficacité : Démonstration qu'il est possible d'atteindre des performances de pointe (SOTA) en compréhension vidéo en ligne tout en conservant une réactivité temps réel.

4. Résultats Expérimentaux

Les évaluations ont été menées sur plusieurs benchmarks en ligne et hors ligne :

Benchmarks en Ligne (Streaming) :
- StreamingBench : VST-7B atteint 79,5 %, surpassant les modèles SOTA open-source (ex: Streamforest à 77,3 %) et même des modèles propriétaires comme GPT-4o (+6,2 %) et Gemini 1.5 Pro.
- OVO-Bench : VST-7B obtient 59,3 %, surpassant également les modèles existants et rivalisant avec les modèles propriétaires. Il excelle particulièrement dans les tâches de "Backward Tracing" (retrouver des informations passées), prouvant la robustesse de sa mémoire.
Benchmarks Hors Ligne (Offline) :
- VST-7B reste compétitif sur des tâches de vidéos longues (LongVideoBench) et de raisonnement complexe (VideoHolmes).
- Sur VideoHolmes, il atteint 41,9 %, surpassant Video-R1 de +5,4 %.
Efficacité et Latence :
- Comparé à Video-R1 (qui utilise un CoT après la requête), VST est 15,7 fois plus rapide en termes de latence de réponse (QA Latency).
- La latence de VST-7B est de 0,56 s, comparable aux modèles sans CoT, tandis que les modèles avec CoT post-requête prennent plusieurs secondes (ex: 8,80 s pour Video-R1).

5. Signification et Impact

L'article VST marque une avancée significative dans le domaine de l'intelligence artificielle interactive :

Résolution du compromis Latence/Qualité : Il démontre que le raisonnement complexe n'est pas incompatible avec le temps réel, à condition de déplacer le coût computationnel du moment de la requête vers le moment de la perception.
Cognition Synchronisée : En s'inspirant de la cognition humaine (couplage neural entre l'afflux d'information et le flux logique), VST permet aux modèles de construire une compréhension cohérente et profonde au fur et à mesure que la vidéo défile.
Évolutivité : La méthode s'applique efficacement à différentes tailles de modèles (de 3B à 32B paramètres), montrant une excellente généralisation.

En conclusion, VST établit une nouvelle norme pour les assistants IA interactifs et l'intelligence incarnée, permettant une compréhension vidéo réactive et intelligente sans compromis sur la vitesse de réponse.