Seeing the Forest and the Trees: Query-Aware Tokenizer for Long-Video Multimodal Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de regarder un film de 4 heures, mais que votre cerveau (le modèle d'intelligence artificielle) ne peut traiter qu'une seule image à la fois. Si vous lui donnez toutes les 10 000 images du film, il va s'épuiser, devenir lent et probablement oublier l'intrigue.

C'est exactement le problème que résout ce papier de recherche. Ils ont créé un outil intelligent appelé QTSplus (le "Sélecteur de Jetons Conscient de la Question").

Voici comment cela fonctionne, expliqué avec des métaphores simples :

1. Le Problème : La Tempête de Feuilles

Imaginez une forêt immense (la vidéo). Pour comprendre l'histoire, un humain ne regarde pas chaque feuille, chaque brindille et chaque goutte de pluie. Il regarde les arbres importants, les chemins et les événements clés.

Les modèles d'IA actuels, eux, essaient souvent de regarder chaque feuille de la forêt. Plus la vidéo est longue, plus il y a de feuilles (appelées "jetons visuels"). Cela sature la mémoire de l'ordinateur et le rend très lent. C'est comme essayer de lire un livre en regardant chaque grain de papier au lieu des mots.

2. La Solution : Le Gardien Intelligents (QTSplus)

Les chercheurs ont placé un gardien entre la caméra (qui filme la vidéo) et le cerveau de l'IA (le modèle de langage). Ce gardien a un pouvoir spécial : il écoute la question que vous posez avant de décider quoi regarder.

Voici les trois super-pouvoirs de ce gardien :

L'Écoute Active (Le Score de Pertinence) :
Imaginez que vous demandez : "À quelle heure le feu rouge est-il devenu vert ?".
Le gardien écoute cette question. Il sait qu'il n'a pas besoin de regarder les scènes de la cuisine ou du jardin. Il va directement scanner la vidéo pour trouver les feux de circulation. Il attribue un "score" à chaque image : "Très important" ou "Inutile".
Le Budget Adaptatif (La Quantité Juste) :
C'est là que c'est génial. Le gardien ne garde pas toujours le même nombre d'images.
- Si vous posez une question simple ("Y a-t-il un chien ?"), il a besoin de peu d'images. Il garde un petit budget.
- Si vous posez une question complexe ("Résumez les événements de toute la journée"), il sait qu'il a besoin de plus d'images pour raconter l'histoire. Il augmente son budget automatiquement.
  C'est comme un chef qui achète juste assez d'ingrédients pour la recette demandée, sans gaspiller.
Le Tri et le Rangement (Le Re-encodage) :
Une fois le gardien a sélectionné les meilleures images (par exemple, 100 images sur 10 000), il ne les envoie pas n'importe comment. Il les remet dans l'ordre chronologique et ajoute une étiquette "heure" à chaque image. Cela permet au cerveau de l'IA de comprendre non seulement ce qui se passe, mais quand cela se passe, même s'il a sauté 99% du film.

3. Le Résultat : Voir la Forêt et les Arbres

Grâce à ce système :

Vitesse : L'IA est beaucoup plus rapide (jusqu'à 28% plus rapide) car elle ne lit pas tout le livre, seulement les chapitres importants.
Mémoire : Elle utilise beaucoup moins de mémoire (jusqu'à 89% de réduction), ce qui permet de regarder des vidéos de plusieurs heures sur des ordinateurs normaux.
Précision : Contrairement à ce qu'on pourrait penser, elle ne perd pas en intelligence. En fait, elle devient même meilleure pour répondre à des questions précises sur l'ordre des événements ou la direction des objets, car elle ne se perd plus dans le bruit des images inutiles.

En Résumé

Au lieu de donner à l'IA une montagne de données brutes et de lui dire "trouve la réponse", QTSplus lui dit : "Écoute, voici ta question. Je vais te donner uniquement les 100 pages les plus importantes de ce livre de 4 heures, dans le bon ordre, pour que tu puisses répondre parfaitement."

C'est une méthode élégante pour permettre aux intelligences artificielles de comprendre de très longs films sans se noyer dans l'information.

Each language version is independently generated for its own context, not a direct translation.

1. Le Problème : L'Explosion des Coûts dans la Compréhension de Vidéos Longues

Les modèles de langage multimodaux (MLLM) récents ont fait des progrès significatifs dans la compréhension d'images et de vidéos courtes. Cependant, la compréhension de vidéos longues (de l'ordre de plusieurs heures) reste un défi majeur en raison de contraintes computationnelles et de mémoire.

La cause racine : Le nombre de tokens visuels générés par un encodeur de vision (comme un ViT) croît linéairement avec la durée de la vidéo. Pour une vidéo de plusieurs heures, cela peut générer des centaines de milliers de tokens.
Les conséquences : Cela entraîne une explosion des coûts de calcul (complexité quadratique de l'attention), une consommation mémoire excessive (KV-cache) et une latence élevée, rendant l'inférence sur des vidéos longues irréalisable sur du matériel grand public.
La limite des méthodes actuelles : Les approches existantes (échantillonnage fixe, troncation, fusion de tokens statique) appliquent un taux de compression constant, ignorant la complexité de la requête textuelle. Cela conduit soit à une perte d'informations critiques (si la compression est trop forte), soit à un gaspillage de ressources sur des frames non pertinentes.

2. Méthodologie : QTSplus (Query-Aware Token Selector)

Les auteurs proposent QTSplus, un module intermédiaire léger mais puissant placé entre l'encodeur de vision et le modèle de langage (LLM). Son objectif est de sélectionner dynamiquement les tokens visuels les plus pertinents en fonction de la requête textuelle.

Le processus se décompose en trois étapes clés :

A. Évaluation par Attention Croisée (Cross-Attention Scoring)

Le module utilise une couche d'attention croisée entre les tokens textuels (la question) et les tokens visuels (la vidéo).

Chaque token visuel reçoit un score de pertinence ( $r_i$ ) basé sur l'attention maximale accordée par n'importe quel mot de la question.
Cela permet d'identifier quels moments de la vidéo sont directement liés à la requête.

B. Prédiction Adaptative du Budget (Adaptive Budget Prediction)

Au lieu d'utiliser un nombre fixe de tokens à conserver, QTSplus prédit dynamiquement une fraction de rétention $\rho \in [0, 1]$ via un "budget head" (une petite MLP).

Entrées du budget :
1. $s_q$ : L'embedding moyen de la requête (indique la difficulté sémantique : une question de localisation précise nécessite moins de tokens qu'un résumé global).
2. $\log M$ : Le logarithme du nombre total de tokens visuels disponibles (garantit une stabilité d'échelle).
3. $r_{max}$ : La pertinence maximale (un pic élevé suggère que la réponse est localisée, réduisant le besoin de tokens).
4. $H(p)$ : L'entropie de la distribution de pertinence (une entropie élevée indique que l'information est dispersée, nécessitant un budget plus large).
Le budget final est $n = \min(\lceil \rho M \rceil, n_{max})$ .

C. Sélection et Ré-encodage

Sélection : Pendant l'entraînement, une porte différentiable (Gumbel-Softmax) permet le flux de gradients. À l'inférence, une sélection "Hard Top-n" est appliquée pour garder les $n$ meilleurs tokens.
Préservation de l'ordre temporel : Un ré-encodeur léger (un bloc d'auto-attention) est appliqué aux tokens sélectionnés. Il réintègre les informations de temps absolu, assurant que le LLM maintient la cohérence temporelle et la localisation précise (ex: "quand la lumière passe au vert").

D. Apprentissage par Distillation

Le modèle étudiant (QTSplus) est entraîné à distiller les connaissances d'un modèle enseignant (Qwen2.5-VL) qui voit la vidéo complète.

Objectifs : Minimiser la perte sur des questions à choix multiples (VSCQ) et des réponses génératives (VQA).
Pénalité de calcul : La fonction de perte inclut des termes pénalisant l'utilisation excessive de tokens (coût quadratique de l'attention et coût linéaire de la mémoire), encourageant le modèle à être économe tout en restant précis.

3. Contributions Clés

Sélection de Tokens Consciente de la Requête : Contrairement aux méthodes statiques, QTSplus adapte le nombre de tokens conservés en fonction de la complexité de la question et de la dispersion des preuves visuelles.
Préservation de la Structure Temporelle : L'intégration d'un ré-encodeur léger permet de maintenir la cohérence temporelle et la localisation précise, souvent perdues lors de la compression agressive.
Efficacité et Généralisation : Le module est conçu pour être "plug-and-play" (modulaire) et fonctionne avec différents modèles de base (Qwen, LLaVA, InternVL).
Création de Données : Les auteurs ont construit un pipeline de génération contrôlée pour créer des datasets d'entraînement (QTS-VSCQ2, QTS-VQA) adaptés à l'apprentissage par distillation.

4. Résultats Expérimentaux

Le modèle a été intégré à Qwen2.5-VL et évalué sur huit benchmarks de compréhension de vidéos longues (TempCompass, Video-MME, LVBench, MLVU, MVBench, etc.).

Compression et Latence :
- Réduction du flux visuel d'environ 89 % (de ~180k tokens à ~20k pour une vidéo de 600 images).
- Réduction de la latence d'inférence d'environ 28 %.
Performance :
- Parité globale : QTSplus atteint des performances comparables au modèle original (enseignant) sur la plupart des tâches générales.
- Améliorations significatives :
  - +20,5 points sur la précision de la direction (TempCompass).
  - +5,6 points sur la précision de l'ordre (TempCompass).
  - +2,0 points sur l'adaptation (Video-MMMU).
- Ces gains démontrent que la sélection ciblée améliore la capacité du modèle à raisonner sur des événements temporels spécifiques.
Généralisation : Le module a été testé avec succès sur LLaVA-Video-7B et InternVL2.5-8B, confirmant son indépendance vis-à-vis de l'architecture de base.

5. Signification et Conclusion

QTSplus représente une avancée majeure pour l'évolutivité des MLLM vers des scénarios réels de vidéos longues (YouTube, surveillance, coaching chirurgical).

Changement de paradigme : Au lieu de simplement réduire la résolution ou la fréquence d'images, le modèle apprend à "voir la forêt et les arbres" en sélectionnant activement les preuves visuelles pertinentes pour une question donnée.
Viabilité : Cela permet de traiter des vidéos de plusieurs heures sur des GPU grand public (comme les RTX 5090) sans sacrifier la précision, rendant l'analyse de vidéos longues économiquement et techniquement viable.
Futur : Les auteurs envisagent d'étendre cette approche à l'inférence en flux continu et aux interactions multi-requêtes.

En résumé, QTSplus résout le goulot d'étranglement des tokens visuels en introduisant une sélection dynamique et intelligente, permettant aux modèles multimodaux de passer de la compréhension de clips courts à celle de vidéos de longue durée avec une efficacité accrue.