ForestPrune: High-ratio Visual Token Compression for Video Multimodal Large Language Models via Spatial-Temporal Forest Modeling

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de regarder un film entier, mais que votre cerveau (ou votre ordinateur) est si petit qu'il ne peut pas tout voir d'un coup. Pour comprendre l'histoire, il doit regarder chaque image, un par un. C'est ce que font les "Intelligences Artificielles Multimodales" (les robots qui voient et parlent) avec les vidéos : elles sont souvent submergées par le nombre d'images, ce qui les rend lentes et gourmandes en énergie.

Voici l'histoire de ForestPrune, une nouvelle méthode proposée par des chercheurs pour résoudre ce problème, expliquée simplement.

🌲 Le Problème : La Forêt Trop Dense

Imaginez que la vidéo est une forêt immense. Chaque image de la vidéo est un arbre, et chaque détail dans l'image (un visage, une voiture, un arbre) est une feuille sur cet arbre.

Le problème actuel : Les méthodes actuelles regardent chaque image séparément. Elles disent : "Sur cette image, cette feuille est importante, je la garde. Sur la prochaine image, cette feuille est aussi importante, je la garde aussi."
La conséquence : Comme les feuilles sont très similaires d'une image à l'autre (le visage du personnage ne change pas de 100 % en une seconde), l'ordinateur garde des milliers de feuilles inutiles. C'est comme si vous emportiez 1000 copies du même livre pour raconter une histoire. C'est lourd et inutile.

🪓 La Solution : ForestPrune (La Taille de Forêt Intelligente)

Les auteurs proposent une méthode appelée ForestPrune (qui signifie "Taille de Forêt"). Au lieu de regarder les images une par une, ils regardent la vidéo comme un grand arbre généalogique ou un réseau de racines.

Voici comment ça marche, étape par étape :

Créer des "Familles" (Les Arbres) :
Au lieu de traiter chaque image isolément, ForestPrune relie les éléments similaires à travers le temps.
- L'analogie : Imaginez que vous suivez un personnage dans un film. Au lieu de voir 60 images séparées de son visage, ForestPrune dit : "Ah, ce visage est le même ! C'est la même 'famille' d'informations." Il crée un grand arbre où la racine est le visage au début, et les branches sont les mêmes visages qui apparaissent plus tard.
La Règle des "Racines et des Feuilles" :
Dans cet arbre, il y a des parties importantes (le tronc, les grosses branches) et des parties moins importantes (les petites feuilles à l'extrémité).
- Le Tronc (Important) : C'est l'information principale (le visage, l'action principale). On le garde toujours.
- Les Feuilles (Redondantes) : Ce sont les détails qui se répètent trop souvent. On les coupe !
La Coupe Intelligente (Le Pruning) :
ForestPrune utilise trois règles pour décider quoi couper :
- Le sens (Sémantique) : Est-ce que c'est le même objet ?
- L'espace (Spatial) : Est-ce que c'est au même endroit dans l'image ?
- Le temps (Temporel) : Est-ce que ça arrive juste après ?
Si une "feuille" (un détail) est trop similaire à ce qui existe déjà dans l'arbre, elle est coupée. On ne garde que les moments où l'histoire change vraiment (quand le personnage sourit, quand la scène change).

🎬 Pourquoi c'est génial ? (Les Résultats)

Imaginez que vous avez un film de 100 minutes.

Les anciennes méthodes : Elles gardent 90 % des images, mais beaucoup sont floues ou inutiles. C'est lourd.
ForestPrune : Il coupe 90 % des images inutiles ! Il ne garde que les moments clés et les changements importants.
- Résultat : L'ordinateur est beaucoup plus rapide (comme une voiture de sport au lieu d'un camion chargé).
- Précision : Étonnamment, l'IA comprend le film aussi bien (voire mieux) que si elle avait tout vu, car elle ne se perd pas dans le bruit.

🌟 En Résumé

ForestPrune, c'est comme avoir un éditeur de film très intelligent qui regarde toute la vidéo d'un coup. Il dit : "Hé, cette scène est identique à la précédente, on la coupe ! Cette action est nouvelle, on la garde !"

Grâce à cette méthode, les robots peuvent regarder des vidéos longues et complexes sans s'essouffler, en gardant l'essentiel de l'histoire et en jetant le superflu. C'est une façon de dire : "Moins de données, mais plus de sens."

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) ont connu des avancées significatives dans la compréhension d'images et de vidéos. Cependant, le traitement de vidéos pose un défi majeur : l'explosion du nombre de tokens visuels. Contrairement aux images uniques, les vidéos nécessitent l'encodage de dizaines ou de centaines de trames, entraînant une complexité computationnelle quadratique et une redondance visuelle massive.

Bien que des méthodes de compression de tokens (élagage ou fusion) aient réussi pour les tâches basées sur des images, elles échouent souvent à atteindre des taux de compression élevés pour les vidéos. Les méthodes existantes (comme G-Prune ou VisionZip) se concentrent principalement sur l'importance des tokens au sein de chaque trame individuelle (approche "image par image"), négligeant la redondance temporelle et la continuité du contenu vidéo. Cela conduit à une perte drastique de performance lorsque le taux de compression augmente, car elles conservent des tokens redondants entre les trames adjacentes.

2. Méthodologie : ForestPrune

Les auteurs proposent ForestPrune, une méthode novatrice et sans entraînement (training-free) conçue spécifiquement pour les MLLM vidéo. L'approche repose sur une modélisation de forêt spatio-temporelle pour évaluer l'importance globale des tokens.

Le processus se déroule en trois étapes principales :

Sélection des nœuds candidats : Pour chaque trame vidéo, un sous-ensemble de tokens représentatifs est sélectionné (via élagage existant ou échantillonnage aléatoire) pour servir de nœuds potentiels.
Construction de la forêt spatio-temporelle :
- Les auteurs construisent des arbres de tokens en reliant les nœuds basés sur trois contraintes :
  1. Sémantique : Similarité des caractéristiques (distance cosinus).
  2. Spatiale : Proximité des coordonnées dans l'image.
  3. Temporelle : Ordre chronologique des trames.
- Un nœud racine est identifié (généralement une trame antérieure), et les nœuds enfants sont connectés s'ils satisfont les seuils de similarité sémantique ( $\tau_s$ ) et de distance spatiale ( $\tau_p$ ) tout en respectant l'ordre temporel.
- Cela permet de créer des arbres qui s'étendent sur plusieurs trames, capturant ainsi l'information temporelle globale plutôt que locale.
Élagage basé sur la profondeur et le rôle :
- Une fois la forêt construite, l'importance des tokens est évaluée selon la profondeur de l'arbre et le rôle du nœud (racine, tronc, feuille).
- Les nœuds "feuilles" (les plus récents ou les moins connectés) et les nœuds "queue" sont élagués en priorité.
- Les nœuds racines et tronc (représentant l'information fondamentale et stable à travers le temps) sont conservés.
- Cela permet de prendre une décision d'élagage globalement optimale, éliminant la redondance temporelle tout en préservant les informations critiques.

3. Contributions Clés

Identification du facteur critique : Les auteurs démontrent que la modélisation conjointe de l'espace et du temps est l'ingrédient essentiel pour une compression efficace de tokens vidéo, au-delà de l'importance par trame.
Nouvelle méthode sans entraînement : ForestPrune propose une approche générique qui ne nécessite pas de ré-entraînement du modèle MLLM, s'adaptant facilement à différentes architectures (LLaVA-Video, LLaVA-OneVision).
Performance et Efficacité : La méthode démontre une supériorité significative par rapport aux méthodes de l'état de l'art (SOTA) en termes de rétention de précision à haut taux de compression et de réduction du temps de calcul.

4. Résultats Expérimentaux

Les expériences ont été menées sur deux modèles de base (LLaVA-Video et LLaVA-OneVision) et cinq benchmarks vidéo compétitifs (NExT-QA, MVBench, VideoMME, MLVU, LongVideoBench).

Haute compression : À un taux d'élagage de 90 %, ForestPrune conserve 95,8 % de la précision moyenne pour LLaVA-OneVision, tandis que les méthodes concurrentes (FastV, VisionZip, G-Prune) subissent des baisses de performance notables (chutes de 5 à 15 points).
Comparaison SOTA : Sur le benchmark MLVU, ForestPrune surpasse FrameFusion de +10,1 % en précision. Sur LLaVA-Video, il réduit le temps d'élagage de 81,4 % par rapport à FrameFusion.
Efficacité computationnelle : La méthode réduit considérablement la latence (temps de pré-remplissage), la complexité computationnelle (TFLOPS) et l'utilisation de la mémoire GPU (pic réduit de ~34 Go à ~23 Go pour 90 % de compression).
Extensibilité : Grâce à la compression efficace, ForestPrune permet d'augmenter le nombre de trames d'entrée (de 64 à 512 trames) tout en maintenant le même nombre de tokens, améliorant ainsi les performances du modèle sur des vidéos longues (atteignant 72,5 sur MLVU).

5. Signification et Impact

ForestPrune représente une avancée majeure pour le déploiement pratique des MLLM vidéo. En résolvant le problème de la redondance temporelle via une modélisation de forêt, il permet :

De traiter des vidéos longues et complexes avec des ressources limitées.
De réduire drastiquement les coûts de calcul et de mémoire sans sacrifier la compréhension sémantique.
D'offrir une solution générique et efficace qui dépasse les limitations des approches purement spatiales ou basées sur des trames individuelles.

En résumé, ForestPrune établit un nouvel état de l'art pour la compression de tokens vidéo, prouvant que la compréhension de la structure temporelle est indispensable pour une compression à haut ratio.