Token Reduction via Local and Global Contexts Optimization for Efficient Video Large Language Models

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le Camion de Déménagement Trop Chargé

Imaginez que vous avez un camion de déménagement géant (c'est le modèle d'IA, ou "VLLM") qui doit transporter tout le contenu d'une vidéo pour répondre à une question.

Le problème, c'est que pour une vidéo de quelques minutes, ce camion essaie de charger des dizaines de milliers de petits cartons (ce qu'on appelle les "tokens" ou jetons). Chaque image de la vidéo est découpée en milliers de ces petits morceaux.

Le résultat ? Le camion est énorme, il consomme beaucoup de carburant (énergie électrique) et il est très lent à rouler. De plus, il transporte beaucoup de choses inutiles : des cartons vides, des doublons, ou des objets qui ne changent pas d'une image à l'autre.

Les méthodes actuelles pour alléger ce camion sont un peu brutales : soit elles jent des cartons au hasard, soit elles les écrasent tous ensemble. Le problème, c'est qu'en faisant ça, on perd parfois des détails importants (comme la couleur des chaussures d'un personnage) ou on oublie le mouvement (le fait qu'une personne marche).

💡 La Solution : Le Système "AOT" (L'Art du Tri Intelligent)

Les auteurs de ce papier proposent une nouvelle méthode appelée AOT. Imaginez que vous ne jetez plus rien, mais que vous réorganisez le camion avec une intelligence supérieure.

Voici comment ça marche, étape par étape, avec des analogies :

1. Choisir les "Anchors" (Les Ancres ou les Gardes du Corps)

Avant de commencer à trier, il faut choisir qui va rester dans le camion.

L'approche locale : On regarde chaque pièce de la maison (chaque image de la vidéo) et on choisit les objets les plus importants dans chaque coin (les yeux d'une personne, un objet en mouvement).
L'approche globale : On regarde l'ensemble de la pièce pour voir ce qui attire le plus l'attention (le sujet principal).
Le résultat : On garde un petit groupe d'objets "ancres" qui sont les plus importants et qui couvrent bien toute la scène. Ce sont nos gardes du corps.

2. La Magie du "Transport Optimal" (Le Déménageur Magique)

C'est ici que la méthode devient géniale. Au lieu de jeter les cartons inutiles (les tokens supprimés), on utilise une technique mathématique appelée Transport Optimal.

Imaginez que les cartons que vous allez jeter contiennent encore de l'information précieuse (un peu de contexte, une nuance de couleur).

Au lieu de les mettre à la poubelle, le "déménageur magique" (l'algorithme) calcule le chemin le plus efficace pour verser le contenu de ces cartons inutiles dans les cartons des "ancres".
C'est comme si vous preniez la poussière d'or d'un tas de sable inutile pour enrichir vos bijoux précieux.
Le but : Les "ancres" deviennent super-puissantes. Elles contiennent l'information de base + tout le contexte utile des objets qu'on a supprimés.

3. Gérer le Temps (La Vidéo)

Une vidéo, c'est aussi du mouvement.

Si un personnage reste immobile pendant 5 secondes, on ne garde qu'une seule "ancre" pour lui et on lui injecte l'information des 4 secondes suivantes.
Si le personnage se met à courir ou à changer de visage, le système détecte le changement brusque et garde un nouveau carton spécial pour ce moment précis.
Cela permet de compresser énormément le temps sans perdre le dynamisme de l'action.

🚀 Les Résultats : Pourquoi c'est génial ?

Grâce à cette méthode, les chercheurs ont réussi à :

Réduire la taille du camion de 90 % : Ils ne gardent que 10 % des cartons originaux.
Gagner du temps et de l'argent : Le camion est 10 fois plus rapide et consomme beaucoup moins d'énergie.
Ne rien perdre en qualité : Étonnamment, le camion arrive à destination avec 97,6 % de la qualité originale. L'IA répond toujours aussi bien aux questions, même avec beaucoup moins de données.

🌟 En Résumé

Imaginez que vous devez résumer un film de 2 heures en une seule phrase.

Les anciennes méthodes disaient : "Je vais juste couper 90 % du film au hasard." -> Résultat : On ne comprend plus l'histoire.
La méthode AOT dit : "Je vais garder les 10 % des scènes les plus importantes, mais je vais y intégrer subtilement les détails essentiels des scènes coupées, comme si je condensais tout l'émotion du film dans ces quelques images clés."

C'est une méthode gratuite (elle ne nécessite pas de réapprendre l'IA) et très efficace pour rendre les intelligences artificielles capables de comprendre des vidéos longues et complexes sans exploser les coûts informatiques.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage vidéo (VLLMs) actuels, bien que performants pour la compréhension de vidéos, souffrent d'une inefficacité computationnelle majeure due à la redondance des jetons visuels.

Coût élevé : Le traitement de vidéos longues génère des dizaines de milliers de jetons d'entrée, augmentant considérablement la consommation de mémoire et le temps d'inférence (notamment lors de la phase de "prefilling").
Limites des méthodes existantes : Les approches de pruning (élagage) actuelles se concentrent soit sur la redondance spatiale intra-image, soit sur l'élagage dans les couches profondes du LLM avec un overhead élevé. Elles ont tendance à :
- Ignorer les dépendances temporelles entre les images.
- Supprimer ou fusionner des jetons de manière naïve, perdant ainsi des contextes subtils mais informatifs.
- Nécessiter un réentraînement coûteux (fine-tuning) ou ne pas exploiter pleinement la compressibilité des longs contextes.

2. Méthodologie : AOT (Anchors via Optimal Transport)

Les auteurs proposent AOT, une méthode sans entraînement (training-free) qui réduit la redondance des jetons vidéo en préservant l'intégrité temporelle et visuelle grâce à un transport optimal (Optimal Transport - OT) local et global.

Le pipeline se déroule en deux phases principales :

A. Établissement des "Ancres de Jetons" (Token Anchors)

Avant toute réduction, le système identifie des jetons clés pour chaque image :

Ancres Globales : Sélection des jetons recevant le plus d'attention du token [CLS] (ou via l'auto-attention pour les modèles sans [CLS]) dans les couches profondes du encodeur visuel.
Ancres Locales : Division de l'image en grilles non chevauchantes pour sélectionner les jetons les plus importants dans chaque région, préservant ainsi les détails locaux.
Résultat : L'union de ces ensembles forme les "ancres" ( $X_a$ ), tandis que le reste des jetons forme l'ensemble non sélectionné ( $X_u$ ).

B. Réduction Spatio-Temporelle par Transport Optimal (OT)

Au lieu de simplement supprimer les jetons non sélectionnés, AOT utilise le Transport Optimal pour agréger leur information vers les ancres.

Réduction Intra-Frame (Au sein d'une image) :
- Les ancres et les jetons non sélectionnés sont modélisés comme deux distributions discrètes.
- Une matrice de coût est construite basée sur la similarité cosinus inverse entre les jetons.
- Un plan de transport optimal ( $T^*$ ) est calculé (via l'algorithme itératif de Sinkhorn-Knopp) pour déterminer comment transférer l'information des jetons "fournisseurs" (non sélectionnés) vers les jetons "demandeurs" (ancres).
- Les ancres sont mises à jour en ajoutant une somme pondérée des jetons supprimés, normalisée par la masse transportée.
Réduction Inter-Frame (Entre les images) :
- Les images sont divisées en clips temporels. La première image de chaque clip sert d'ancre temporelle initiale.
- Pour les images suivantes du clip, le transport optimal est utilisé pour fusionner les jetons similaires dans les ancres existantes tout en préservant les jetons distincts qui capturent les dynamiques temporelles (changements brusques).
- Un seuil ( $\tau$ ) détermine si un jeton est suffisamment similaire pour être agrégé ou s'il doit être conservé pour maintenir la dynamique temporelle.

3. Contributions Clés

Nouvelle perspective d'agrégation : Contrairement aux méthodes qui suppriment ou fusionnent aveuglément, AOT extrait et transfère les sémantiques et contextes subtils des jetons supprimés vers les jetons restants via un plan de transport optimisé.
Stratégie d'ancres Locale-Globale : Combinaison de la sélection de jetons à l'échelle globale (pour le contexte global) et locale (pour les détails spatiaux) pour garantir une couverture sémantique et spatiale diversifiée.
Pipeline sans entraînement (Training-free) : La méthode utilise le Transport Optimal pour compresser les informations spatio-temporelles sans nécessiter de fine-tuning du modèle LLM, rendant l'approche applicable à divers modèles existants.
Efficacité computationnelle : L'utilisation de l'algorithme de Sinkhorn-Knopp permet de résoudre le problème de transport optimal avec un surcoût computationnel négligeable (moins de 1% du temps d'inférence total).

4. Résultats Expérimentaux

Les évaluations ont été menées sur les modèles LLaVA-OneVision-7B et LLaVA-Video-7B avec plusieurs benchmarks (MVBench, LongVideoBench, EgoSchema, VideoMME).

Performance : AOT conserve 97,6 % des performances du modèle original tout en réduisant le nombre de jetons de 90 % (budget de rétention de 10 %).
Efficacité : Réduction des coûts de calcul (FLOPs) à seulement 8,3 % du coût original.
Comparaison : AOT surpasse systématiquement les méthodes de l'état de l'art (FastV, VisionZip, DyCoke, PruneVid, etc.), en particulier dans les scénarios de compression agressive (10-15 % de rétention) et pour les vidéos longues.
Robustesse : La méthode maintient sa supériorité même avec un nombre de trames d'entrée élevé (jusqu'à 128 frames), là où les modèles originaux atteignent leurs limites de contexte.

5. Signification et Impact

Cet article propose une avancée significative pour le déploiement pratique des VLLMs. En démontrant qu'il est possible de réduire drastiquement la charge computationnelle sans sacrifier la précision, AOT ouvre la voie à :

L'analyse de vidéos longues et complexes en temps réel.
L'intégration de VLLMs dans des environnements aux ressources limitées.
Une nouvelle approche de compression de données multimodales basée sur l'optimisation mathématique (Transport Optimal) plutôt que sur des heuristiques simples de suppression.

En résumé, AOT transforme le problème de la réduction de jetons d'une simple opération de "suppression" en un processus d'enrichissement intelligent, où l'information perdue est récupérée et consolidée dans les jetons restants, assurant une fidélité visuelle et temporelle exceptionnelle.