Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de raconter une histoire à un ami très intelligent (l'Intelligence Artificielle), mais que vous avez un problème : vous avez filmé toute la journée avec votre caméra, et vous avez des milliers d'images (des "jetons") à lui montrer.

Si vous lui montrez toutes les images, son cerveau va exploser de fatigue (trop de calculs) et il mettra une éternité à répondre. C'est le problème des modèles vidéo actuels : ils sont trop lourds.

Les méthodes existantes pour alléger la charge fonctionnent un peu comme un tri manuel naïf : "Gardez les images les plus colorées" ou "Gardez celles où l'attention est forte". Mais souvent, cela ne fonctionne pas bien. Parfois, l'image la plus "brillante" n'est pas celle qui contient la réponse à la question.

C'est ici qu'intervient CaCoVID, la solution proposée dans cet article. Voici comment cela fonctionne, expliqué simplement :

1. Le Problème : Le Tri "Aveugle"

Imaginez que vous devez préparer un sac à dos pour un voyage, mais vous ne savez pas ce que vous allez y mettre.

Les anciennes méthodes disent : "Gardez les objets les plus gros ou les plus brillants."
Le problème : Si on vous demande "Quel est le nom du chien ?", et que vous gardez uniquement les objets brillants, vous risquez de garder un chapeau rouge (très brillant) mais de jeter le chien (qui est gris). Vous avez gardé l'important, mais pas l'essentiel pour la question.

2. La Solution : Le "Sage" qui apprend par l'expérience (CaCoVID)

Au lieu de trier les images selon des règles fixes, les auteurs ont créé un petit assistant intelligent (un réseau de politique) qui apprend à deviner quelles images sont vraiment importantes pour répondre à la question.

C'est comme si vous aviez un chef cuisinier qui prépare un plat pour un client exigeant :

Il ne garde pas tous les ingrédients (trop de travail).
Il ne garde pas juste les plus gros légumes.
Il demande au client : "Vous voulez un plat avec du poisson ?"
Le chef regarde la liste des ingrédients et se dit : "Ah, pour le poisson, je dois absolument garder le saumon et le citron, mais je peux jeter les épinards et les carottes."

CaCoVID fait exactement cela : il regarde la question et sélectionne uniquement les "ingrédients" (les images) qui aideront l'IA à cuisiner la bonne réponse.

3. Le Secret : L'Exploration Intelligente (Le "Labyrinthe")

Le vrai défi, c'est qu'il y a des milliards de façons de combiner ces images. Choisir au hasard parmi des milliards de combinaisons, c'est comme chercher une aiguille dans une botte de foin... en ayant 100 ans pour le faire. C'est trop long.

Les auteurs ont inventé une astuce géniale appelée l'échantillonnage de l'espace combinatoire en ligne (OCSS).

L'analogie du Labyrinthe :
Imaginez que vous devez trouver le chemin de sortie d'un labyrinthe géant.

Méthode normale : Vous essayez un chemin au hasard, vous vous perdez, vous revenez, vous essayez un autre chemin au hasard. C'est lent et frustrant.
Méthode CaCoVID : Votre petit assistant (le chef cuisinier) vous dit : "Hé, je pense que la sortie est dans ce secteur du labyrinthe, car les murs y ressemblent à la sortie." Au lieu de courir partout, vous vous concentrez sur ce secteur précis.
Le résultat : Vous trouvez le chemin optimal beaucoup plus vite, sans vous épuiser.

4. Les Résultats : Plus rapide, plus malin

Grâce à cette méthode :

Vitesse : L'IA traite beaucoup moins d'images, donc elle répond presque instantanément.
Précision : Comme elle ne jette pas les images importantes (même si elles ne sont pas "brillantes"), elle donne de meilleures réponses.
Adaptabilité : Elle s'adapte à chaque question. Si on demande "De quelle couleur est la voiture ?", elle garde les images de la voiture. Si on demande "Quel est le bruit ?", elle garde les images où le son semble important.

En résumé

CaCoVID est comme un assistant de tri ultra-intelligent qui ne se contente pas de regarder la taille ou la couleur des images. Il écoute la question, imagine la réponse, et ne garde que les pièces du puzzle qui permettent de former cette réponse précise.

C'est un pas de géant pour rendre les intelligences artificielles capables de comprendre des vidéos longues et complexes, sans avoir besoin de super-ordinateurs pour le faire. C'est passer d'un tri "au hasard" à un tri "au but".

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) appliqués à la vidéo (Video LLMs) ont démontré des capacités remarquables en compréhension vidéo. Cependant, leur déploiement pratique est entravé par une charge computationnelle massive lors de l'inférence. Cette surcharge provient principalement de deux facteurs :

La densité des tokens vidéo (chaque image est découpée en de nombreux tokens).
La complexité quadratique des mécanismes d'attention dans les transformateurs, qui dépend de la longueur de la séquence.

Pour réduire cette charge, de nombreuses méthodes de compression de tokens ont été proposées. Elles se divisent généralement en deux catégories :

Compression basée sur le contenu : Privilégie la diversité visuelle ou la structure spatio-temporelle (ex: DivPrune, TopV). Ces méthodes sont souvent « agnostiques à la requête » et risquent de supprimer des tokens critiques pour la question posée.
Compression basée sur le modèle : Utilise les scores d'attention du modèle pour éliminer les tokens jugés peu importants (ex: FastV, PyramidDrop).

Le problème central identifié par les auteurs est que les scores d'attention ne sont pas corrélés de manière fiable à la contribution réelle d'un token pour une réponse correcte. Comme illustré dans la Figure 1 du papier, un token peut recevoir un score d'attention élevé (parfois dû au phénomène de « visual attention sink ») sans être pertinent pour la question, tandis que des tokens critiques (ex: les vêtements d'une personne) peuvent avoir un score faible. Les méthodes existantes, en se basant passivement sur ces scores, conduisent à une compression sous-optimale.

2. Méthodologie : CaCoVID

Les auteurs proposent CaCoVID (Contribution-aware token Compression algorithm for VIDeo understanding), une approche novatrice qui remplace la préservation passive de tokens par une découverte active des combinaisons de tokens optimales via l'apprentissage par renforcement (RL).

A. Réseau de Politique de Compression (Compression Policy Network)

Au lieu de filtrer les tokens statiquement, CaCoVID entraîne un petit réseau de politique capable d'estimer dynamiquement la contribution de chaque token (et de chaque image) à la réponse correcte d'une question donnée.

Architecture : Le réseau utilise un mécanisme d'attention croisée (Self-Attention) pour interagir entre les tokens vidéo ( $X_{vid}$ ) et les tokens de la question ( $X_{qst}$ ).
Sortie : Deux MLP (Perceptrons Multicouches) produisent des scores de contribution pour chaque token ( $\hat{S}_t$ ) et chaque image ( $\hat{S}_f$ ). Ces scores indiquent la probabilité qu'un élément soit nécessaire pour répondre correctement.

B. Optimisation de Politique Combinatoire avec Échantillonnage en Ligne (OCSS)

L'optimisation directe de la sélection de tokens est un problème de recherche combinatoire exponentiel ($2^n$), ce qui rend l'apprentissage par renforcement classique instable et inefficace. Pour résoudre cela, les auteurs introduisent l'algorithme CPO (Combinatorial Policy Optimization) avec une stratégie d'échantillonnage OCSS (Online Combinatorial Space Sampling) :

Tri et Partitionnement : Les tokens sont triés selon leurs scores de contribution estimés et divisés en sous-espaces combinatoires. Les tokens ayant des scores similaires sont regroupés.
Échantillonnage à deux niveaux :
- Niveau 1 : Un sous-espace est sélectionné selon une distribution catégorielle basée sur la somme des scores de contribution de ce groupe.
- Niveau 2 : À l'intérieur du sous-espace sélectionné, des tokens sont échantillonnés selon une distribution multinomiale.
- Résultat : Cela réduit drastiquement l'espace d'exploration en évitant de tester des combinaisons aléatoires inefficaces, tout en accélérant la convergence de la politique.

C. Boucle d'Apprentissage et Récompense

Le réseau de politique génère plusieurs groupes de combinaisons de tokens.
Ces combinaisons sont passées au LLM (figé) avec la question pour générer une réponse.
La récompense est basée sur la justesse de la réponse (comparaison avec la vérité terrain).
L'objectif est d'optimiser la politique pour maximiser la probabilité de sélectionner les combinaisons menant à la bonne réponse, en utilisant une fonction de perte de type PPO (Proximal Policy Optimization) avec avantage de groupe.

D. Efficacité de l'Exploration des Données

Pour améliorer l'apprentissage, le système intègre :

Filtrage des échantillons inefficaces : Élimination des questions que le modèle peut répondre sans vidéo (tests aveugles).
Replay d'expérience : Réutilisation des échantillons pour explorer davantage de combinaisons.
Ratio d'échantillonnage dynamique : Ajustement automatique du nombre de tokens échantillonnés en fonction de la difficulté de la question (réduire le ratio si la réponse est trop facile, l'augmenter si elle est trop difficile).

3. Contributions Clés

Premier algorithme RL pour la compression de tokens vidéo : CaCoVID est la première méthode à utiliser l'apprentissage par renforcement pour classer et élaguer les tokens vidéo en estimant directement leur contribution à la prédiction correcte, plutôt que de se fier aux scores d'attention passifs.
Algorithme CPO avec OCSS : Développement d'une nouvelle méthode d'optimisation de politique combinatoire qui réduit l'espace d'exploration exponentiel en sous-espaces gérables, permettant une convergence rapide et stable.
Performance et Efficacité : La méthode est compatible avec n'importe quel modèle Video LLM pré-entraîné (sans réentraînement du LLM) et offre un compromis supérieur entre latence et précision.

4. Résultats Expérimentaux

Les expériences ont été menées sur des benchmarks vidéo de référence (LongVideoBench, MLVU, VideoMME) avec des modèles de base comme LLaVA-OneVision-7B et Qwen2.5-VL-3B.

Précision (Accuracy) : CaCoVID surpasse systématiquement les méthodes de l'état de l'art (FastV, VisionZip, DivPrune, PruneVID) à tous les taux de rétention (10%, 15%, 20%, 25%).
- Exemple : Sur LLaVA-OneVision avec un taux de rétention de 25%, CaCoVID atteint 55.8% de précision moyenne, contre 54.6% pour VisionZip et 52.3% pour FastV.
Efficacité Computationnelle :
- Temps de compression : CaCoVID est considérablement plus rapide. Sur LLaVA-OneVision, le temps de compression est de 11.2 ms contre 134.3 ms pour DivPrune et 34.1 ms pour PruneVID.
- Latence globale : Grâce à la nature parallèle de l'estimation des contributions par le réseau de politique, la latence d'inférence est réduite sans sacrifier la précision.
Analyse Ablative :
- L'échantillonnage OCSS est supérieur à l'échantillonnage aléatoire ou multinomial simple.
- L'utilisation conjointe des tokens vidéo et de la question dans le réseau de politique est cruciale (l'approche purement visuelle dégrade les performances).
- La stratégie de rétention adaptative (plus de tokens pour les images importantes + 50% de tokens pour la structure spatio-temporelle) donne les meilleurs résultats.

5. Signification et Impact

Ce travail représente une avancée significative dans le domaine de l'efficacité des modèles multimodaux :

Changement de paradigme : Il passe d'une compression basée sur des heuristiques statiques (attention, diversité) à une compression orientée par la tâche (contribution à la réponse).
Déploiement pratique : En réduisant drastiquement le nombre de tokens nécessaires tout en maintenant, voire en améliorant, la précision, CaCoVID rend le déploiement de Video LLMs sur des ressources limitées (edge devices, serveurs à faible coût) beaucoup plus viable.
Généralité : La méthode ne nécessite pas de réentraîner le gros modèle de langage, ce qui la rend applicable immédiatement à une large gamme de modèles existants.

En résumé, CaCoVID résout le problème de la redondance des tokens vidéo en apprenant activement à identifier et à conserver uniquement l'information visuelle critique pour la compréhension sémantique, grâce à une optimisation par renforcement intelligente et efficace.