Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de décrire une photo très détaillée à un ami très intelligent, mais que vous avez seulement le temps de lui dire 10 mots au lieu de 1000. Si vous choisissez mal ces 10 mots, votre ami ne comprendra pas l'histoire. C'est exactement le problème que rencontrent les modèles d'intelligence artificielle (les "cerveaux" numériques) lorsqu'ils regardent des images : ils voient des milliers de petits points (des "tokens") et cela les ralentit énormément.

Le papier que vous avez soumis, PRUNESID, propose une solution élégante et gratuite (sans réentraînement) pour résoudre ce problème. Voici comment cela fonctionne, expliqué simplement avec des analogies de la vie quotidienne.

1. Le Problème : Trop de bruit, pas assez de signal

Les modèles actuels, comme LLaVA, regardent une image et la découpent en 576 à 2880 petits morceaux. C'est comme si vous essayiez de lire un livre en ayant 1000 copies de la même page collées les unes aux autres.

Les méthodes actuelles : Elles essaient de garder les morceaux "les plus importants" (ceux qui attirent le plus l'œil, comme un visage). Mais le problème, c'est qu'elles gardent souvent plusieurs copies du même visage et oublient le fond (le ciel, l'arbre, le décor). C'est comme si vous décriviez une photo de vacances en disant juste "Visage, Visage, Visage" et en oubliant la plage.
Le résultat : L'IA est lente et perd des détails cruciaux.

2. La Solution PRUNESID : Le Chef d'Orchestre et le Tri sélectif

L'équipe propose une méthode en deux étapes, comme un chef d'orchestre qui prépare un concert avec un budget de musiciens très limité.

Étape 1 : Le Regroupement Intelligent (PSCA)

Au lieu de regarder chaque morceau de l'image individuellement, la méthode groupe les morceaux qui se ressemblent.

L'analogie : Imaginez que vous avez une boîte de Lego mélangée. Au lieu de trier pièce par pièce, vous créez des tas : "Tous les rouges", "Tous les bleus", "Tous les roues".
Ce que fait PRUNESID : Il analyse l'image et dit : "Ah, ce groupe de pixels représente un 'chien', ce groupe représente un 'arbre', et ce groupe représente le 'ciel'". Il s'assure que chaque concept important de l'image a son propre "groupe".

Étape 2 : Le Tri Sélectif (NMS)

Une fois les groupes formés, il faut choisir un seul représentant par groupe pour économiser de la place.

L'analogie : Vous avez 10 photos du même chien dans le tas "Chien". Vous ne pouvez en garder qu'une pour votre album. Vous choisissez la meilleure photo (la plus claire, la plus centrée) et vous jetez les 9 autres qui sont floues ou redondantes.
Ce que fait PRUNESID : Il garde le "meilleur" morceau de chaque groupe (le chien, l'arbre, le ciel) et supprime les doublons. Résultat : vous avez un résumé parfait de l'image avec très peu de mots.

3. L'Innovation Supplémentaire : Le Budget Dynamique

C'est la touche de génie finale.

Le problème des anciennes méthodes : Elles allouent le même nombre de mots à toutes les images, que ce soit une photo d'un ciel bleu uni ou une photo d'une rue très encombrée. C'est inefficace !
La solution PRUNESID : Elle est intelligente et adaptable.
- Si l'image est simple (un ciel bleu), elle dit : "Pas besoin de beaucoup de mots, je vais en garder très peu."
- Si l'image est complexe (une foule, une forêt), elle dit : "Il y a beaucoup d'histoire ici, je vais garder plus de mots pour ne rien rater."
- C'est comme un budget de voyage : on dépense plus d'argent dans une grande ville complexe que dans un petit village calme.

4. Les Résultats : Plus rapide, plus malin

Grâce à cette méthode, les résultats sont impressionnants :

Vitesse : L'IA est 7,8 fois plus rapide à traiter l'image (comme si elle passait de la marche lente à la course à pied).
Précision : Même en ne gardant que 5% à 11% des informations originales, l'IA comprend presque aussi bien que si elle avait vu l'image complète. Elle ne fait pas d'erreurs de compréhension.
Polyvalence : Ça marche aussi bien sur les photos que sur les vidéos.

En résumé

PRUNESID, c'est comme passer d'une description brouillonne et répétitive ("Voici un chien, encore un chien, et encore un chien...") à un résumé poétique et précis ("Un chien joue sur l'herbe sous un ciel bleu").

C'est une méthode qui ne coûte rien (pas besoin de réapprendre l'IA), qui accélère tout et qui permet aux robots de "voir" plus vite et mieux, en gardant l'essentiel et en jetant le superflu. C'est de l'efficacité pure !

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé de l'article "PRUNE REDUNDANCY, PRESERVE ESSENCE: VISION TOKEN COMPRESSION IN VLMS VIA SYNERGISTIC IMPORTANCE-DIVERSITY" (PRUNESID), publié à la conférence ICLR 2026.

1. Problématique

Les modèles Vision-Language (VLM) modernes, tels que LLaVA-1.5 et LLaVA-NeXT, souffrent d'une inefficacité computationnelle majeure due à la génération excessive de tokens visuels (par exemple, 576 tokens pour une image simple, jusqu'à 2880 pour des images haute résolution). Bien que des études empiriques montrent qu'environ 70 % de ces tokens sont redondants, les méthodes de compression existantes échouent à équilibrer deux objectifs contradictoires :

Préservation de l'importance : Garder les tokens contenant les informations sémantiques cruciales (souvent via des scores d'attention).
Diversité de l'information : Éviter la redondance en conservant une variété de concepts visuels (arrière-plan, textures, objets multiples).

Les approches actuelles se divisent en deux catégories limitées :

Guidées par l'attention : Elles préservent les régions saillantes mais négligent le contexte et l'arrière-plan, menant à une compréhension incomplète de la scène.
Conscientes de la duplication (similitude) : Elles éliminent les tokens similaires mais risquent de supprimer des tokens sémantiquement importants s'ils sont redondants localement, déformant la représentation des caractéristiques.

2. Méthodologie : PRUNESID

L'article propose PRUNESID, un cadre de compression de tokens visuels sans entraînement (training-free) et agnostique de la tâche. Il repose sur un pipeline en deux étapes synergiques :

A. Analyse des Composantes Sémantiques Principales (PSCA)

Contrairement à l'ACP (PCA) classique qui opère sur la dimension des caractéristiques, la PSCA traite la dimension des tokens comme un axe sémantique.

Fonctionnement : Elle décompose la matrice des embeddings de tokens pour identifier les directions sémantiques globales (objets, arrière-plan, textures).
Regroupement : Les tokens sont regroupés en $K$ clusters sémantiquement cohérents ( $G_1, ..., G_K$ ) en fonction de leur contribution aux directions principales. Cela garantit une couverture complète des concepts visuels critiques.

B. Suppression Non-Maximum Intra-Groupe (NMS)

Une fois les groupes formés, une redondance spatiale ou sémantique subsiste souvent au sein de chaque groupe.

Fonctionnement : Une stratégie de NMS (inspirée de la détection d'objets) est appliquée à l'intérieur de chaque groupe.
Seuil Adaptatif : Un seuil de similarité dynamique $\tau$ est calculé en fonction d'un score de redondance global $\rho$ (similitude moyenne entre tous les tokens).
Sélection : Seuls les tokens les plus informatifs (ayant les scores de projection les plus élevés sur la direction principale du groupe) sont conservés, tandis que les redondances sont éliminées.

C. Mécanisme de Ratio de Compression Dynamique

Pour s'adapter à la complexité variable des images, PRUNESID introduit un mécanisme de compression dynamique :

Il calcule un score d'information global ( $\phi = 1 - \rho$ ) pour chaque image.
Les images riches en information (scènes encombrées) reçoivent un budget de tokens plus élevé, tandis que les images simples subissent une compression plus agressive. Cela optimise la préservation moyenne de l'information sur l'ensemble du dataset.

3. Contributions Clés

Cadre Synergique Importance-Diversité : Une approche novatrice qui résout le compromis classique entre la sélection de tokens importants et le maintien de la diversité sémantique via le regroupement PSCA et le filtrage NMS.
Compression Dynamique Adaptative : Un mécanisme qui ajuste le budget de tokens par image en fonction de sa complexité sémantique, surpassant les méthodes à budget fixe.
Généralisation et Efficacité : Une méthode sans entraînement qui fonctionne sur divers modèles (LLaVA, Mini-Gemini, Qwen-VL) et modalités (images et vidéos), offrant des gains de vitesse significatifs.

4. Résultats Expérimentaux

Les expériences ont été menées sur une large gamme de benchmarks (GQA, MME, POPE, VQAv2, MMMU, etc.) et de modèles.

Performance sur LLaVA-1.5 : Avec seulement 11,1 % des tokens conservés (64 tokens sur 576), PRUNESID atteint 96,3 % de la performance du modèle complet, surpassant l'état de l'art (VisionZip) de 1,9 %.
Performance sur LLaVA-NeXT : À un taux de compression extrême de 5,6 % (160 tokens sur 2880), la méthode maintient 92,8 % de la précision, soit une amélioration de 2,5 points de pourcentage par rapport aux méthodes précédentes.
Performance Vidéo : Sur Video-LLaVA, avec une rétention de seulement 6,6 % des tokens, la méthode atteint 95,5 % de la performance de référence.
Efficacité Computationnelle : La méthode réduit le temps de préremplissage (prefilling) de 7,8 fois (de 218 ms à 27,8 ms par échantillon sur LLaVA-NeXT) tout en maintenant une latence d'inférence globale compétitive.

5. Signification et Impact

PRUNESID démontre qu'il est possible de réduire drastiquement la charge computationnelle des VLM sans sacrifier la compréhension sémantique, en passant d'une sélection basée uniquement sur l'attention à une approche structurée par la cohérence sémantique.

Scalabilité : La méthode permet de déployer des VLM sur des ressources contraintes (edge computing) tout en préservant des performances proches de l'état de l'art.
Versatilité : Sa capacité à fonctionner sur des images et des vidéos, ainsi que sur différentes architectures de modèles, en fait une solution générique pour l'optimisation des modèles multimodaux.
Limites : L'article reconnaît que dans des scénarios nécessitant un raisonnement très fin (fine-grained), une compression extrême peut parfois omettre des détails locaux critiques, suggérant des travaux futurs sur des filtres adaptatifs aux instructions.

En résumé, PRUNESID établit un nouvel état de l'art (SOTA) pour la compression de tokens visuels, prouvant que la combinaison de l'analyse structurelle (PSCA) et du filtrage de redondance (NMS) est supérieure aux méthodes heuristiques actuelles.