EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le "Trafic" dans le cerveau de l'IA

Imaginez que vous avez un ami très intelligent (une IA Multimodale) capable de regarder des photos et des vidéos, puis de vous raconter une histoire ou de répondre à des questions.

Le problème, c'est que pour voir une image, cette IA la découpe en milliers de petits morceaux (des "briques" ou tokens).

Pour une petite photo, c'est gérable.
Mais pour une vidéo haute définition ou une image géante, l'IA doit traiter des dizaines de milliers de ces briques.

C'est comme si vous deviez lire un roman entier, page par page, mot par mot, avant de pouvoir répondre à une seule question. C'est lent, ça consomme beaucoup d'énergie, et l'IA met du temps à "réfléchir".

Jusqu'à présent, les chercheurs essayaient de résoudre ce problème en triant les briques après que l'IA les ait toutes lues. C'est un peu comme lire tout le livre, puis décider : "Ah, tiens, je n'avais pas besoin de lire les pages 10 à 50". C'est trop tard ! Vous avez déjà perdu du temps à les lire.

✂️ La Solution : EvoPrune (La "Tondeuse" Intelligente)

Les auteurs de ce papier proposent EvoPrune. Au lieu de lire tout le livre avant de trier, EvoPrune agit pendant que l'IA lit.

Imaginez que l'IA est un chef cuisinier qui prépare un énorme buffet pour un dîner.

Les anciennes méthodes : Le chef prépare tous les plats, les met sur la table, puis enlève ceux que personne ne mange. C'est du gaspillage d'énergie.
EvoPrune : Le chef regarde les ingrédients pendant qu'il les coupe. S'il voit deux tomates qui sont exactement pareilles, il n'en garde qu'une. S'il voit un ingrédient qui n'a aucun rapport avec le plat, il le jette immédiatement. Il ne prépare que ce qui est vraiment nécessaire.

🧠 Comment ça marche ? (Les 3 Règles d'Or)

EvoPrune ne jette pas les briques au hasard. Il utilise une "boussole" intelligente basée sur trois critères pour décider quoi garder et quoi supprimer :

La Similarité (Le Copier-Coller) :
- Analogie : Si vous avez 10 photos de la même fleur dans un champ, vous n'avez pas besoin de les analyser une par une.
- Action : EvoPrune repère les briques qui se ressemblent trop et les fusionne en une seule. C'est comme faire un résumé d'un paragraphe répétitif.
La Diversité (L'Originalité) :
- Analogie : Si vous regardez un film, vous voulez voir l'acteur, le décor, et le ciel. Vous ne voulez pas 100 images du même ciel bleu.
- Action : EvoPrune s'assure de garder des briques qui apportent des informations différentes. Il évite de supprimer les détails uniques pour ne pas rendre l'image "floue" ou vide.
L'Attention (Les Étoiles du Film) :
- Analogie : Dans une scène de film, si un personnage crie ou pointe un objet, c'est important. Si un personnage fait une grimace en arrière-plan, c'est moins important.
- Action : EvoPrune écoute ce que l'IA "regarde" vraiment. Si une brique attire l'attention de l'IA (comme un visage ou un texte), elle est protégée et ne sera jamais supprimée.

🚀 Les Résultats : Plus vite, sans perdre en qualité

Grâce à cette méthode, EvoPrune réalise des prouesses impressionnantes :

Vitesse : Sur des vidéos complexes, l'IA devient 2 fois plus rapide. C'est comme passer d'une voiture de ville à une Ferrari.
Qualité : Malgré cette vitesse, l'IA ne fait presque pas d'erreurs (moins de 1% de perte de performance). Elle voit toujours aussi bien, mais elle y va plus vite.
Économie : Elle consomme beaucoup moins d'énergie, ce qui est crucial pour faire tourner ces IA sur des téléphones ou des ordinateurs portables.

🏁 En Résumé

EvoPrune, c'est comme avoir un assistant personnel très efficace qui dit à l'IA : "Hé, ne perds pas ton temps à regarder ce détail ennuyeux, concentre-toi sur l'essentiel !"

En faisant ce tri pendant que l'IA construit sa compréhension (et non après), ils réussissent à rendre les intelligences artificielles beaucoup plus rapides et économes, tout en gardant leur capacité à comprendre le monde complexe des images et des vidéos. C'est une avancée majeure pour pouvoir utiliser ces IA en temps réel, par exemple pour analyser des vidéos de sécurité ou aider des médecins en direct.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage multimodaux (MLLM) ont démontré des performances exceptionnelles dans les tâches vision-langage. Cependant, leur efficacité d'inférence est sévèrement limitée par l'explosion du nombre de tokens visuels, en particulier dans des scénarios complexes comme le traitement d'images haute résolution ou l'analyse de vidéos longues.

Goulot d'étranglement actuel : Les méthodes de pruning (élagage) de tokens visuels existantes opèrent principalement après l'encodage visuel complet. Cela signifie que le coût computationnel lourd de l'encodeur visuel (Vision Encoder) est déjà engagé avant que la réduction ne soit appliquée.
Limites de scalabilité : Comme l'illustre la Figure 1 du papier, lorsque la taille d'entrée augmente (passant d'une image unique à 8 ou 64 frames vidéo), la part du temps d'inférence consacrée à l'encodeur visuel devient dominante (atteignant 74% du temps total pour 64 frames). Les méthodes post-encodage ne réduisent que le coût du LLM, laissant le coût de l'encodeur inchangé, ce qui entraîne une accélération globale limitée et décroissante à mesure que l'entrée s'agrandit.

2. Méthodologie : EvoPrune

Pour surmonter ces limitations, les auteurs proposent EvoPrune, une méthode de pruning de tokens visuels à stade précoce, intégrée directement au sein de l'encodeur visuel.

A. Pruning à Stades Précoces (Early-Stage)

Contrairement aux approches traditionnelles qui attendent la fin de l'encodage, EvoPrune fusionne et supprime les tokens redondants pendant le processus d'encodage, avant le calcul coûteux des caractéristiques finales. Cela réduit le nombre de tokens dès les premières couches, diminuant ainsi la charge computationnelle de l'encodeur lui-même et des modules en aval.

B. Allocation de Budget par Couche (Layer-wise Pruning)

EvoPrune adopte une stratégie de fusion progressive sur des couches sélectionnées de l'encodeur (par exemple, toutes les deux couches, stratégie "Skip"). Un budget global de pruning est réparti sur ces couches pour déterminer combien de tokens fusionner à chaque étape.

C. Fusion Guidée par un Score Composite (Score-Guided Token Merging)

Le cœur de la méthode réside dans une matrice de score qui évalue le potentiel de fusion de paires de tokens selon trois critères complémentaires :

Attraction par Similarité (Similarity Attraction) : Favorise la fusion de tokens visuellement et sémantiquement redondants. Elle est calculée via la similarité cosinus entre les embeddings des tokens.
Pénalité de Diversité (Diversity Penalty) : Encourage le maintien de la diversité structurelle. Elle pénalise la fusion de tokens situés dans des régions denses de l'espace d'embedding, favorisant ainsi la rétention de tokens uniques et informatifs.
Préservation par Attention (Attention Preservation) : Identifie et protège les tokens critiques pour le raisonnement en aval.
- Un score d'importance est calculé en moyennant les poids d'attention sur toutes les têtes.
- Un ratio de tokens critiques (CTR) est défini (ex: 25%) pour protéger les tokens les plus importants.
- La fusion est interdite (score $-\infty$ ) si l'un des tokens de la paire appartient à l'ensemble des tokens critiques.

La fusion est effectuée via un schéma de matching bipartite : les tokens sont divisés en deux groupes, et les paires avec les scores composites les plus élevés sont fusionnées.

3. Contributions Clés

Nouveau Paradigme de Pruning : Introduction d'une approche de pruning à un stade précoce (dans l'encodeur visuel), adressant le coût d'encodage souvent négligé par les travaux précédents.
Stratégie Multi-Facteurs : Développement d'une méthode de sélection de tokens guidée par une combinaison de similarité sémantique, de diversité informationnelle et d'importance dérivée de l'attention, assurant une rétention maximale d'information.
Validation Expérimentale Robuste : Démonstration que EvoPrune surpasse les méthodes existantes en termes d'efficacité d'inférence tout en maintenant des performances compétitives sur des tâches d'images et de vidéos.

4. Résultats Expérimentaux

Les évaluations ont été menées sur des benchmarks d'images (VQAv2, MME, MMBench, MMVet) et de vidéos (MVBench, LongVideoBench, Video-MME) en utilisant des modèles comme LLaVA-1.5-7B et LLaVA-Video-7B.

Performance Image : Sur les benchmarks d'images, EvoPrune atteint le meilleur compromis efficacité-précision. Par exemple, avec une rétention de 128 tokens (réduction de 77,8%), il obtient une précision relative de 97,9% par rapport au modèle natif, avec une latence globale réduite de 16% par rapport au concurrent le plus performant (CDPruner).
Performance Vidéo (Résultat Majeur) : Sur le benchmark difficile VideoMME, EvoPrune réalise un accélération d'inférence de 2x (réduction de la latence de 50%) avec une dégradation de performance inférieure à 1% (précision relative de 99,7%).
Analyse de Latence (Figure 3) : Contrairement aux méthodes concurrentes qui accélèrent principalement le LLM mais laissent l'encodeur visuel lent, EvoPrune accélère l'ensemble du pipeline :
- Accélération de l'encodeur visuel : 1,8x
- Accélération des modules intermédiaires : 5x
- Accélération du LLM : 2x
- Accélération globale (TTFT) : 2x

5. Signification et Impact

EvoPrune représente une avancée significative pour le déploiement de MLLM dans des environnements sensibles à la latence (analyse vidéo en temps réel, calcul en périphérie).

Efficacité Scalable : En réduisant le coût dès l'encodage, la méthode devient plus efficace à mesure que la taille des entrées (résolution, nombre de frames) augmente, résolvant le problème de scalabilité des méthodes post-encodage.
Plug-and-Play : La méthode ne nécessite pas de réentraînement du modèle et peut être intégrée de manière transparente dans les architectures MLLM existantes.
Futur : Ce travail ouvre la voie à des stratégies de pruning temporel plus avancées pour gérer des séquences vidéo dynamiques et très longues, en exploitant la redondance inter-frame.

En résumé, EvoPrune redéfinit l'optimisation des MLLM en traitant le goulot d'étranglement à la source (l'encodeur visuel) plutôt qu'en aval, offrant une solution robuste pour l'inférence efficace de modèles multimodaux complexes.