EvoPrune: Early-Stage Visual Token Pruning for Efficient MLLMs

L'article présente EvoPrune, une méthode de pruning de tokens visuels appliquée dès l'étape de l'encodage dans les modèles multimodaux de grande taille, permettant d'accélérer l'inférence de 2 fois avec moins de 1 % de perte de performance sur des tâches complexes comme l'analyse vidéo.

Yuhao Chen, Bin Shan, Xin Ye, Cheng Chen

Publié 2026-03-05
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎬 Le Problème : Le "Trafic" dans le cerveau de l'IA

Imaginez que vous avez un ami très intelligent (une IA Multimodale) capable de regarder des photos et des vidéos, puis de vous raconter une histoire ou de répondre à des questions.

Le problème, c'est que pour voir une image, cette IA la découpe en milliers de petits morceaux (des "briques" ou tokens).

  • Pour une petite photo, c'est gérable.
  • Mais pour une vidéo haute définition ou une image géante, l'IA doit traiter des dizaines de milliers de ces briques.

C'est comme si vous deviez lire un roman entier, page par page, mot par mot, avant de pouvoir répondre à une seule question. C'est lent, ça consomme beaucoup d'énergie, et l'IA met du temps à "réfléchir".

Jusqu'à présent, les chercheurs essayaient de résoudre ce problème en triant les briques après que l'IA les ait toutes lues. C'est un peu comme lire tout le livre, puis décider : "Ah, tiens, je n'avais pas besoin de lire les pages 10 à 50". C'est trop tard ! Vous avez déjà perdu du temps à les lire.

✂️ La Solution : EvoPrune (La "Tondeuse" Intelligente)

Les auteurs de ce papier proposent EvoPrune. Au lieu de lire tout le livre avant de trier, EvoPrune agit pendant que l'IA lit.

Imaginez que l'IA est un chef cuisinier qui prépare un énorme buffet pour un dîner.

  • Les anciennes méthodes : Le chef prépare tous les plats, les met sur la table, puis enlève ceux que personne ne mange. C'est du gaspillage d'énergie.
  • EvoPrune : Le chef regarde les ingrédients pendant qu'il les coupe. S'il voit deux tomates qui sont exactement pareilles, il n'en garde qu'une. S'il voit un ingrédient qui n'a aucun rapport avec le plat, il le jette immédiatement. Il ne prépare que ce qui est vraiment nécessaire.

🧠 Comment ça marche ? (Les 3 Règles d'Or)

EvoPrune ne jette pas les briques au hasard. Il utilise une "boussole" intelligente basée sur trois critères pour décider quoi garder et quoi supprimer :

  1. La Similarité (Le Copier-Coller) :

    • Analogie : Si vous avez 10 photos de la même fleur dans un champ, vous n'avez pas besoin de les analyser une par une.
    • Action : EvoPrune repère les briques qui se ressemblent trop et les fusionne en une seule. C'est comme faire un résumé d'un paragraphe répétitif.
  2. La Diversité (L'Originalité) :

    • Analogie : Si vous regardez un film, vous voulez voir l'acteur, le décor, et le ciel. Vous ne voulez pas 100 images du même ciel bleu.
    • Action : EvoPrune s'assure de garder des briques qui apportent des informations différentes. Il évite de supprimer les détails uniques pour ne pas rendre l'image "floue" ou vide.
  3. L'Attention (Les Étoiles du Film) :

    • Analogie : Dans une scène de film, si un personnage crie ou pointe un objet, c'est important. Si un personnage fait une grimace en arrière-plan, c'est moins important.
    • Action : EvoPrune écoute ce que l'IA "regarde" vraiment. Si une brique attire l'attention de l'IA (comme un visage ou un texte), elle est protégée et ne sera jamais supprimée.

🚀 Les Résultats : Plus vite, sans perdre en qualité

Grâce à cette méthode, EvoPrune réalise des prouesses impressionnantes :

  • Vitesse : Sur des vidéos complexes, l'IA devient 2 fois plus rapide. C'est comme passer d'une voiture de ville à une Ferrari.
  • Qualité : Malgré cette vitesse, l'IA ne fait presque pas d'erreurs (moins de 1% de perte de performance). Elle voit toujours aussi bien, mais elle y va plus vite.
  • Économie : Elle consomme beaucoup moins d'énergie, ce qui est crucial pour faire tourner ces IA sur des téléphones ou des ordinateurs portables.

🏁 En Résumé

EvoPrune, c'est comme avoir un assistant personnel très efficace qui dit à l'IA : "Hé, ne perds pas ton temps à regarder ce détail ennuyeux, concentre-toi sur l'essentiel !"

En faisant ce tri pendant que l'IA construit sa compréhension (et non après), ils réussissent à rendre les intelligences artificielles beaucoup plus rapides et économes, tout en gardant leur capacité à comprendre le monde complexe des images et des vidéos. C'est une avancée majeure pour pouvoir utiliser ces IA en temps réel, par exemple pour analyser des vidéos de sécurité ou aider des médecins en direct.