Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Le papier présente PruneSID, une méthode sans entraînement pour la compression de tokens visuels dans les modèles vision-langage qui, en combinant une analyse des composantes sémantiques principales et une suppression non maximale intra-groupe, atteint des performances de pointe tout en réduisant drastiquement le nombre de tokens et en accélérant le préremplissage.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei

Publié Wed, 11 Ma
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de décrire une photo très détaillée à un ami très intelligent, mais que vous avez seulement le temps de lui dire 10 mots au lieu de 1000. Si vous choisissez mal ces 10 mots, votre ami ne comprendra pas l'histoire. C'est exactement le problème que rencontrent les modèles d'intelligence artificielle (les "cerveaux" numériques) lorsqu'ils regardent des images : ils voient des milliers de petits points (des "tokens") et cela les ralentit énormément.

Le papier que vous avez soumis, PRUNESID, propose une solution élégante et gratuite (sans réentraînement) pour résoudre ce problème. Voici comment cela fonctionne, expliqué simplement avec des analogies de la vie quotidienne.

1. Le Problème : Trop de bruit, pas assez de signal

Les modèles actuels, comme LLaVA, regardent une image et la découpent en 576 à 2880 petits morceaux. C'est comme si vous essayiez de lire un livre en ayant 1000 copies de la même page collées les unes aux autres.

  • Les méthodes actuelles : Elles essaient de garder les morceaux "les plus importants" (ceux qui attirent le plus l'œil, comme un visage). Mais le problème, c'est qu'elles gardent souvent plusieurs copies du même visage et oublient le fond (le ciel, l'arbre, le décor). C'est comme si vous décriviez une photo de vacances en disant juste "Visage, Visage, Visage" et en oubliant la plage.
  • Le résultat : L'IA est lente et perd des détails cruciaux.

2. La Solution PRUNESID : Le Chef d'Orchestre et le Tri sélectif

L'équipe propose une méthode en deux étapes, comme un chef d'orchestre qui prépare un concert avec un budget de musiciens très limité.

Étape 1 : Le Regroupement Intelligent (PSCA)

Au lieu de regarder chaque morceau de l'image individuellement, la méthode groupe les morceaux qui se ressemblent.

  • L'analogie : Imaginez que vous avez une boîte de Lego mélangée. Au lieu de trier pièce par pièce, vous créez des tas : "Tous les rouges", "Tous les bleus", "Tous les roues".
  • Ce que fait PRUNESID : Il analyse l'image et dit : "Ah, ce groupe de pixels représente un 'chien', ce groupe représente un 'arbre', et ce groupe représente le 'ciel'". Il s'assure que chaque concept important de l'image a son propre "groupe".

Étape 2 : Le Tri Sélectif (NMS)

Une fois les groupes formés, il faut choisir un seul représentant par groupe pour économiser de la place.

  • L'analogie : Vous avez 10 photos du même chien dans le tas "Chien". Vous ne pouvez en garder qu'une pour votre album. Vous choisissez la meilleure photo (la plus claire, la plus centrée) et vous jetez les 9 autres qui sont floues ou redondantes.
  • Ce que fait PRUNESID : Il garde le "meilleur" morceau de chaque groupe (le chien, l'arbre, le ciel) et supprime les doublons. Résultat : vous avez un résumé parfait de l'image avec très peu de mots.

3. L'Innovation Supplémentaire : Le Budget Dynamique

C'est la touche de génie finale.

  • Le problème des anciennes méthodes : Elles allouent le même nombre de mots à toutes les images, que ce soit une photo d'un ciel bleu uni ou une photo d'une rue très encombrée. C'est inefficace !
  • La solution PRUNESID : Elle est intelligente et adaptable.
    • Si l'image est simple (un ciel bleu), elle dit : "Pas besoin de beaucoup de mots, je vais en garder très peu."
    • Si l'image est complexe (une foule, une forêt), elle dit : "Il y a beaucoup d'histoire ici, je vais garder plus de mots pour ne rien rater."
    • C'est comme un budget de voyage : on dépense plus d'argent dans une grande ville complexe que dans un petit village calme.

4. Les Résultats : Plus rapide, plus malin

Grâce à cette méthode, les résultats sont impressionnants :

  • Vitesse : L'IA est 7,8 fois plus rapide à traiter l'image (comme si elle passait de la marche lente à la course à pied).
  • Précision : Même en ne gardant que 5% à 11% des informations originales, l'IA comprend presque aussi bien que si elle avait vu l'image complète. Elle ne fait pas d'erreurs de compréhension.
  • Polyvalence : Ça marche aussi bien sur les photos que sur les vidéos.

En résumé

PRUNESID, c'est comme passer d'une description brouillonne et répétitive ("Voici un chien, encore un chien, et encore un chien...") à un résumé poétique et précis ("Un chien joue sur l'herbe sous un ciel bleu").

C'est une méthode qui ne coûte rien (pas besoin de réapprendre l'IA), qui accélère tout et qui permet aux robots de "voir" plus vite et mieux, en gardant l'essentiel et en jetant le superflu. C'est de l'efficacité pure !