Pyramid Token Pruning for High-Resolution Large Vision-Language Models via Region, Token, and Instruction-Guided Importance

Each language version is independently generated for its own context, not a direct translation.

🖼️ Le Problème : Le "Grand Buffet" Trop Rempli

Imaginez que vous avez un cuisinier génial (c'est le modèle d'IA, le "cerveau") capable de répondre à n'importe quelle question sur une image. Le problème, c'est que quand on lui donne une photo en très haute définition (comme un paysage de montagne avec des milliers de détails), il essaie de manger tout le buffet d'un coup.

Pour analyser cette photo, l'IA la découpe en des milliers de petits morceaux (appelés "tokens"). C'est comme si on lui servait 2 000 assiettes de nourriture pour un seul repas.

Le résultat ? Le cuisinier s'étouffe. Il met beaucoup de temps à manger (l'IA est lente), il a besoin d'une énorme cuisine (beaucoup de mémoire vidéo/GPU), et il finit par se fatiguer.
Le paradoxe : Sur ces 2 000 assiettes, seule une petite partie est vraiment importante pour répondre à la question. Le reste est du "bruit" ou des détails inutiles (comme le ciel bleu au loin quand on demande "où est le chat ?").

✂️ La Solution : La "Pyramide de l'Élagage" (PTP)

Les auteurs de ce papier ont inventé une méthode intelligente appelée PTP (Pyramid Token Pruning). Imaginez que vous avez un chef de cuisine très organisé qui arrive avant le cuisinier génial pour trier le buffet.

Au lieu de donner tout le buffet au cuisinier, ce chef utilise une stratégie en trois étapes (une pyramide) pour ne garder que l'essentiel :

1. Le Tri par Région (Le "Regard Global")

Le chef regarde d'abord la photo en gros. Il se dit : "Tiens, cette partie de la photo semble très intéressante (il y a un chat), tandis que cette autre partie (l'herbe au fond) semble ennuyeuse."

L'analogie : C'est comme si vous regardiez une carte au trésor. Vous ne cherchez pas chaque grain de sable, vous vous concentrez d'abord sur les zones où le "X" est marqué. Le chef garde plus de nourriture pour les zones "intéressantes" et jette le reste des zones "ennuyeuses".

2. Le Tri par Détail (Le "Zoom Intelligent")

Ensuite, même dans la zone intéressante (là où il y a le chat), il y a des détails inutiles (comme une feuille morte sur le pelage du chat). Le chef regarde de plus près, pixel par pixel, pour voir ce qui attire vraiment l'attention visuelle.

L'analogie : C'est comme un détective qui examine une scène de crime. Même si la pièce entière est importante, il ne garde que les empreintes digitales et l'arme, en jetant les chaussettes sales qui traînent au sol.

3. Le Tri par la Question (Le "Guide Humain")

C'est l'étape la plus magique. Le chef lit la question de l'utilisateur avant de jeter quoi que ce soit.

Scénario A : Si vous demandez "Où est le chat ?", le chef garde tout ce qui ressemble à un chat, même si le chat est dans un coin sombre et peu visible.
Scénario B : Si vous demandez "Quel est le texte sur l'affiche ?", le chef ignore le chat et garde uniquement les lettres, même si elles sont petites.
L'analogie : C'est comme un guide touristique. Si vous demandez "Montrez-moi les monuments", le guide vous emmène devant la Tour Eiffel et ignore les voitures. Si vous demandez "Montrez-moi les boulangeries", il vous emmène devant le fournil et ignore la Tour Eiffel. Le guide adapte son itinéraire à votre demande.

🚀 Le Résultat : Plus Vite, Plus Léger, Tout aussi Intelligent

Grâce à cette méthode "Pyramide", l'IA ne reçoit plus 2 000 assiettes, mais seulement 1 000 (ou moins), et ce sont les bonnes assiettes.

Vitesse : L'IA répond deux fois plus vite (elle ne perd pas de temps à mâcher l'herbe inutile).
Mémoire : Elle a besoin de beaucoup moins d'espace dans sa tête (la carte graphique chauffe moins).
Précision : Étonnamment, elle ne fait pas d'erreurs ! En fait, en enlevant le "bruit", elle devient parfois même plus précise, car elle se concentre mieux sur ce qui compte vraiment.

🎓 En Résumé

Ce papier nous dit : "Pour faire travailler une IA sur des images géantes, ne lui donnez pas tout l'image brute. Donnez-lui un résumé intelligent qui combine ce qui est beau à voir (la salience visuelle) et ce qui est demandé (la question)."

C'est comme passer d'un camion rempli de sable à une voiture de sport remplie de diamants : moins de poids, mais beaucoup plus de valeur. Et le plus beau ? Cette méthode fonctionne sans avoir besoin de réapprendre l'IA, elle s'adapte immédiatement à n'importe quel modèle existant !

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Grands Modèles Vision-Langage (LVLM) ont démontré de fortes capacités de compréhension multimodale, mais leur perception visuelle fine est souvent limitée par de faibles résolutions d'entrée. Pour surmonter cela, les approches récentes divisent les images haute résolution en plusieurs sous-images (tuiles) pour préserver les détails. Cependant, cette stratégie entraîne une explosion du nombre de tokens visuels, ce qui provoque :

Une surcharge de calcul et de mémoire (GPU).
Une latence d'inférence élevée.
Une redondance massive : une grande partie des tokens visuels traités ne contribue pas significativement à la réponse finale (ex: dans LLaVA-1.5, les tokens d'image ne reçoivent qu'environ 0,2 % du poids d'attention par rapport aux tokens de texte).

Les méthodes existantes de compression de tokens souffrent de limitations : soit elles nécessitent un réentraînement coûteux, soit elles sont "agnostiques au texte" (ignorant l'instruction utilisateur) et risquent de supprimer des tokens critiques pour la tâche, soit elles négligent la saillance visuelle pure.

2. Méthodologie : Pyramid Token Pruning (PTP)

L'article propose PTP, une stratégie sans réentraînement (training-free) et plug-and-play qui intègre hiérarchiquement la saillance visuelle (bottom-up) et la pertinence de l'instruction (top-down). Inspirée de la cognition visuelle humaine, la méthode suit un pipeline d'élagage en trois étapes :

A. Évaluation de l'importance au niveau Région (Bottom-up)

Principe : Les images haute résolution sont divisées en une grille de sous-images. Certaines régions sont plus "visuellement intéressantes" que d'autres.
Mécanisme : PTP calcule un score de saillance pour chaque sous-image en mesurant la similarité cosinus entre l'embedding CLS de la sous-image et l'embedding CLS de l'image globale (thumbnail).
Allocation : Un budget de tokens est alloué à chaque région proportionnellement à son score de saillance. Les régions importantes reçoivent plus de tokens, les moins importantes en reçoivent moins.

B. Évaluation de l'importance au niveau Token (Bottom-up)

Principe : Même au sein d'une région saliente, certains tokens (patches) sont redondants.
Mécanisme : PTP utilise le mécanisme d'attention auto-supervisée du encodeur visuel (ViT). Il extrait les poids d'attention du token CLS vers les tokens de patch à une couche intermédiaire spécifique (la couche 8 s'est révélée optimale).
Résultat : Un classement des tokens par ordre d'importance intrinsèque visuelle au sein de chaque région.

C. Évaluation guidée par l'Instruction (Top-down)

Principe : La saillance visuelle seule peut ignorer des preuves critiques demandées par l'utilisateur (ex: "Quel est l'objet à droite ?").
Mécanisme : PTP analyse les poids d'attention croisée dans les premières couches du LLM, spécifiquement l'attention des tokens d'instruction vers les tokens visuels.
Score : Pour chaque token visuel, le score est défini comme le poids d'attention maximal reçu d'aucun token d'instruction. Cela identifie les tokens directement liés à la requête textuelle.

D. Fusion Adaptative et Élagage

Les scores de saillance token ( $b$ ) et d'instruction ( $c$ ) sont fusionnés via un paramètre $\alpha$ : $s_j = \alpha c_j + (1-\alpha)b_j$ .
Pour chaque région, seuls les $R_i$ meilleurs tokens (selon le score fusionné et le budget alloué) sont conservés.
Le processus est entièrement dynamique et ne modifie pas les poids du modèle.

3. Contributions Clés

Élagage Pyramidal Bottom-up : Un mécanisme à deux niveaux (région puis token) qui élimine efficacement la redondance visuelle sans réentraînement, en s'appuyant sur la saillance intrinsèque de l'image.
Élagage Top-down Guidé par l'Instruction : Une étape de raffinement qui intègre le contexte textuel pour préserver les tokens essentiels à la tâche, évitant ainsi le rejet de preuves critiques que les méthodes purement visuelles pourraient supprimer.
Évaluation Complète et Insights : Une validation sur 13 benchmarks diversifiés montrant que l'équilibre entre saillance visuelle et guidage par instruction varie selon la tâche (ex: l'OCR favorise la saillance visuelle, tandis que la compréhension de scènes ouvertes favorise l'instruction).

4. Résultats Expérimentaux

Les expériences ont été menées sur les modèles InternVL2-2B et InternVL2-8B avec un taux d'élagage de 50 % (réduction de moitié des tokens).

Performance : PTP atteint une précision moyenne normalisée de 99,8 % (pour le modèle 2B) et 99,7 % (pour le modèle 8B) par rapport au modèle complet, avec une perte de performance négligeable.
Supériorité : PTP surpasse ou égale les méthodes de l'état de l'art (VTW, FastV, GSearch, etc.) sur 13 benchmarks différents, y compris des tâches complexes comme le raisonnement (MM-Star) et la détection d'hallucinations (POPE).
Gain d'Efficacité :
- Réduction du temps d'inférence total de 325,7 ms à 187,4 ms (gain de ~42 %).
- Réduction des FLOPs de 6,40 TFLOPs à 3,04 TFLOPs (réduction de ~52,5 %).
- Réduction de la consommation mémoire GPU (de 24,6 Go à 20,9 Go) et de la taille du cache KV (divisée par deux).
Analyse d'ablation : La suppression de l'une des composantes (allocation de région, score token, ou guidage par instruction) entraîne une baisse significative des performances, confirmant la nécessité de l'approche hybride.

5. Signification et Impact

Ce travail démontre que la plupart des tokens visuels traités par les LVLM haute résolution sont redondants. En adoptant une approche inspirée de la cognition humaine (attention sélective sur les régions saillantes puis sur les détails pertinents à la tâche), PTP résout le goulot d'étranglement de l'inférence haute résolution.

Déployabilité : La nature "sans réentraînement" et "plug-and-play" de PTP permet son intégration immédiate dans les pipelines LVLM existants, rendant les modèles haute résolution viables sur du matériel aux ressources limitées.
Insight Théorique : L'étude révèle que l'importance des tokens dépend de la tâche : les tâches structurées (OCR) reposent davantage sur la saillance visuelle, tandis que les tâches de compréhension sémantique ouverte nécessitent un fort guidage par l'instruction. Cela ouvre la voie à des stratégies de fusion dynamique adaptative pour l'avenir.