Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le "Fouillis" des Images dans l'IA

Imaginez que vous donnez une photo à un robot très intelligent (un modèle de langage vision, ou LVLM) pour qu'il vous raconte ce qu'il voit.

Pour comprendre l'image, le robot la découpe en milliers de petits morceaux (des "patchs"). Chaque morceau devient un jeton (un mot dans la langue du robot).

Le problème : Une seule image peut générer des centaines, voire des milliers de ces jetons visuels. En comparaison, votre question textuelle ("Qu'est-ce qu'il y a sur la photo ?") ne prend que quelques jetons.
La conséquence : Le robot passe 90 % de son temps et de son énergie à traiter ces milliers de petits morceaux d'image, ce qui le rend lent, coûteux en énergie et difficile à utiliser sur des appareils mobiles.

🔍 L'Idée Ancienne (et pourquoi elle échoue)

Jusqu'à présent, pour accélérer les choses, les chercheurs essayaient de supprimer les jetons d'image "inutiles".

L'ancienne méthode : Ils demandaient au robot : "Regarde ta question textuelle. Quels morceaux de l'image sont importants pour répondre à cette question ?"
Le défaut caché : C'est comme demander à un guide touristique de choisir les meilleurs paysages en se basant uniquement sur ce que vous avez dit, sans regarder le paysage lui-même.
- Parfois, le robot se trompe car il y a un décalage entre ce que vous demandez et ce que l'image montre vraiment.
- Il peut garder des zones inutiles (comme de l'herbe verte) et jeter des détails cruciaux (comme un petit oiseau caché) simplement parce que votre question ne les mentionnait pas explicitement.

✨ La Solution : VisionDrop (Le "Filtre Visuel")

Les auteurs de cet article, de l'Université de Wuhan et de Sydney, ont dit : "Arrêtons de demander au texte de guider la vision. Regardons l'image pour ce qu'elle est !"

Ils ont créé VisionDrop, une méthode qui fonctionne comme un chef d'orchestre visuel :

Ne regardez pas le texte, regardez l'image : Au lieu de demander au texte "Qu'est-ce qui est important ?", VisionDrop demande aux morceaux de l'image : "Qui parle le plus fort ? Qui est regardé par les autres morceaux ?".
- Analogie : Imaginez une foule. Au lieu de demander à un spectateur (le texte) qui est important, on regarde qui dans la foule attire le plus le regard des autres personnes. Ceux qui sont au centre de l'attention sont gardés.
Le tri progressif (La descente de l'escalier) : Le robot ne jette pas tout d'un coup. Il nettoie l'image étape par étape, comme on épluche un oignon ou on trie des vêtements dans un placard.
- D'abord, il garde les pièces maîtresses (les "dominantes").
- Ensuite, il regroupe les petits détails similaires (comme plusieurs feuilles d'arbre) en un seul bloc pour ne pas perdre l'information, mais sans alourdir le poids.
Pas d'entraînement nécessaire : C'est comme un logiciel que vous installez et qui fonctionne immédiatement. Vous n'avez pas besoin de réapprendre au robot à voir, il utilise simplement ses propres yeux pour trier.

🚀 Les Résultats Magiques

Grâce à cette méthode, les résultats sont impressionnants :

Vitesse : Le robot est 2,7 fois plus rapide.
Économie d'énergie : Il consomme 6 fois moins d'énergie (calculs).
Précision : Même en ne gardant que 5 % des jetons d'origine (un tri très agressif), le robot garde 95 % de sa capacité à comprendre l'image.

🧠 En Résumé

Imaginez que vous devez emporter un sac de voyage pour un voyage long.

L'ancienne méthode : Vous demandez à un ami (le texte) de choisir vos vêtements. Il choisit des chaussettes parce que vous avez parlé de "marche", mais oublie votre manteau parce que vous n'avez pas parlé de "froid".
VisionDrop : Vous regardez simplement votre valise et vous gardez ce qui est essentiel pour le voyage, peu importe ce que vous avez dit. Vous vous débarrassez du superflu, mais vous gardez l'essentiel.

VisionDrop permet aux intelligences artificielles de voir plus vite, plus clairement et avec moins d'effort, en apprenant à se fier à leurs propres yeux plutôt qu'à leurs oreilles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les Modèles de Langage-Vision (LVLM) actuels, tels que LLaVA, encodent les entrées visuelles sous forme de séquences denses de tokens au niveau des patches pour capturer des sémantiques fines. Cependant, cette approche génère un nombre de tokens visuels bien supérieur à celui des tokens textuels (parfois des milliers pour une seule image), entraînant une charge computationnelle quadratique et limitant l'évolutivité des modèles, notamment pour les applications haute résolution ou en temps réel.

Pour pallier ce problème, des méthodes de réduction de tokens visuels ont été développées, soit avant l'entrée dans le grand modèle de langage (LLM), soit à l'intérieur même du LLM. La majorité des approches in-LLM reposent sur des mécanismes de sélection guidée par le texte : elles utilisent les tokens textuels (instructions) pour évaluer l'importance des tokens visuels via l'attention croisée.

Le problème central identifié par les auteurs est que cette hypothèse d'alignement parfait entre modalités est fausse. Les auteurs révèlent trois formes de désalignement intermodal qui compromettent l'efficacité de la réduction guidée par le texte :

Désalignement Causal : En raison de la nature autoregressive des LLM, le dernier token d'instruction a tendance à se concentrer sur les tokens visuels situés plus tard dans la séquence d'entrée, introduisant un biais de localité qui ignore les régions importantes situées au début de l'image.
Désalignement Sémantique : À mesure que les tokens traversent les couches du LLM, les représentations visuelles et textuelles s'entremêlent. Le token d'instruction final devient un embedding hybride qui perd sa capacité à cibler précisément des régions visuelles spécifiques, rendant les requêtes textuelles peu fiables pour l'évaluation de l'importance visuelle.
Désalignement Spatial : Les embeddings de position sont aplatis et fusionnés entre les modalités, diluant les priors spatiaux. Comme le texte ne possède pas de conscience spatiale intrinsèque, la pruning guidée par le texte peut supprimer des régions visuellement saillantes non explicitement mentionnées dans l'instruction.

2. Méthodologie : VisionDrop

Pour résoudre ces problèmes, les auteurs proposent VisionDrop, un cadre de pruning sans entraînement (training-free) et exclusivement visuel. L'idée fondamentale est de sélectionner les tokens visuels en se basant uniquement sur l'attention intra-modale (visuel-vers-visuel), évitant ainsi les signaux textuels potentiellement désalignés.

L'architecture traite l'encodeur visuel et le LLM comme un système unifié et applique un pipeline de réduction progressive à travers plusieurs étapes :

A. Sélection Progressive des Tokens Dominants

Le modèle est divisé en plusieurs étapes (stages), incluant la sortie de l'encodeur visuel et des couches intermédiaires du LLM. À la fin de chaque étape $n$ :

Les tokens visuels sont classés selon un score d'importance basé sur l'attention self-attention visuelle.
Le score est calculé en mesurant la fréquence avec laquelle chaque token visuel est "regardé" par les autres tokens visuels (en utilisant les cartes d'attention du modèle).
Dans le LLM (sans token [CLS]), l'attention est calculée uniquement entre les tokens visuels. Dans l'encodeur (ex: CLIP), l'attention depuis le token [CLS] peut être utilisée.
Les tokens les plus importants sont conservés pour l'étape suivante.

B. Fusion Contextuelle Légère (Contextual Merging)

Pour éviter de perdre des informations subtiles ou auxiliaires en supprimant purement et simplement les tokens non dominants, VisionDrop intègre une étape de fusion :

Les tokens non dominants sont regroupés par similarité (basée sur les embeddings de clés $K$ ).
Les tokens similaires sont fusionnés pour créer des tokens contextuels enrichis.
Cela permet de préserver les détails fins et l'information complémentaire tout en respectant le budget de tokens strict.

Ce processus itératif (sélection + fusion) s'applique à travers toute la hiérarchie du modèle, permettant de maintenir une représentation visuelle expressive même sous des budgets de tokens très agressifs.

3. Contributions Clés

Analyse Empirique du Désalignement : Les auteurs démontrent expérimentalement que l'alignement visuel-textuel se dégrade à l'intérieur des couches du LLM, invalidant l'hypothèse de base des méthodes de pruning guidées par le texte. Une étude comparative montre que le scoring purement visuel surpasse systématiquement le scoring guidé par le texte, surtout sous des taux de compression élevés.
VisionDrop (Framework Sans Entraînement) : Proposition d'une méthode de réduction progressive qui opère à la fois dans l'encodeur visuel et le LLM, ne dépendant d'aucun signal textuel pour la sélection des tokens.
Stratégie Hybride (Sélection + Fusion) : Introduction d'une approche combinant la sélection de tokens dominants et la fusion contextuelle pour préserver l'information fine tout en réduisant la complexité.

4. Résultats Expérimentaux

Les expériences ont été menées sur des modèles de pointe (LLaVA-1.5-7B, LLaVA-NeXT-7B, Video-LLaVA) et divers benchmarks (GQA, MMBench, POPE, VizWiz, etc.).

Performance sur LLaVA-1.5-7B : Avec seulement 5,6 % des tokens conservés (32 tokens sur 576), VisionDrop préserve 91,46 % des performances originales, surpassant les meilleures méthodes de base (SparseVLM, VisPruner) de 0,96 %.
Performance sur LLaVA-NeXT-7B : Sous une réduction de 94,4 % (160 tokens sur 2880), la méthode atteint 92,06 % de la performance originale, soit +1,71 % par rapport au deuxième meilleur résultat.
Performance Vidéo : Sur Video-LLaVA, VisionDrop obtient les meilleures performances moyennes (47,3 % de précision) en ne conservant que 12,5 % des tokens visuels.
Efficacité Computationnelle :
- Latence : Réduction de 2,7x pour LLaVA-NeXT-7B.
- FLOPs : Réduction de 6x pour LLaVA-NeXT-7B.
- Mémoire : Réduction significative de l'empreinte mémoire et de la complexité de calcul.

5. Signification et Impact

Ce travail remet en question le paradigme dominant de l'utilisation du texte pour guider la compression visuelle dans les LVLMs. En prouvant que le désalignement intermodal est un obstacle majeur, VisionDrop offre une solution plus robuste et généralisable.

Robustesse : La méthode est particulièrement avantageuse dans des domaines où les indices linguistiques sont rares, ambigus ou faiblement alignés avec le contenu visuel (ex: imagerie médicale haute résolution, imagerie satellite).
Efficacité : Elle permet de déployer des LVLMs sur des ressources limitées sans sacrifier significativement la précision, rendant les applications temps réel et haute résolution plus accessibles.
Simplicité : Le fait d'être une méthode sans entraînement (training-free) facilite son intégration dans des pipelines existants sans coût de calcul supplémentaire pour l'entraînement.

En conclusion, VisionDrop démontre que l'attention intra-modale est un signal plus fiable pour la réduction de tokens que l'attention intermodale, ouvrant la voie à des architectures LVLM plus efficaces et mieux alignées.

Rethinking Visual Token Reduction in LVLMs Under Cross-Modal Misalignment

🎨 Le Problème : Le "Fouillis" des Images dans l'IA

🔍 L'Idée Ancienne (et pourquoi elle échoue)

✨ La Solution : VisionDrop (Le "Filtre Visuel")

🚀 Les Résultats Magiques

🧠 En Résumé

1. Problématique

2. Méthodologie : VisionDrop

A. Sélection Progressive des Tokens Dominants

B. Fusion Contextuelle Légère (Contextual Merging)

3. Contributions Clés

4. Résultats Expérimentaux

5. Signification et Impact

Articles similaires

Model2Kernel: Model-Aware Symbolic Execution For Safe CUDA Kernels

Algorithmic Barriers to Detecting and Repairing Structural Overspecification in Adaptive Data-Structure Selection

Zero-Cost NDV Estimation from Columnar File Metadata

Persistence-based topological optimization: a survey

Multi-LLM Query Optimization