Why 1 + 1 < 1 in Visual Token Pruning: Beyond Naive Integration via Multi-Objective Balanced Covering

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le "Trop Plein" de l'Image

Imaginez que vous demandez à un ami très intelligent (une Intelligence Artificielle) de vous décrire une photo.

Le problème : L'IA ne voit pas la photo comme un tout. Elle la découpe en milliers de petits morceaux (appelés "tokens"). Si vous lui montrez une photo de haute qualité, elle reçoit des milliers de ces morceaux. C'est comme si vous lui donniez un roman entier pour lui demander de résumer une seule phrase.
La conséquence : L'IA devient lente, consomme beaucoup d'énergie et se perd parfois dans les détails inutiles.

Pour la rendre plus rapide, les chercheurs essaient de lui dire : "Ne regarde que les 100 morceaux les plus importants, ignore le reste." C'est ce qu'on appelle l'élagage (pruning).

🤔 Le Dilemme : Pourquoi "1 + 1 < 1" ?

Jusqu'à présent, les chercheurs utilisaient deux stratégies principales pour choisir ces morceaux importants :

La Préservation Visuelle (VP) : Garder les morceaux qui ressemblent le plus à l'image originale (pour ne pas perdre la beauté du paysage).
L'Alignement avec la Question (PA) : Garder les morceaux qui répondent le mieux à la question posée (par exemple, si on demande "Où est le chat ?", on garde les zones où il y a du chat).

Le paradoxe : Les chercheurs ont pensé que combiner les deux stratégies (VP + PA) donnerait le meilleur résultat. Mais en réalité, souvent, le résultat combiné était pire que d'utiliser une seule stratégie ! C'est comme si, en essayant de faire deux choses à la fois, l'IA se perdait et oubliait l'essentiel. D'où le titre : "Pourquoi 1 + 1 < 1".

🔍 La Découverte : Tout dépend de la "Distance"

L'équipe de recherche (Li, Zhan, et al.) a découvert la raison de cet échec. Ils ont observé que la relation entre la question et l'image change selon le type de tâche. Ils ont appelé cela le "Couplage Prompt-Visuel".

Imaginez deux scénarios :

Scénario A : La Chasse au Trésor (Couplage Faible)
- Exemple : "Trouve le petit oiseau bleu caché dans cette forêt."
- Analogie : La question est très précise, mais l'image est immense et remplie d'arbres. L'oiseau est loin du reste de la forêt.
- Ce qu'il faut faire : Il faut privilégier la Question (PA). Si vous gardez trop de détails de la forêt (VP), vous noyez l'oiseau sous l'information. Il faut viser juste.
Scénario B : La Description Générale (Couplage Fort)
- Exemple : "Décris cette scène de plage."
- Analogie : La question est large. Presque tout ce qui est dans l'image (le sable, l'eau, le ciel) est pertinent. La question et l'image sont très proches l'une de l'autre.
- Ce qu'il faut faire : Il faut privilégier la Préservation Visuelle (VP). Garder une vue d'ensemble est plus important que de chercher un mot précis.

Le problème des anciennes méthodes : Elles utilisaient la même recette (50% question, 50% image) pour tous les scénarios. C'est comme essayer de cuisiner un gâteau et une soupe avec le même mélange d'ingrédients : ça ne fonctionne jamais bien.

💡 La Solution : MoB (L'Équilibriste Intelligent)

Les auteurs proposent une nouvelle méthode appelée MoB (Multi-Objective Balanced Covering).

L'analogie du "Couvre-Lit" :
Imaginez que vous devez couvrir deux objets avec des couvertures :

Un objet "Question" (le Prompt).
Un objet "Image" (les Tokens visuels).

Vous avez un budget limité de tissu (vous ne pouvez pas garder tous les tokens).

MoB agit comme un architecte intelligent. Avant de couper le tissu, il mesure la distance entre la question et l'image.
Si la question est très spécifique (Scénario A), il donne plus de tissu pour couvrir la question (plus de tokens liés au texte) et moins pour l'image.
Si la question est générale (Scénario B), il donne plus de tissu pour couvrir l'image (plus de détails visuels) et moins pour la question.

En résumé, MoB ne force pas un équilibre rigide. Il répartit intelligemment les ressources en fonction de la situation.

🚀 Les Résultats : Plus Vite, Sans Perte

Grâce à cette méthode "sur mesure" :

Vitesse : L'IA devient 1,3 à 1,5 fois plus rapide.
Qualité : Elle garde 96% à 98% de sa performance, même si on lui enlève 89% des morceaux de l'image !
Polyvalence : Ça marche aussi bien pour les images fixes que pour les vidéos complexes.

🏆 En Bref

Cette recherche nous apprend que dans l'IA, la contextuelle est reine. On ne peut pas appliquer la même règle de compression à toutes les images. En mesurant simplement "à quel point la question est liée à l'image", l'algorithme MoB sait exactement quoi garder et quoi jeter, transformant un problème complexe (où 1+1 < 1) en une solution élégante où l'IA devient plus rapide et tout aussi intelligente.

C'est comme passer d'un couteau suisse qui fait tout mal à un couteau de chef parfaitement affûté pour chaque tâche spécifique.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage multimodaux (MLLM) comme LLaVA ou Qwen-VL souffrent d'une surcharge computationnelle due à la grande redondance spatiale des données visuelles, qui se traduisent par un nombre élevé de tokens visuels. L'élagage des tokens visuels (Visual Token Pruning) vise à accélérer l'inférence en ne conservant qu'un sous-ensemble représentatif de ces tokens.

Les méthodes existantes se concentrent généralement sur deux objectifs distincts :

Préservation Visuelle (VP - Visual Preservation) : Conserver les tokens les plus saillants ou les moins redondants pour maintenir l'information visuelle globale.
Alignement avec l'Invite (PA - Prompt Alignment) : Sélectionner les tokens les plus pertinents par rapport au texte de l'invite (prompt).

Le constat critique (Le paradoxe "1+1 < 1") :
L'article observe que l'intégration naïve de ces deux objectifs via des stratégies statiques (méthodes multi-objectifs existantes) n'offre pas systématiquement de supériorité par rapport aux méthodes mono-objectif. Dans certains cas, les performances se dégradent. Cela suggère un compromis intrinsèque mal géré entre la préservation visuelle et l'alignement, dépendant fortement de la nature de la tâche.

2. Analyse Théorique et Fondements

Les auteurs proposent une analyse théorique rigoureuse pour expliquer ce phénomène et guider la conception d'algorithmes.

A. La distance de Hausdorff et la liaison Prompt-Visuel

Les auteurs modélisent l'erreur d'élagage en utilisant la distance de Hausdorff ( $d_H$ ). Ils dérivent la première borne d'erreur fermée pour l'élagage de tokens visuels (Lemme 1), montrant que l'erreur dépend de trois facteurs :

$d_H(S, V)$ : Préservation visuelle (distance entre les tokens retenus $S$ et les originaux $V$ ).
$d_H(S, P)$ : Alignement avec l'invite (distance entre $S$ et les tokens d'invite $P$ ).
$d_H(V, P)$ : Couplage Prompt-Visuel (distance entre les tokens visuels originaux et l'invite).

B. Deux régimes de couplage

L'analyse révèle deux patterns distincts selon la tâche :

Couplage Faible (Weak Coupling) : Grande distance entre $V$ et $P$ (ex: TextVQA, POPE). Seules quelques zones de l'image sont critiques pour la réponse. Ici, l'alignement (PA) est primordial.
Couplage Fort (Strong Coupling) : Petite distance entre $V$ et $P$ (ex: MMB, VizWiz). De nombreuses zones de l'image contiennent des indices pertinents. Ici, la préservation visuelle (VP) est plus efficace.

Les méthodes existantes échouent car elles appliquent des stratégies fixes, ignorant cette variation dynamique du couplage.

C. Théorie du Recouvrement ( $\epsilon$ -covering)

En reformulant le problème sous l'angle géométrique du recouvrement, les auteurs démontrent un compromis fondamental (Théorème 1). Sous un budget fixe $K$ (nombre de tokens à garder), il existe une relation inverse entre la qualité de l'alignement et celle de la préservation, gouvernée par le couplage $\eta$ .

Réduire l'erreur sur un objectif force l'augmentation de l'erreur sur l'autre au-delà d'un seuil optimal $\epsilon^*$ .
L'objectif optimal n'est pas de maximiser les deux simultanément, mais d'atteindre un niveau d'atteinte optimal pour chacun en fonction du budget et du couplage.

3. Méthodologie : MoB (Multi-Objective Balanced Covering)

Pour résoudre ce compromis de manière pratique, les auteurs proposent MoB, un algorithme d'élagage sans entraînement (training-free).

Principes Clés

MoB reformule l'élagage comme un problème de recouvrement bi-objectif. Au lieu de traiter tous les tokens de manière uniforme, il partitionne le budget $K$ en deux sous-ensembles disjoints :

$S_p$ (Centres d'invite) : Dédié à l'alignement (PA).
$S_v$ (Centres visuels) : Dédié à la préservation (VP).

Le problème est réduit à une allocation de budget optimale ( $K_p$ pour $S_p$ et $K_v$ pour $S_v$ ) via des stratégies de "trading de rayon" (radius trading) gloutonnes.

Algorithmes de Sélection

Sélection de $S_p$ (Alignement) : Utilisation d'un recouvrement par voisins les plus proches (k-fold NN covering).
- Pour chaque token d'invite, on sélectionne les $k$ tokens visuels les plus proches.
- On affine ensuite ce candidat pour maximiser l'alignement global, en évitant de sur-échantillonner des invites peu informatives.
Sélection de $S_v$ (Préservation) : Utilisation de l'échantillonnage du point le plus éloigné (Farthest Point Sampling - FPS) sur les tokens restants.
- Cela garantit une couverture uniforme de l'espace visuel, minimisant le rayon de recouvrement visuel.

Complexité et Garanties

Complexité : Linéaire par rapport au nombre de tokens ( $O(N(L+K)d)$ ), ce qui permet une mise à l'échelle efficace.
Garantie de performance : Le théorème 2 fournit une borne supérieure sur la dégradation de performance, prouvant que MoB atteint un équilibre quasi-optimal en fonction du couplage $\eta$ .

4. Résultats Expérimentaux

Les auteurs ont évalué MoB sur 14 benchmarks publics (image et vidéo) avec plusieurs modèles (LLaVA-1.5, LLaVA-Next, Qwen2-VL, Video-LLaVA).

Performance :
- Sur LLaVA-1.5-7B, MoB conserve 96,4 % des performances avec seulement 11,1 % des tokens visuels originaux (réduction de 88,9 %).
- Il surpasse systématiquement les méthodes mono-objectif (FastV, SparseVLM) et les méthodes multi-objectifs existantes (MustDrop, DART), surtout sous des taux d'élagage agressifs.
- Sur Video-LLaVA-7B, il conserve 97,9 % des performances avec une réduction de 93,4 % des tokens.
Efficacité :
- Accélération de 1,3 à 1,5 fois pour LLaVA-Next-7B avec une perte de performance négligeable.
- MoB ne dépend pas des scores d'attention (ce qui le rend compatible avec Flash Attention), contrairement à certaines méthodes concurrentes.
Généralisation :
- Les résultats montrent que MoB s'adapte bien aux différents régimes de couplage (fort/faible) et aux modèles avancés comme Qwen2-VL.

5. Contributions et Signification

Contributions principales :

Théorique : Première borne d'erreur fermée pour l'élagage de tokens visuels, caractérisant mathématiquement le rôle du couplage prompt-visuel.
Analytique : Identification et quantification du compromis intrinsèque entre préservation visuelle et alignement, démontrant pourquoi les stratégies statiques échouent.
Algorithmique : Proposition de MoB, une méthode sans entraînement qui résout ce compromis par une allocation dynamique de budget, offrant des garanties théoriques et une scalabilité linéaire.

Signification :
Ce travail change la perspective sur la compression des MLLM. Il démontre que l'efficacité ne vient pas de l'ajout de complexité ou de l'intégration brute de plusieurs objectifs, mais de la compréhension géométrique de la relation entre l'invite et l'image. En adaptant dynamiquement la stratégie de sélection (plus d'attention à l'invite pour les tâches fines, plus de couverture visuelle pour les tâches globales), MoB permet de déployer des modèles multimodaux de haute performance sur des ressources contraintes (mobile, edge) sans sacrifier la précision.

Le code est disponible publiquement, facilitant l'adoption de cette approche par la communauté.