iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Le "Gros Dîner" trop lent

Imaginez que vous avez un chef cuisinier génial (c'est le modèle d'IA, ou LLM) capable de créer des plats incroyables à partir de n'importe quelle recette. Mais pour travailler, ce chef a besoin d'aide pour préparer les ingrédients.

Dans le monde de l'IA visuelle, l'ingrédient principal est l'image.

Le problème actuel : Quand on donne une photo au chef, le système la découpe en des milliers de tout petits morceaux (comme des pixels ou des carrés). C'est comme si on envoyait au chef 10 000 petits morceaux de carottes pour qu'il les analyse un par un avant de pouvoir commencer à cuisiner.
La conséquence : Le chef est submergé. Il passe 90 % de son temps à trier ces petits morceaux, et seulement 10 % à cuisiner. C'est lent, ça consomme énormément d'énergie (comme une voiture qui consomme du carburant juste pour rouler au ralenti), et ça coûte très cher en matériel informatique.

Les méthodes précédentes essayaient d'aider le chef en lui disant : "Hé, ne regarde que 5000 morceaux au lieu de 10 000". C'est mieux, mais on oublie souvent l'étape précédente : celui qui découpe les carottes (le "codeur d'image"). Lui aussi perd beaucoup de temps à couper des morceaux inutiles !

💡 La Solution iLLaVA : Le "Tri Intelligent" et le "Recyclage"

L'équipe derrière iLLaVA a eu une idée brillante : au lieu de simplement jeter les morceaux inutiles, on va les trier intelligemment dès le début (chez le découpeur) et pendant la cuisson (chez le chef).

Voici comment ils font, avec deux astuces magiques :

1. Le Tri à Double Étape (L'Épicerie et la Cuisine)

Imaginez que vous avez un grand panier de légumes.

L'ancienne méthode : On laisse tout arriver dans la cuisine, et le chef jette ce qui ne sert pas.
La méthode iLLaVA :
1. À l'entrée (l'encodeur) : On regarde l'image et on dit : "Tiens, cette partie de la photo est floue ou vide, on n'en a pas besoin. On la retire tout de suite." Cela allège le travail du découpeur.
2. Dans la cuisine (le LLM) : On continue de trier ce qui reste pour ne garder que l'essentiel.

Le résultat ? Le chef reçoit beaucoup moins de légumes à trier, donc il cuisine beaucoup plus vite.

2. Le "Recyclage des Informations" (Ne rien gaspiller !)

C'est ici que l'idée devient vraiment géniale.
Quand on jette un morceau de légume, on a peur de perdre une information importante (par exemple, un petit grain de sel caché dedans).

L'ancienne méthode : On jette le morceau, et l'information est perdue à jamais.
La méthode iLLaVA (Le Recyclage) : Avant de jeter un morceau, on le écrase et on en extrait l'essence pour l'ajouter à un autre morceau qui reste.
- Analogie : Imaginez que vous avez 100 pages d'un livre. Au lieu de brûler les 50 pages inutiles, vous en prenez le résumé (l'information clé) et vous l'écrivez en marge des 50 pages restantes. Ainsi, vous gardez tout le sens du livre, mais avec la moitié du papier !

Grâce à cette astuce, l'IA ne perd pas de précision même si elle regarde beaucoup moins de "morceaux".

🚀 Les Résultats : Plus rapide, plus fort, et moins cher

Grâce à cette méthode, les chercheurs ont obtenu des résultats impressionnants :

Vitesse fulgurante : Le système est 2 fois plus rapide. C'est comme passer d'une voiture de ville à une voiture de course.
Temps de démarrage réduit : Le temps pour préparer la première réponse est divisé par 4. C'est comme si le chef commençait à cuisiner instantanément au lieu de mettre 10 minutes à s'installer.
Le paradoxe résolu : Habituellement, pour avoir un chef plus rapide, il faut utiliser un chef plus petit (moins intelligent). Avec iLLaVA, un gros chef (un modèle très puissant) devient aussi rapide qu'un petit chef, mais reste plus intelligent.
- Exemple : Un modèle géant (26 milliards de paramètres) avec iLLaVA bat un modèle plus petit (8 milliards) à la fois en vitesse et en qualité de réponse.

🌍 En Résumé

iLLaVA, c'est comme si on apprenait à un robot à regarder une photo non pas comme une grille de 10 000 cases, mais comme un humain qui regarde : il identifie rapidement les zones importantes (le visage, le texte, l'action) et ignore le fond flou.

En faisant cela dès le début et en récupérant les infos des zones ignorées, on rend l'intelligence artificielle :

✅ Plus rapide (moins de calculs inutiles).
✅ Moins gourmande (moins de mémoire et d'énergie).
✅ Toujours aussi intelligente (grâce au recyclage des informations).

C'est une avancée majeure pour pouvoir utiliser ces IA puissantes sur des téléphones ou des ordinateurs ordinaires, sans avoir besoin de super-ordinateurs géants !

Each language version is independently generated for its own context, not a direct translation.

Voici un résumé technique détaillé du papier de recherche iLLaVA, publié à la conférence ICLR 2026.

1. Problématique

Les modèles de langage-vision larges (LVLM) actuels, bien que performants, souffrent d'une complexité computationnelle élevée et d'une forte demande en ressources.

Redondance visuelle : Les entrées visuelles (images et vidéos) contiennent une redondance massive, générant des milliers de tokens qui alourdissent le traitement.
Limites des approches existantes : La plupart des méthodes d'accélération actuelles se concentrent uniquement sur la réduction du nombre de tokens avant ou au sein du modèle de langage (LLM). Elles négligent un goulot d'étranglement critique : l'encodeur d'image.
Coût de l'encodeur : L'encodeur d'image consomme une part significative du temps d'inférence (jusqu'à 45 % pour les tâches vidéo) et génère la majorité des tokens d'entrée pour le LLM. Ignorer l'optimisation de cette étape empêche une accélération véritablement "end-to-end".

2. Méthodologie : iLLaVA

Le papier propose iLLaVA (Image is Worth Fewer Than 1/3 Input Tokens), une approche qui optimise conjointement l'encodeur d'image et le LLM pour une accélération globale.

A. Réduction à deux étapes (Two-Stage Token Merging)

Contrairement aux méthodes précédentes qui ne réduisent les tokens qu'une seule fois (généralement avant le LLM), iLLaVA effectue une réduction progressive à deux niveaux :

Dans l'encodeur d'image : Des modules de fusion de tokens sont insérés après les modules d'attention de plusieurs blocs de l'encodeur (ViT). Cela réduit le nombre de tokens visuels dès le début du pipeline, diminuant ainsi la charge computationnelle des blocs suivants de l'encodeur et du LLM.
Dans le LLM : Des opérations de fusion sont également appliquées après des blocs spécifiques du LLM pour continuer à réduire la séquence de tokens.

B. Stratégie de Fusion de Tokens (Token Merging Strategy)

Pour éviter la perte d'informations critiques lors de la suppression de tokens, iLLaVA introduit une stratégie de fusion intelligente qui "recycle" l'information :

Sélection des tokens informatifs ( $P^i_v$ ) : Basé sur les scores d'attention, les tokens les plus importants sont conservés tels quels.
Recyclage des tokens redondants ( $P^c_v$ ) : Au lieu de supprimer purement et simplement les tokens moins importants, ils sont regroupés en "tokens de cluster" représentatifs.
Mécanisme de fusion : Les tokens redondants sont fusionnés avec des tokens de cluster via une somme pondérée basée sur leurs scores d'attention normalisés. Cela permet de condenser l'information utile des tokens rejetés dans un nombre réduit de tokens représentatifs, préservant ainsi le contenu sémantique essentiel.

C. Efficacité Computationnelle

La méthode est compatible avec Flash-Attention. Bien que Flash-Attention ne renvoie pas la matrice d'attention complète, iLLaVA utilise des poids d'attention cumulatifs pour calculer les scores moyens nécessaires à la sélection, sans coût computationnel supplémentaire significatif.
La complexité ajoutée par le calcul des scores de fusion est négligeable ( $O(R)$ ) par rapport au coût total de l'attention ( $O(N^2)$ ).

3. Contributions Clés

Optimisation conjointe Encodeur-LLM : Première méthode à traiter systématiquement la redondance à la fois dans l'encodeur d'image et le LLM, exploitant le fait que l'encodeur est le principal contributeur de tokens et de temps de calcul.
Stratégie de fusion avec recyclage : Une approche novatrice qui ne se contente pas de supprimer (pruning) mais fusionne et recycle l'information des tokens redondants, minimisant la dégradation des performances.
Accélération End-to-End : Réduction significative du temps de préremplissage (prefilling) et de la consommation mémoire, permettant une inférence plus rapide sans sacrifier la précision.

4. Résultats Expérimentaux

Les évaluations ont été menées sur plus de 10 benchmarks d'images et de vidéos (MMMU, MMBench, VideoMME, etc.) avec des modèles de base comme Qwen2.5-VL, InternVL-2.5 et LLaVA-Onevision.

Performance et Efficacité :
- Débit (Throughput) : Jusqu'à 2x d'amélioration.
- Temps de préremplissage : Réduction d'un facteur 4x.
- Précision : Maintien de >95% des performances du modèle original même avec une réduction de tokens allant jusqu'à 88,9% (images) et 95% (vidéos).
Comparaison avec l'état de l'art : iLLaVA surpasse systématiquement les méthodes récentes (SparseVLM, FasterVLM, PyramidDrop, VisionZip) en termes de compromis précision/efficacité.
Effet de taille de modèle : Une configuration iLLaVA sur un grand modèle (ex: InternVL-2.5 26B) permet de surpasser un modèle plus petit (ex: InternVL-2.5 8B) à la fois en précision et en débit, rendant les grands modèles viables pour des applications temps réel.
Flexibilité : La méthode fonctionne efficacement sur différentes architectures de LVLM sans nécessiter de réentraînement (approche training-free).

5. Signification et Impact

Ce travail démontre que l'optimisation des LVLMs ne peut se limiter au LLM ; l'encodeur d'image est un composant critique dont l'accélération a un effet multiplicateur sur l'ensemble du système.

Déploiement réel : En réduisant drastiquement la latence et les besoins en mémoire (jusqu'à 1,59x de réduction de mémoire), iLLaVA rend le déploiement de modèles multimodaux complexes sur des infrastructures limitées (edge computing, serveurs standards) beaucoup plus accessible.
Nouveau paradigme : Il établit une nouvelle norme pour l'efficacité des LVLMs en prouvant que la fusion intelligente de tokens à travers tout le pipeline (encodeur + LLM) est supérieure aux simples techniques de pruning localisés.

En résumé, iLLaVA offre une solution robuste pour débloquer le potentiel des grands modèles multimodaux en résolvant leurs goulots d'étranglement computationnels fondamentaux tout en préservant leur intelligence.