What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que les Modèles de Langage Multimodaux (MLLM) sont comme des chefs cuisiniers de génie capables de lire des recettes (le texte) et de regarder des photos de plats (l'image) pour répondre à des questions.

Jusqu'à présent, on pensait que ce chef prenait chaque petit morceau de la photo (appelé "token visuel") et le transformait méticuleusement en un ingrédient compréhensible avant de commencer à cuisiner.

Mais cette recherche, menée par Yingqi Fan et son équipe, révèle une vérité surprenante : le chef gaspille énormément d'énergie. En réalité, la plupart des morceaux de la photo qu'il reçoit sont soit inutiles, soit déjà parfaitement cuits, et il n'a pas besoin de les retoucher.

Voici les trois grandes découvertes de l'article, expliquées simplement :

1. Le tri des ingrédients : Les "Morts", les "Puits" et les "Vivants"

Lorsqu'on regarde les morceaux de l'image qui arrivent dans le cerveau du modèle, ils ne sont pas tous égaux. L'équipe a découvert qu'ils se divisent en trois catégories, comme dans une grande cuisine :

Les "Morts" (Dead Tokens) : Imaginez des épluchures de pommes ou des miettes de pain qui ne servent à rien. Ces morceaux d'image ne contiennent aucune information utile (pas de couleur, pas de forme, pas de texte). Pire encore, le modèle les regarde à peine.
- La bonne nouvelle : Si on enlève ces 30% de "miettes" avant même de commencer à cuisiner, le plat (la réponse du modèle) reste aussi bon, voire meilleur !
Les "Puits" (Sink Tokens) : Ce sont comme des aimants ou des décorations fixes sur la table. Ils ne changent jamais, peu importe l'image (que ce soit un chat ou une voiture). Ils servent juste à stabiliser la structure de la conversation, mais ne racontent aucune histoire.
- La bonne nouvelle : On peut aussi les retirer sans problème.
Les "Vivants" (Alive Tokens) : Ce sont les vrais ingrédients ! Environ 60% des morceaux restants contiennent toute l'information importante (l'objet, sa couleur, le texte écrit dessus).
- Le secret : Ces morceaux sont déjà si bien préparés par la caméra (le visionneur) qu'ils arrivent dans le cerveau du modèle presque prêts à être compris.

2. L'illusion de la transformation

On pensait que le modèle devait travailler dur pour transformer ces images en mots. C'est faux.

L'analogie du traducteur : Imaginez que vous envoyez un message à un ami qui parle déjà votre langue. Vous n'avez pas besoin de le faire passer par un traducteur lent et compliqué.
La découverte : Les morceaux "Vivants" arrivent déjà avec un sens très clair (comme un objet, une couleur ou un mot écrit). Le modèle n'a presque pas besoin de les "re-cuire" dans ses premières couches de traitement. En fait, essayer de les transformer trop tôt (dans les couches superficielles) peut même gâcher le goût, en ajoutant du bruit ou des erreurs (comme confondre la couleur d'un objet avec celle du fond).

3. Le raccourci magique : Injecter au milieu

Puisque les ingrédients sont déjà bien préparés, pourquoi les faire passer par toute la chaîne de production ?

L'analogie du métro : Imaginez que vous devez aller au centre-ville. Au lieu de prendre le métro depuis la première station (le début du modèle) et de faire tous les arrêts, vous pouvez sauter directement dans le wagon qui correspond à votre destination (les couches du milieu).
La conclusion : Pour la plupart des tâches, on peut ignorer les premières étapes de traitement visuel et injecter directement l'image au milieu du cerveau du modèle. Cela rend le système plus rapide, plus économe en énergie et tout aussi intelligent.

En résumé

Cette étude nous dit que les modèles actuels sont comme des usines surdimensionnées : ils passent trop de temps à trier des déchets (les tokens morts) et à transformer des produits déjà finis.

Ce que cela change pour l'avenir :
Les chercheurs proposent de construire des modèles plus intelligents et plus rapides en :

Jettant les déchets (supprimer les tokens inutiles).
Arrêtant la machine (ne pas transformer ce qui est déjà prêt).
Sautant les étapes (envoyer l'image directement là où elle est utile).

C'est une étape majeure pour rendre l'intelligence artificielle visuelle plus efficace, moins coûteuse en énergie et plus facile à comprendre.

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. Le tri des ingrédients : Les "Morts", les "Puits" et les "Vivants"

2. L'illusion de la transformation

3. Le raccourci magique : Injecter au milieu

En résumé

1. Problématique

2. Méthodologie

3. Contributions Principales

4. Résultats Clés

5. Signification et Impact

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

1. Le tri des ingrédients : Les "Morts", les "Puits" et les "Vivants"

2. L'illusion de la transformation

3. Le raccourci magique : Injecter au milieu

En résumé

1. Problématique

2. Méthodologie

3. Contributions Principales

4. Résultats Clés

5. Signification et Impact

Articles similaires

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks