LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Mystère : Comment un "Cerveau de Texte" Comprend-il les Images ?

Imaginez que vous avez un génie des mots (un grand modèle de langage, ou LLM) qui ne connaît que le texte. Il a lu des millions de livres, mais il n'a jamais vu une photo de chat, de voiture ou de coucher de soleil.

Pour lui faire voir des images, les chercheurs lui ont donné des lunettes spéciales : un projecteur qui transforme les pixels d'une image en "mots invisibles" (des tokens visuels). Le génie des mots peut alors lire ces mots invisibles et décrire l'image.

Mais une question troublante se pose : Comment ce génie comprend-il vraiment ces "mots invisibles" ? Est-ce qu'il les voit comme des concepts clairs (comme "un chat") ou comme du bruit incompréhensible ?

Pendant longtemps, les chercheurs pensaient que c'était du bruit. Ils utilisaient des méthodes pour "lire" ces pensées, un peu comme essayer de deviner le mot suivant dans une phrase en regardant seulement la fin du dictionnaire. Mais ces méthodes échouaient souvent : elles donnaient des résultats bizarres, comme des morceaux de mots ou des symboles sans sens.

🔍 La Révolution : LATENTLENS (La Loupe Latente)

C'est là qu'intervient LATENTLENS, la nouvelle méthode proposée par les auteurs.

Imaginez que vous essayez de comprendre un mot étrange que vous venez d'entendre.

L'ancienne méthode (LogitLens) : C'est comme si vous regardiez le mot dans un dictionnaire sec, mot par mot, sans contexte. Résultat ? Vous voyez juste "ch...t" et vous ne savez pas si c'est "chat", "château" ou "châtaigne". C'est flou et souvent faux.
La nouvelle méthode (LATENTLENS) : C'est comme si vous demandiez à un ami qui a lu des millions de livres : "Dis-moi, dans quelle phrase as-tu déjà lu un mot qui ressemble à celui-ci ?".

Au lieu de comparer l'image à un simple mot du dictionnaire, LATENTLENS compare l'image à des phrases entières que le modèle a déjà lues et comprises.

L'Analogie du "Jeu des 7 Familles" des Phrases

Prenons un exemple concret avec une image d'une tour avec une horloge.

L'approche ancienne : Le modèle regarde l'image et dit : "Hmm, ça ressemble au mot 'tour'... ou peut-être 'horloge'... ou 'bâtiment' ?" C'est incertain.
L'approche LATENTLENS : Le modèle cherche dans sa mémoire toutes les phrases qu'il a lues. Il trouve :
- "Une grande tour avec des horloges dorées."
- "Une tour blanche avec deux horloges."
- "La tour de l'église avec l'horloge."

Le modèle dit alors : "Ah ! Cette image correspond parfaitement à la phrase 'Une grande tour avec des horloges dorées' !"

Le résultat ? Au lieu de voir du bruit, on voit des descriptions complètes et claires.

🌟 Les Découvertes Surprenantes

En utilisant cette nouvelle "loupe", les chercheurs ont découvert trois choses étonnantes :

Tout est compréhensible (presque) : Contrairement à ce qu'on pensait, les images sont comprises par le modèle dès le début, et ce, à chaque étape de son "cerveau". Près de 72% des morceaux d'image sont clairement interprétables comme des phrases naturelles. C'est beaucoup plus que les 20-30% que les anciennes méthodes montraient.
Le Saut du Milieu (Mid-Layer Leap) : C'est le phénomène le plus fascinant.
- Imaginez que l'image arrive au début du cerveau du modèle (couche 0).
- On s'attendrait à ce qu'elle ressemble à des mots simples.
- Mais non ! L'image ressemble davantage aux phrases complexes que le modèle a lues au milieu de son traitement (couche 8 ou 16).
- En résumé : L'image arrive déjà "prête à être comprise" au niveau sémantique. Elle n'a pas besoin de passer par toutes les couches pour devenir du sens ; elle est déjà là, comme si le projecteur avait fait le travail de traduction instantanément.
Ce n'est pas juste des mots, ce sont des contextes : LATENTLENS montre que l'image n'est pas juste un objet isolé. Elle est comprise dans son contexte (ex: "un chat noir" est mieux compris que juste "chat").

🎯 Pourquoi est-ce important ?

C'est comme si on découvrait que le génie des mots ne "devine" pas les images au hasard, mais qu'il possède une structure interne où le visuel et le verbal sont parfaitement alignés.

Pour la science : Cela prouve que nos modèles d'IA ont une compréhension du monde physique beaucoup plus profonde qu'on ne le pensait.
Pour l'avenir : Si on sait exactement comment le modèle "voit" une image, on peut mieux corriger ses erreurs (comme les hallucinations où il invente des détails) et créer des IA plus fiables.

En Bref

LATENTLENS est une nouvelle loupe qui nous permet de voir ce que les IA "pensent" quand elles regardent une photo. Au lieu de voir du bruit, on découvre que le modèle associe chaque image à des phrases riches et précises qu'il a lues, prouvant que la frontière entre voir et lire est beaucoup plus fine et intelligente qu'on ne l'imaginait.

C'est comme passer d'une conversation avec quelqu'un qui bégaye des mots incompréhensibles, à une discussion fluide avec quelqu'un qui vous décrit la scène avec des mots justes et des phrases complètes.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

La transformation d'un Grand Modèle de Langage (LLM) en Modèle Vision-Langage (VLM) repose souvent sur l'ajout d'un connecteur simple (comme un MLP peu profond) qui projette les tokens visuels d'un encodeur de vision dans l'espace d'embedding du LLM. Bien que cela fonctionne empiriquement, une question fondamentale reste ouverte : comment les LLMs traitent-ils ces tokens visuels et sont-ils interprétables ?

Les méthodes d'interprétabilité existantes, telles que LogitLens (qui projette les états latents sur la matrice de décodage/unembedding) et EmbeddingLens (qui compare les états latents à la matrice d'embedding d'entrée), suggèrent que les tokens visuels sont rarement interprétables, surtout dans les premières couches du modèle. Ces méthodes reposent sur l'hypothèse que les tokens visuels doivent correspondre à des tokens de vocabulaire statiques (sous-mots). Cependant, ces approches pourraient sous-estimer la véritable interprétabilité des représentations visuelles en négligeant le contexte sémantique.

2. Méthodologie : LATENTLENS

Les auteurs proposent LATENTLENS, une nouvelle méthode d'interprétabilité sans entraînement (training-free) qui cartographie les représentations latentes vers des descriptions en langage naturel.

Principes clés :

Comparaison Contextuelle : Contrairement aux méthodes précédentes qui comparent les tokens visuels à des vecteurs d'embedding statiques (entrée ou sortie), LATENTLENS compare les représentations visuelles à des représentations de tokens contextualisés issues d'un grand corpus de phrases.
Construction du Corpus de Référence :
1. Un grand corpus de descriptions textuelles (2,99 millions de phrases provenant de Visual Genome) est encodé par le LLM cible.
2. Pour chaque phrase, les représentations contextuelles de chaque token sont stockées à plusieurs couches du modèle (par exemple, couches 1, 2, 4, 8, 16, 24, etc.).
Processus d'Interprétation :
1. Pour un token visuel donné à une couche $\ell'$ , on calcule la similarité cosinus avec toutes les représentations de tokens contextuels stockées dans la base de données.
2. On récupère les $k$ plus proches voisins (top-k).
3. Les phrases complètes contenant ces voisins servent de descriptions du token visuel.
Évaluation : L'interprétabilité est évaluée automatiquement à l'aide d'un juge LLM (GPT-5) qui vérifie si l'une des descriptions retrouvées correspond concrètement, abstraitement ou globalement à la région de l'image ciblée.

3. Contributions Principales

Démonstration d'une Haute Interprétabilité : L'article montre que les tokens visuels sont hautement interprétables à travers toutes les couches des VLMs, contrairement aux conclusions des méthodes précédentes.
Supériorité sur les Méthodes Existantes : LATENTLENS surpasse significativement LogitLens et EmbeddingLens en termes de taux d'interprétabilité, prouvant que les méthodes basées sur les matrices statiques sous-estiment la capacité des LLMs à comprendre les entrées visuelles.
Découverte du "Mid-Layer Leap" (Saut de Couche Moyenne) : Les tokens visuels à l'entrée (couche 0) s'alignent le plus fortement non pas avec les représentations textuelles de la même couche, mais avec celles des couches intermédiaires (ex: couches 8 à 16). Cela suggère que la projection visuelle cible des représentations sémantiques déjà contextualisées plutôt que des représentations lexicales brutes.
Analyse Qualitative et Quantitative : Fourniture de descriptions de phrases complètes riches, contrairement aux sous-mots ou prédictions de tokens suivants souvent retournés par LogitLens.

4. Résultats Expérimentaux

Les auteurs ont évalué leur méthode sur 10 VLMs différents (combinaisons de 3 LLMs : OLMo-7B, LLaMA3-8B, Qwen2-7B, et 3 encodeurs de vision : CLIP, DINOv2, SigLIP).

Taux d'Interprétabilité :
- LATENTLENS : Environ 72% des tokens visuels sont interprétables en moyenne sur tous les modèles et toutes les couches.
- EmbeddingLens : Seulement 30% d'interprétabilité.
- LogitLens : Seulement 23% d'interprétabilité.
Robustesse : Les résultats restent stables même avec des connecteurs linéaires simples ou des données d'entraînement plus courtes.
Alignement de Couche (Mid-Layer Leap) :
- Les tokens visuels à l'entrée (couche 0) trouvent leurs voisins les plus proches dans les couches intermédiaires du LLM (ex: couche 8 ou 16), et non dans la couche 0.
- Les tokens visuels subissent très peu de transformation ("drift") à travers les couches du LLM par rapport aux tokens textuels, qui changent radicalement dès les premières couches. Cela indique que le connecteur projette les tokens visuels dans un état déjà "pré-contextualisé" sémantiquement.
Généralisation : La méthode fonctionne également sur des modèles VLMs "off-the-shelf" (comme Qwen2-VL-7B-Instruct) qui ont été finetunés, confirmant la généralité de la découverte.

5. Signification et Implications

Révision des Hypothèses sur l'Alignement : Ces résultats soutiennent l'hypothèse que les espaces de représentation de la vision et du langage partagent une structure profonde (Platonic Representation Hypothesis). Les tokens visuels ne sont pas des entités inintelligibles, mais correspondent à des concepts sémantiques riches une fois projetés dans l'espace du LLM.
Compréhension des Mécanismes Internes : La découverte du "Mid-Layer Leap" suggère que le rôle du connecteur (MLP) est de mapper les caractéristiques visuelles directement vers des représentations sémantiques intermédiaires du LLM, évitant ainsi la nécessité d'un traitement lexical profond pour les tokens visuels.
Applications Futures :
- Réduction des Hallucinations : Une meilleure compréhension de ce que les tokens visuels encodent réellement pourrait aider à détecter et corriger les hallucinations dans les VLMs.
- Analyse de Modèles : LATENTLENS offre un outil puissant pour analyser les représentations latentes de tout type de token non-linguistique (prompts souples, parole, etc.).
- Interprétabilité : La méthode ouvre la voie à des analyses plus fines basées sur des phrases complètes plutôt que sur des tokens isolés.

En conclusion, LATENTLENS démontre que les LLMs gelés sont capables de traiter les tokens visuels de manière hautement interprétable, à condition d'utiliser la bonne "lentille" d'analyse : la comparaison avec des représentations textuelles contextualisées plutôt que des embeddings statiques.

LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

🕵️‍♂️ Le Mystère : Comment un "Cerveau de Texte" Comprend-il les Images ?

🔍 La Révolution : LATENTLENS (La Loupe Latente)

L'Analogie du "Jeu des 7 Familles" des Phrases

🌟 Les Découvertes Surprenantes

🎯 Pourquoi est-ce important ?

En Bref

1. Problématique et Contexte

2. Méthodologie : LATENTLENS

3. Contributions Principales

4. Résultats Expérimentaux

5. Signification et Implications

Articles similaires

DualDynamics: Synergizing Implicit and Explicit Methods for Robust Irregular Time Series Analysis

Robot Collapse: Supply Chain Backdoor Attacks Against VLM-based Robotic Manipulation

ExGes: Expressive Human Motion Retrieval and Modulation for Audio-Driven Gesture Synthesis

SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

Advanced Assistance for Traffic Crash Analysis: An AI-Driven Multi-Agent Approach to Pre-Crash Reconstruction