LatentLens: Revealing Highly Interpretable Visual Tokens in LLMs

Le papier présente LatentLens, une nouvelle méthode d'interprétabilité qui révèle que la majorité des tokens visuels dans les modèles vision-langage sont hautement interprétables à toutes les couches, surpassant ainsi les approches existantes comme LogitLens en fournissant des descriptions sémantiques riches et fines.

Benno Krojer, Shravan Nayak, Oscar Mañas, Vaibhav Adlakha, Desmond Elliott, Siva Reddy, Marius Mosbach

Publié 2026-02-26
📖 5 min de lecture🧠 Analyse approfondie

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ Le Mystère : Comment un "Cerveau de Texte" Comprend-il les Images ?

Imaginez que vous avez un génie des mots (un grand modèle de langage, ou LLM) qui ne connaît que le texte. Il a lu des millions de livres, mais il n'a jamais vu une photo de chat, de voiture ou de coucher de soleil.

Pour lui faire voir des images, les chercheurs lui ont donné des lunettes spéciales : un projecteur qui transforme les pixels d'une image en "mots invisibles" (des tokens visuels). Le génie des mots peut alors lire ces mots invisibles et décrire l'image.

Mais une question troublante se pose : Comment ce génie comprend-il vraiment ces "mots invisibles" ? Est-ce qu'il les voit comme des concepts clairs (comme "un chat") ou comme du bruit incompréhensible ?

Pendant longtemps, les chercheurs pensaient que c'était du bruit. Ils utilisaient des méthodes pour "lire" ces pensées, un peu comme essayer de deviner le mot suivant dans une phrase en regardant seulement la fin du dictionnaire. Mais ces méthodes échouaient souvent : elles donnaient des résultats bizarres, comme des morceaux de mots ou des symboles sans sens.

🔍 La Révolution : LATENTLENS (La Loupe Latente)

C'est là qu'intervient LATENTLENS, la nouvelle méthode proposée par les auteurs.

Imaginez que vous essayez de comprendre un mot étrange que vous venez d'entendre.

  • L'ancienne méthode (LogitLens) : C'est comme si vous regardiez le mot dans un dictionnaire sec, mot par mot, sans contexte. Résultat ? Vous voyez juste "ch...t" et vous ne savez pas si c'est "chat", "château" ou "châtaigne". C'est flou et souvent faux.
  • La nouvelle méthode (LATENTLENS) : C'est comme si vous demandiez à un ami qui a lu des millions de livres : "Dis-moi, dans quelle phrase as-tu déjà lu un mot qui ressemble à celui-ci ?".

Au lieu de comparer l'image à un simple mot du dictionnaire, LATENTLENS compare l'image à des phrases entières que le modèle a déjà lues et comprises.

L'Analogie du "Jeu des 7 Familles" des Phrases

Prenons un exemple concret avec une image d'une tour avec une horloge.

  1. L'approche ancienne : Le modèle regarde l'image et dit : "Hmm, ça ressemble au mot 'tour'... ou peut-être 'horloge'... ou 'bâtiment' ?" C'est incertain.
  2. L'approche LATENTLENS : Le modèle cherche dans sa mémoire toutes les phrases qu'il a lues. Il trouve :
    • "Une grande tour avec des horloges dorées."
    • "Une tour blanche avec deux horloges."
    • "La tour de l'église avec l'horloge."

Le modèle dit alors : "Ah ! Cette image correspond parfaitement à la phrase 'Une grande tour avec des horloges dorées' !"

Le résultat ? Au lieu de voir du bruit, on voit des descriptions complètes et claires.

🌟 Les Découvertes Surprenantes

En utilisant cette nouvelle "loupe", les chercheurs ont découvert trois choses étonnantes :

  1. Tout est compréhensible (presque) : Contrairement à ce qu'on pensait, les images sont comprises par le modèle dès le début, et ce, à chaque étape de son "cerveau". Près de 72% des morceaux d'image sont clairement interprétables comme des phrases naturelles. C'est beaucoup plus que les 20-30% que les anciennes méthodes montraient.
  2. Le Saut du Milieu (Mid-Layer Leap) : C'est le phénomène le plus fascinant.
    • Imaginez que l'image arrive au début du cerveau du modèle (couche 0).
    • On s'attendrait à ce qu'elle ressemble à des mots simples.
    • Mais non ! L'image ressemble davantage aux phrases complexes que le modèle a lues au milieu de son traitement (couche 8 ou 16).
    • En résumé : L'image arrive déjà "prête à être comprise" au niveau sémantique. Elle n'a pas besoin de passer par toutes les couches pour devenir du sens ; elle est déjà là, comme si le projecteur avait fait le travail de traduction instantanément.
  3. Ce n'est pas juste des mots, ce sont des contextes : LATENTLENS montre que l'image n'est pas juste un objet isolé. Elle est comprise dans son contexte (ex: "un chat noir" est mieux compris que juste "chat").

🎯 Pourquoi est-ce important ?

C'est comme si on découvrait que le génie des mots ne "devine" pas les images au hasard, mais qu'il possède une structure interne où le visuel et le verbal sont parfaitement alignés.

  • Pour la science : Cela prouve que nos modèles d'IA ont une compréhension du monde physique beaucoup plus profonde qu'on ne le pensait.
  • Pour l'avenir : Si on sait exactement comment le modèle "voit" une image, on peut mieux corriger ses erreurs (comme les hallucinations où il invente des détails) et créer des IA plus fiables.

En Bref

LATENTLENS est une nouvelle loupe qui nous permet de voir ce que les IA "pensent" quand elles regardent une photo. Au lieu de voir du bruit, on découvre que le modèle associe chaque image à des phrases riches et précises qu'il a lues, prouvant que la frontière entre voir et lire est beaucoup plus fine et intelligente qu'on ne l'imaginait.

C'est comme passer d'une conversation avec quelqu'un qui bégaye des mots incompréhensibles, à une discussion fluide avec quelqu'un qui vous décrit la scène avec des mots justes et des phrases complètes.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →