VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez de comprendre pourquoi un ami très intelligent, mais parfois distrait, vous donne une mauvaise réponse à une question sur une photo. Vous savez qu'il a vu la photo, mais vous ne comprenez pas pourquoi il a interprété les choses de travers. Est-ce qu'il a mal vu ? Est-ce qu'il a fait une association bizarre ? Ou est-ce qu'il a juste ignoré le détail important ?

C'est exactement le problème que les chercheurs de ce papier (présenté à ICLR 2026) veulent résoudre avec les Modèles de Vision-Langage (ces IA qui voient des images et parlent).

Voici une explication simple de leur invention, VisualScratchpad, en utilisant des analogies du quotidien.

1. Le Problème : L'IA a une "boîte noire"

Actuellement, quand une IA comme LLaVA regarde une photo et répond à une question, c'est comme si elle parlait dans une boîte noire. On voit l'entrée (la photo) et la sortie (la réponse), mais on ne sait pas ce qui se passe à l'intérieur.

Exemple : L'IA voit un gobelet posé sur une main gantée. Elle répond : "Le gobelet est sur une table."
Pourquoi ? On ne sait pas si elle n'a pas vu la main, si elle a confondu la main avec une table, ou si elle a juste deviné.

2. La Solution : VisualScratchpad (Le "Bloc-notes Visuel")

Les auteurs ont créé un outil appelé VisualScratchpad. Imaginez-le comme un bloc-notes magique que l'IA utilise pour penser avant de répondre. Cet outil permet de :

Voir ce que l'IA "voit" (les concepts visuels).
Voir ce que l'IA "pense" (les mots qu'elle associe à ce qu'elle voit).
Faire des expériences pour voir ce qui change la réponse.

3. Comment ça marche ? (L'analogie du Chef et du Sous-chef)

Pour comprendre le fonctionnement technique sans les maths, imaginons une cuisine :

Le Chef (Le Vision Encoder) : C'est l'œil de l'IA. Il regarde l'ingrédient (la photo) et le découpe en petits morceaux. Il dit : "Je vois du rouge, une forme ronde, une texture de tricot." Mais il parle un langage technique que le Chef ne comprend pas toujours bien.
Le Sous-chef (Le Modèle de Langage) : C'est celui qui rédige la recette finale (la réponse). Il écoute le Chef, mais parfois, il ne comprend pas bien ce que le Chef veut dire.

VisualScratchpad agit comme un traducteur et un inspecteur :

L'Étape 1 : Le Dictionnaire des Concepts (SAE)
Les chercheurs utilisent un outil appelé "Sparse Autoencoder" (SAE). Imaginez que c'est un dictionnaire géant qui traduit le jargon technique du Chef en mots simples. Au lieu de dire "activation du neurone 452", le dictionnaire dit : "Ah, c'est un gant de laine !" ou "C'est une table en bois".
- L'astuce : Au lieu de regarder tout le dictionnaire, ils ne regardent que les mots qui sont vraiment importants pour la question posée.
L'Étape 2 : La Carte de l'Attention (Le Heatmap)
L'outil crée une carte thermique (un tableau coloré). Il montre quels mots du dictionnaire sont liés à quels mots de la phrase.
- Exemple : Si l'IA dit "main", la carte montre si elle a bien regardé le "gant" dans l'image. Si la carte est rouge (forte connexion), c'est bon. Si elle est verte (faible connexion), c'est là que le problème se cache.
L'Étape 3 : La Chirurgie (L'Ablation)
C'est la partie la plus cool. VisualScratchpad permet de couper l'alimentation à certains concepts dans le cerveau de l'IA.
- Expérience : "Et si on enlevait l'idée de 'chaise' de la tête de l'IA ?"
- Résultat : Si la réponse change de "Il est assis" à "Il est debout", alors on sait que l'IA s'était trompée parce qu'elle s'était trop focalisée sur l'idée de "chaise" (ou de "roue de fauteuil") au lieu de regarder la réalité.

4. Les Trois Erreurs Découvertes (Les Cas d'Étude)

En utilisant ce bloc-notes magique, les chercheurs ont trouvé trois raisons pour lesquelles l'IA se trompe :

Le Malentendu (Mauvaise connexion) :
- Situation : L'IA voit un gant, mais le mot "main" dans sa tête ne s'allume pas assez fort.
- Analogie : C'est comme si vous voyiez un chien, mais que votre cerveau ne faisait pas le lien avec le mot "chien" parce que vous pensiez à "animal".
- Solution : En reformulant la question pour être plus précise ("Est-ce sur une main avec un gant ?"), on force le lien et l'IA a raison.
Le Mauvais Indice (Association trompeuse) :
- Situation : L'IA voit un fauteuil roulant et pense immédiatement "assis", même si la personne est debout à côté.
- Analogie : C'est comme si vous voyiez un uniforme de pompier et que vous pensiez immédiatement "incendie", alors qu'il n'y a qu'un exercice de formation. L'IA se fie à un stéréotype plutôt qu'à la réalité.
- Solution : En "désactivant" l'idée de "fauteuil" dans le bloc-notes, l'IA réalise enfin que la personne est debout.
L'Indice Caché (Le message non utilisé) :
- Situation : L'IA voit une image d'illusion d'optique (un canard qui ressemble à un lapin). Elle dit "C'est un canard", mais dans son cerveau, l'idée de "lapin" est aussi là, juste en dessous.
- Analogie : C'est comme si vous aviez deux opinions dans votre tête, mais que vous ne disiez que la première.
- Solution : En "éteignant" l'idée de canard et en "amplifiant" celle de lapin, on peut faire dire à l'IA : "Ah, en fait, c'est un lapin !" Cela prouve que l'IA avait toutes les informations, mais qu'elle n'a pas choisi la bonne.

En Résumé

VisualScratchpad est un outil de "dépannage" pour les intelligences artificielles. Au lieu de deviner pourquoi elles font des erreurs, il permet aux humains de :

Regarder ce que l'IA a vu.
Comprendre ce qu'elle a pensé.
Modifier ses pensées pour voir si la réponse s'améliore.

C'est comme donner un microscope aux développeurs pour voir les pensées de l'IA, et un scalpel pour opérer ses erreurs, afin de construire des IA plus fiables et plus dignes de confiance.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Les modèles de langage et de vision (VLM) performants continuent de produire des réponses incorrectes, mais leurs modes d'échec restent souvent opaques et difficiles à expliquer. Les questions centrales sont :

Les erreurs proviennent-elles d'une perception insuffisante des indices visuels ?
Le modèle se fie-t-il à des indices visuels trompeurs ?
Comment déboguer systématiquement le comportement interne d'un VLM pendant l'inférence ?

L'interprétabilité mécanistique tente de répondre à ces questions en analysant les poids et les schémas d'activation, mais une difficulté majeure réside dans le fait qu'un seul neurone est souvent activé par plusieurs concepts non liés (superposition). Bien que les Autoencodeurs Parses (SAE) aient démontré leur potentiel pour décomposer les représentations denses en unités sémantiques interprétables, leur application pratique aux VLM manque d'interfaces unifiées pour une analyse systématique et un débogage causal.

2. Méthodologie : VisualScratchpad

Les auteurs proposent VisualScratchpad, une interface interactive conçue pour l'analyse de concepts visuels et le débogage causal pendant l'inférence. La méthodologie repose sur trois piliers principaux :

A. Extraction de concepts visuels via SAE

Architecture : Un SAE standard est entraîné sur un encodeur de vision gelé (CLIP-ViT-large).
Transformation : Les représentations intermédiaires des images ( $z$ ) sont projetées dans un espace latent de haute dimension et de grande parcimonie ( $h$ ).
Granularité : Contrairement aux neurones denses, ces latents SAE capturent des concepts visuels granulaires (couleurs, textures, objets, scènes) qui peuvent être attribués sémantiquement.

B. Liaison Concepts-Texte via l'Attention

Pour éviter les confusions introduites par les couches de projection et l'attention croisée dans le modèle de langage, les auteurs lient les concepts visuels aux jetons de texte a posteriori :

Carte d'Attention : Ils utilisent les cartes d'attention "texte-vers-image" (depuis les jetons de sortie vers les patches d'image).
Re-ranking pondéré : Les activations des latents SAE (au niveau des patches) sont moyennées en pondérant par la carte d'attention. Cela permet de reclasser les concepts visuels en fonction de leur pertinence pour un jeton de texte spécifique, mettant en avant les concepts que le modèle utilise réellement pour générer une réponse.

C. Analyse Causale et Heatmap Token-Latent

Pour vérifier l'influence causale d'un concept, les auteurs proposent une méthode d'ablation :

Heatmap Token-Latent : Une visualisation qui regroupe les latents activés pour chaque jeton de texte. Les latents sont regroupés (clustering) selon leur similarité d'activation à travers les jetons.
Ablation : Les utilisateurs peuvent sélectionner un cluster de latents (représentant un concept sémantique) et remplacer ses activations par zéro (ou une valeur spécifique) avant la décodage.
Validation : Si la réponse du modèle change de manière cohérente (ex: suppression d'un sujet de la légende), cela prouve l'influence causale de ce concept latent.

3. Contributions Clés

Interface Unifiée VisualScratchpad : Un outil interactif intégrant l'exploration de latents SAE, l'inférence de modèles (VQA et classification), l'observation interne (cartes d'attention, heatmaps) et la modification des latents (steering/ablation).
Méthode de Liaison Post-hoc : Une approche novatrice qui connecte les concepts de l'encodeur de vision aux jetons de langage via l'attention, permettant d'analyser le flux d'information sans modifier l'architecture du modèle.
Visualisation pour le Steering : Introduction d'une heatmap "Token-Latent" qui aide les utilisateurs à identifier les ensembles suffisants de latents à ablater pour un contrôle efficace des concepts, résolvant le problème de la sélection de sous-ensembles pertinents.

4. Résultats et Études de Cas

À travers trois études de cas sur le modèle LLaVA-Next-8B, les auteurs révèlent trois modes d'échec sous-explorés :

Cas 1 : Alignement Intermodal Limité
- Scénario : Le modèle voit correctement une main gantée mais répond que la tasse est sur une "surface".
- Diagnostic : Le concept visuel "gant" est activé mais mal aligné avec le concept textuel "main".
- Résultat : En reformulant la question pour inclure "main avec un gant", le modèle corrige sa réponse, prouvant que l'information était présente mais sous-utilisée.
Cas 2 : Ancrage sur des Indices Trompeurs
- Scénario : Le modèle répond qu'une personne âgée est "assise" alors qu'elle est debout, en se basant sur la présence d'un fauteuil roulant ou d'un déambulateur.
- Diagnostic : Le modèle active des concepts liés à "fauteuil" et "assis" de manière associative, même si l'indice visuel principal (la posture) indique le contraire.
- Résultat : L'ablation des latents liés au "fauteuil" fait basculer la prédiction vers "debout".
Cas 3 : Indices Cachés Inutilisés
- Scénario : Une illusion d'optique (canard/lapin). Le modèle décrit initialement un "canard".
- Diagnostic : Les concepts liés au "lapin" sont également activés dans l'encodeur visuel mais sont dominés par le "canard".
- Résultat : En ablatant les latents "canard" et en amplifiant ceux du "lapin", la sortie change pour décrire un "lapin". Cela montre que le modèle encode plus d'informations visuelles que ce qu'il produit en sortie.

5. Signification et Impact

Ce travail est significatif car il comble le fossé entre l'interprétabilité théorique (SAE) et le débogage pratique des VLM.

Débogage Systématique : Il offre une méthode pour distinguer les erreurs de perception (l'encodeur ne voit pas) des erreurs de raisonnement (le modèle ignore ce qu'il voit ou se fie à de mauvaises associations).
Sécurité et Fiabilité : En permettant de tester causalement l'influence de concepts spécifiques, l'outil aide à identifier les biais et les mécanismes de décision erronés, ce qui est crucial pour le développement d'une IA digne de confiance.
Extensibilité : Bien que l'outil soit actuellement interactif, il pose les bases pour de futures analyses causales automatisées à grande échelle et l'intégration de techniques similaires dans d'autres architectures multimodales.

En résumé, VisualScratchpad transforme la boîte noire des VLM en un système inspectable, permettant aux chercheurs de comprendre non seulement ce que le modèle répond, mais pourquoi il répond ainsi, en reliant directement les activations neuronales aux concepts sémantiques.