Probing Visual Concepts in Lightweight Vision-Language Models for Automated Driving

Each language version is independently generated for its own context, not a direct translation.

🚗 Le Problème : La voiture autonome qui "voit" mais ne "comprend" pas

Imaginez que vous avez un copilote très intelligent pour votre voiture autonome. C'est un mélange d'un œil ultra-performant (qui voit tout sur la route) et d'un cerveau très cultivé (qui sait parler et raisonner). On l'appelle un "Modèle Vision-Langage".

L'idée est géniale : ce copilote devrait pouvoir gérer n'importe quelle situation bizarre sur la route (un chien qui traverse, un panneau cassé, un camion qui clignote). Mais en réalité, il fait des erreurs bêtes. Parfois, il ne voit pas un piéton qui est pourtant là, ou il ne sait pas si un vélo va tourner à gauche ou à droite.

Les chercheurs de l'Université de Limerick se sont demandé : "Où est-ce que ça coince exactement ? Est-ce que l'œil est aveugle, ou est-ce que le cerveau est distrait ?"

🔍 L'Expérience : Le "Test de Réalité"

Pour répondre à cette question, ils ont créé une expérience très ingénieuse, un peu comme un test de visionnage pour un détective.

Les Images "Jumeaux" : Ils ont généré des milliers de scènes de rue virtuelles (avec un simulateur de jeu vidéo appelé CARLA). Ils ont pris une image et l'ont modifiée très légèrement pour créer une paire d'images "jumelles".
- Exemple : Dans la première image, il y a un piéton. Dans la seconde, il n'y en a pas. Tout le reste (le ciel, la route, les arbres) est strictement identique.
- Ils ont fait pareil pour compter les objets, voir de quel côté une personne marche, ou dans quelle direction elle regarde.
Le "Détecteur de Pensée" (Sonde Linéaire) : Au lieu de juste regarder si la voiture répond bien, ils ont installé un petit "micro" à l'intérieur du cerveau de la voiture. Ce micro écoute les signaux électriques (les activations) à chaque étape du traitement :
- Étape 1 : L'œil (le Vision Encoder) qui regarde l'image.
- Étape 2 : Le traducteur (le Projector) qui convertit l'image en langage.
- Étape 3 : Le cerveau (le LLM) qui réfléchit et répond.

Ils ont entraîné un petit détecteur simple pour dire : "Est-ce que le signal électrique change quand le piéton apparaît ou disparaît ?"

🎭 Les Deux Types d'Échecs Découverts

C'est ici que la découverte devient fascinante. Ils ont identifié deux façons différentes dont la voiture peut échouer, comme deux types de problèmes humains :

1. L'Échec de Perception (L'œil est aveugle)

C'est comme si vous portiez des lunettes de soleil trop foncées. Le piéton est là, mais l'œil de la voiture ne le "voit" tout simplement pas dans son signal interne.

Ce qui se passe : Le détecteur interne ne trouve aucune trace du piéton.
La cause : L'information visuelle n'a jamais bien été encodée dès le début. C'est souvent le cas quand l'objet est loin (à 50 mètres). Plus c'est loin, plus l'image est petite, et plus l'œil de la voiture perd le fil.

2. L'Échec Cognitif (Le cerveau est distrait)

C'est le cas le plus étrange. Imaginez que vous avez les lunettes parfaites, vous voyez le piéton très clairement, mais votre cerveau, au moment de décider, dit : "Ah non, il n'y a personne !"

Ce qui se passe : Le détecteur interne crie : "HÉ ! LE PIÉTON EST LÀ !" (Le signal est fort et clair). Mais la réponse finale de la voiture est : "Non, il n'y a rien."
La cause : L'information est là, mais le cerveau (le modèle de langage) n'arrive pas à faire le lien entre ce qu'il voit et la question posée. Il a "oublié" d'utiliser l'information qu'il possédait. C'est comme si vous saviez la réponse à un quiz, mais que vous aviez la trouille de la dire.

📉 La Distance est l'Ennemie

Les chercheurs ont aussi découvert une chose inquiétante : la distance tue la précision.
Même pour des choses simples comme "y a-t-il un objet ?", plus l'objet est loin, plus le signal devient flou dans le cerveau de la voiture. À 50 mètres, la voiture commence à douter, même si l'objet est gros.

💡 Les Analogies pour Résumer

L'Architecture de la voiture : C'est une chaîne de montage.
- L'œil prend la photo.
- Le traducteur l'écrit en mots.
- Le cerveau lit les mots et répond.
La découverte clé : Souvent, on pense que le problème vient du cerveau (le langage), mais en réalité, c'est souvent l'œil qui ne transmet pas bien l'image, ou alors le cerveau qui, même avec l'image, fait une erreur de logique.

🚀 Pourquoi c'est important pour la route ?

Si on veut que les voitures autonomes soient sûres, on ne peut pas juste dire "entraînez plus le cerveau". Il faut savoir où ça bloque :

Si c'est un problème de perception, il faut améliorer les caméras ou la façon dont l'image est traitée au début.
Si c'est un problème cognitif, il faut apprendre au cerveau à mieux faire confiance à ce qu'il voit et à mieux aligner ses pensées avec la réalité visuelle.

En résumé, cette étude nous dit : "Ne blâmez pas seulement le cerveau de la voiture. Parfois, c'est ses yeux qui ont besoin de lunettes, et parfois, c'est son esprit qui a besoin de se concentrer."

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

L'intégration des modèles Vision-Language (VLM) dans la conduite automatisée vise à améliorer la gestion des scénarios "longue traîne" grâce à leurs capacités de raisonnement et de généralisation. Cependant, ces modèles échouent souvent sur des questions visuelles simples mais critiques pour la sécurité routière (ex: orientation d'un piéton, présence d'un objet à distance).
Le problème central identifié par les auteurs est l'absence de compréhension des mécanismes de défaillance internes. Il est difficile de déterminer si un échec provient d'une mauvaise perception visuelle (le modèle ne "voit" pas l'information) ou d'un problème de raisonnement (le modèle "voit" l'information mais échoue à l'aligner avec la sémantique linguistique). De plus, la plupart des recherches se concentrent sur des modèles massifs, alors que la conduite automatisée nécessite des modèles légers (< 4 milliards de paramètres) compatibles avec le matériel embarqué (ex: NVIDIA Jetson).

2. Méthodologie

Les auteurs proposent une approche d'interprétabilité basée sur l'analyse des activations intermédiaires des VLMs à l'aide de probes linéaires (classificateurs linéaires simples).

Données Contrefactuelles : Pour isoler des concepts spécifiques, les auteurs ont généré des ensembles d'images contrefactuelles via le simulateur CARLA. Ces paires d'images sont identiques à l'exception d'un seul concept visuel ciblé. Les concepts étudiés sont :
1. Présence : Existence d'un objet (piéton, tonneau).
2. Comptage : Nombre d'instances d'un objet (0 à 4).
3. Relation spatiale : Position relative (ex: clignotant gauche/droit, piéton à gauche/droite).
4. Orientation : Direction de déplacement (gauche/droite).
  Les images sont générées à différentes distances (5m à 50m) pour étudier l'impact de la distance.
Architectures Testées : Quatre VLMs légers (< 4B de paramètres) ont été analysés : Ovis2.5, InternVL3.5, et deux versions de VST (VST-SFT et VST-RL). L'architecture typique est : Encodeur Visuel $\rightarrow$ Projecteur $\rightarrow$ LLM.
Extraction et Compression des Activations :
- Les activations sont extraites de chaque bloc transformeur de l'encodeur visuel, du projecteur et du LLM.
- Pour réduire la dimensionnalité, deux stratégies de pooling sont utilisées :
  - Moyenne globale (Average Pooling) : Pour détecter l'encodage explicite et linéaire d'un concept.
  - Pooling par régions (Region Pooling) : L'image est divisée en régions (gauche/droite) pour préserver une structure spatiale minimale, permettant de tester si l'information spatiale est implicitement conservée.
Entraînement des Probes : Des classificateurs linéaires sont entraînés sur ces activations pour distinguer les classes des ensembles contrefactuels. La précision du probe indique si le concept est linéairement séparable à cette couche spécifique.

3. Contributions Clés

Cartographie des goulots d'étranglement : Analyse couche par couche du flux d'information visuelle dans des VLMs légers pour des concepts critiques en conduite automatisée.
Définition de deux modes de défaillance :
- Défaillance Perceptive : L'information visuelle n'est pas encodée linéairement dans les activations du modèle (le probe échoue).
- Défaillance Cognitive : L'information est bien encodée (le probe réussit), mais le modèle échoue à l'aligner avec la sémantique linguistique pour produire la bonne réponse.
Impact de la distance : Démonstration que l'augmentation de la distance de l'objet dégrade rapidement la séparabilité linéaire des concepts visuels.

4. Résultats Principaux

Encodage des Concepts :
- Présence et Comptage : Ces concepts sont explicitement et linéairement encodés, surtout à courte distance. La qualité de l'encodage s'améliore souvent dans les couches moyennes du LLM, suggérant que le LLM aide à raffiner la représentation en connaissant la question.
- Relations Spatiales et Orientation : Ces concepts ne sont pas explicitement encodés de manière linéaire dans l'espace d'activation de l'encodeur visuel. Cependant, une structure spatiale implicite est conservée (détectée par le region pooling), permettant au LLM de les inférer plus tard.
- Limites de l'Orientation : L'orientation est particulièrement mal encodée. Même si la structure spatiale est préservée, le LLM échoue souvent à l'extraire explicitement pour répondre correctement.
Analyse des Défaillances (Figure 7) :
- Les auteurs observent un écart significatif entre la précision du probe et celle du modèle final.
- Défaillance Perceptive : Fréquente pour les objets lointains où l'encodeur visuel ne capture pas assez d'information.
- Défaillance Cognitive : Fréquente pour des tâches comme l'orientation ou le comptage complexe. Le probe détecte l'information (haute précision), mais le modèle donne une mauvaise réponse. Cela suggère un problème d'alignement entre les features visuelles et l'espace linguistique.
Impact de la Distance :
- La séparabilité linéaire des concepts se dégrade rapidement avec la distance (50m). L'encodeur visuel est le principal goulot d'étranglement pour les objets lointains, mais le LLM ne parvient pas toujours à compenser cette perte d'information.
Comparaison des Modèles :
- Ovis2.5 montre de meilleures performances globales, notamment pour les tâches spatiales.
- InternVL3.5 présente des comportements spécifiques, comme une dégradation de l'encodage dans les premières couches du LLM avant récupération, et un projecteur agissant comme un goulot d'étranglement pour l'orientation.

5. Signification et Implications

Ce travail est crucial pour le déploiement des VLMs dans la conduite automatisée car :

Diagnostic Précis : Il permet de distinguer si un échec provient d'un problème de perception (nécessitant un meilleur encodeur visuel) ou de raisonnement/alignement (nécessitant un meilleur entraînement du LLM ou de l'alignement multimodal).
Sécurité : Il met en évidence que les modèles actuels, même performants sur des tâches générales, sont fragiles sur des détails spatiaux fins et à longue distance, ce qui est critique pour la sécurité routière.
Optimisation des Ressources : En se concentrant sur des modèles légers, l'étude fournit des pistes réalistes pour l'intégration sur du matériel embarqué, tout en soulignant que la réduction de la taille du modèle ne doit pas se faire au détriment de la capacité à encoder des concepts spatiaux fins.

En conclusion, l'article démontre que la simple utilisation de VLMs pour la conduite automatisée est insuffisante sans une compréhension profonde de leurs limites internes, et propose un cadre méthodologique pour identifier et adresser spécifiquement les défaillances perçues et cognitives.