GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

Le papier présente GroundCount, un cadre qui améliore la précision du comptage des modèles vision-langage en intégrant des données de détection d'objets pour atténuer les hallucinations, démontrant que l'ancrage spatial explicite surpasse la fusion de caractéristiques implicite tout en réduisant le temps d'inférence.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique

Publié 2026-03-12
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🎨 Le Problème : Les "Rêveurs" qui Comptent Mal

Imaginez que vous avez un ami très intelligent, un Vision-Language Model (VLM). C'est un robot qui peut voir des photos et répondre à des questions sur elles. Il est brillant pour décrire une scène, dire si quelqu'un est heureux, ou identifier un objet.

Mais il y a un gros problème : il est terrible pour compter.

Si vous lui montrez une photo avec 5 pommes et que vous lui demandez : "Combien de pommes y a-t-il ?", il va souvent halluciner. Il peut dire "3", puis "7", puis se reprendre et dire "4". Il semble perdu dans ses propres pensées, confondant ce qu'il voit avec ce qu'il pense qu'il devrait voir. C'est comme si un artiste peintre, en regardant un tableau, décidait soudainement d'ajouter ou de retirer des objets parce que son imagination est plus forte que ses yeux.

Les chercheurs ont découvert que même les modèles les plus avancés (les "génies" de l'IA) échouent systématiquement sur cette tâche simple, alors qu'ils excellent ailleurs.

🔍 La Solution : Le Détective de Confiance (GroundCount)

Pour régler ce problème, les auteurs (de l'Université de New York) ont eu une idée géniale : ne pas essayer de rééduquer le "génie", mais lui donner un assistant.

Imaginez que votre ami rêveur (le VLM) est un chef cuisinier très créatif mais distrait. Pour compter les ingrédients, il a besoin d'un détective (un modèle de détection d'objets comme YOLO) qui est excellent pour repérer les choses, les localiser et les compter avec une précision chirurgicale.

Leur méthode, appelée GroundCount, fonctionne en trois étapes simples :

  1. Le Détective scanne la photo : Avant que le chef ne regarde l'image, le détective (YOLO) passe un coup d'œil rapide. Il dit : "J'ai vu 3 personnes à gauche, 2 chats au centre, et 1 vélo à droite."
  2. Le Chef reçoit la note : Au lieu de demander au chef de chercher lui-même, on lui donne cette liste écrite : "Note : 3 personnes, 2 chats, 1 vélo."
  3. Le Chef répond : Maintenant, le chef n'a plus besoin de deviner. Il lit la note, vérifie rapidement l'image pour confirmer, et donne la réponse exacte.

🚀 Les Résultats : Plus Vite et Plus Juste

Ce qui est surprenant, c'est que cette méthode ne rend pas le système plus lent. Au contraire, elle l'accélère !

  • Avant : Le chef passait 10 secondes à se demander "Attends, est-ce que c'est un chat ou un chien ? Combien y en a-t-il ?" en tournant en rond (ce qu'on appelle une "boucle d'hallucination").
  • Après : Avec la note du détective, il répond en 7,8 secondes. Il a gagné du temps car il ne perd plus de temps à rêver.

Sur les tests, la précision est passée de 74,7 % à 81,3 %. C'est une énorme amélioration pour une tâche aussi basique que compter.

🧪 Les Découvertes Intéressantes (Les "Leçons")

En testant leur méthode, les chercheurs ont appris trois choses importantes :

  1. Les détails de position sont cruciaux (pour les forts) : Dire "Il y a 3 pommes" ne suffit pas toujours. Il faut dire "Il y a 3 pommes : une en haut à gauche, une en bas au milieu...". Pour les modèles les plus intelligents, cette précision spatiale est comme une boussole indispensable.
  2. Parfois, moins c'est mieux (pour les faibles) : Pour certains modèles plus petits ou moins puissants, donner trop d'informations (comme un score de confiance "98%") les embrouille. Ils préfèrent une liste simple. C'est comme donner une carte routière trop détaillée à quelqu'un qui ne sait pas lire les cartes : il se perd.
  3. Le texte bat l'image (pour l'instant) : Les chercheurs ont essayé de fusionner les "cerveaux" du chef et du détective au niveau des circuits électroniques (une fusion complexe). Résultat ? Ça a moins bien marché que de simplement donner la liste écrite au chef. Cela prouve que nos IA actuelles comprennent mieux les mots clairs et structurés que les mélanges complexes de signaux invisibles.

🏁 Conclusion : Pourquoi c'est important ?

Cette recherche nous dit quelque chose de fondamental sur l'intelligence artificielle actuelle : elle est très bonne pour le "sens" (comprendre une émotion, une histoire), mais elle a du mal avec la "géométrie" (compter, localiser précisément).

Au lieu de construire une IA parfaite qui fait tout, GroundCount propose une approche pragmatique : collaborer. En combinant la créativité du langage avec la précision de la détection d'objets, on obtient un système plus fiable, plus rapide et plus digne de confiance.

C'est comme si on disait : "Ne demande pas à l'artiste de faire le travail de l'architecte. Demande-lui de dessiner la maison, mais laisse l'architecte compter les briques."