GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
Le papier présente GroundCount, un cadre qui améliore la précision du comptage des modèles vision-langage en intégrant des données de détection d'objets pour atténuer les hallucinations, démontrant que l'ancrage spatial explicite surpasse la fusion de caractéristiques implicite tout en réduisant le temps d'inférence.