GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
Il paper presenta GroundCount, un framework che integra modelli di rilevamento oggetti (ODM) con modelli visione-linguaggio (VLM) per fornire un ancoraggio spaziale esplicito, riducendo significativamente le allucinazioni nel conteggio e migliorando l'accuratezza attraverso strategie di prompting che superano la fusione implicita delle feature.