GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
O artigo apresenta o GroundCount, um framework que integra modelos de detecção de objetos a Modelos Visuais-Linguísticos (VLMs) para mitigar alucinações de contagem, demonstrando que a ancoragem espacial explícita via prompts estruturados supera a fusão de características e melhora significativamente a precisão na maioria das arquiteturas avaliadas.