GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
El artículo presenta GroundCount, un marco que mejora la precisión del conteo en modelos de visión y lenguaje al integrar detección de objetos basada en CNN para mitigar las alucinaciones espaciales, logrando mejoras significativas en la mayoría de las arquitecturas evaluadas mediante una estrategia de anclaje simbólico explícito.