GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
Het paper introduceert GroundCount, een framework dat Vision-Language-modellen verrijkt met objectdetectie-gebaseerde ruimtelijke grounding om hallucinaties bij het tellen van objecten te verminderen en de nauwkeurigheid aanzienlijk te verbeteren.