GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations
Die Arbeit stellt GroundCount vor, ein Framework, das die Zählgenauigkeit von Vision-Language-Modellen durch die Integration expliziter räumlicher Verankerung aus Objekterkennungsmodellen verbessert und so Halluzinationen reduziert, wobei die Wirksamkeit stark von der Architekturkompatibilität und der Art der Eingabe (z. B. Positionscodierung) abhängt.