CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
Il paper introduce CountFormer, un framework basato su DINOv2 che, sostituendo l'encoder di immagini con rappresentazioni foundation auto-supervisionate, mira a migliorare la consistenza strutturale nel conteggio di oggetti senza esempi, ottenendo risultati competitivi su FSC-147 e riducendo gli errori di sovrastima legati a componenti simmetriche o strutture complesse.