CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
이 논문은 DINOv2 기반의 비지도 시각 표현을 활용하여 객체 범주에 구애받지 않는 시각적 반복과 구조 학습을 통해 객체 수를 추정하는 'CountFormer' 프레임워크를 제안하고, FSC-147 벤치마크에서 경쟁력 있는 성능을 보이며 표현의 질이 표본 없는 객체 수 세기에서 중요한 역할을 함을 입증합니다.