CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
本論文は、自己教師あり学習に基づくビジョン基盤モデル DINOv2 を用いたトランスフォーマーフレームワーク「CountFormer」を提案し、例示なしの物体数え上げにおいて視覚的反復や構造の学習がどのように改善されるかを検証し、FSC-147 ベンチマークで競争力のある性能を示すとともに、表現の質が数え上げ精度に重要であることを明らかにしています。