CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
Ce papier présente CountFormer, un cadre de comptage d'objets sans exemple qui remplace l'encodeur d'image par le modèle fondation auto-supervisé DINOv2 pour améliorer la cohérence structurelle et réduire les erreurs de surcomptage liées aux répétitions visuelles, tout en obtenant des performances compétitives sur le jeu de données FSC-147.