CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
Die Arbeit stellt CountFormer vor, ein exemplarfreies Framework, das durch den Einsatz des selbstüberwachten Vision-Modells DINOv2 die strukturelle Konsistenz beim Zählen unbekannter Objekte verbessert und zeigt, dass die Qualität der Repräsentation entscheidend für die Leistungsfähigkeit in diesem Bereich ist.