CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
El artículo presenta CountFormer, un marco basado en el modelo de visión auto-supervisado DINOv2 que mejora la consistencia estructural en el conteo de objetos sin ejemplos al aprovechar la repetición visual, logrando un rendimiento competitivo en el conjunto de datos FSC-147.