CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Dit paper introduceert CountFormer, een exemplaarvrij framework dat de DINOv2-vision foundation model gebruikt om visuele herhaling en structuur te leren voor objecttelling, en toont aan dat representatiekwaliteit cruciaal is voor het verminderen van overtellingen bij complexe objecten, hoewel de prestaties op de FSC-147-benchmark vergelijkbaar blijven met eerdere methoden.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen

Gepubliceerd 2026-03-10
📖 4 min leestijd☕ Koffiepauze-leesvoer

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je naar een drukke markt kijkt. Je ziet honderden appels, maar je weet niet hoe ze heten in het Frans of het Chinees. Toch kun je ze tellen. Hoe? Je ziet niet alleen de vorm, maar je ziet ook hoe ze in groepjes liggen, hoe ze op elkaar lijken en hoe ze samen een geheel vormen.

Mensen doen dit heel natuurlijk. Computers daarentegen? Die hebben het vaak moeilijk. Als je een computer vraagt om een bril te tellen, kan hij verward raken. Hij ziet twee glazen en denkt: "Aha, dat zijn twee verschillende objecten!" terwijl het eigenlijk één object is. Of hij telt elke poot van een stoel apart, in plaats van de hele stoel.

Dit is het probleem dat de onderzoekers van de universiteit van Rajshahi in Bangladesh wilden oplossen met hun nieuwe model, CountFormer.

Hier is hoe het werkt, vertaald naar alledaags taal:

1. De "Super-Oog" (DINOv2)

Stel je voor dat je een computer een boek leert lezen voordat je hem vraagt om te tellen. De onderzoekers hebben CountFormer een "super-oog" gegeven, genaamd DINOv2.

  • Hoe werkt het? Dit is een slimme computer die zichzelf heeft geleerd om naar duizenden foto's te kijken zonder dat iemand hem vertelde wat erop staat. Hij heeft geleerd om patronen te zien, net als een kind dat leert dat een hond eruitziet als een hond, of dat een bril twee glazen heeft die bij elkaar horen.
  • Het verschil: Andere modellen kijken vaak alleen naar "wat" er is (bijvoorbeeld: "dat is een lens"). CountFormer kijkt ook naar "hoe" het eruitziet en hoe de onderdelen bij elkaar horen. Het begrijpt dat de twee glazen van een bril samen één bril vormen.

2. De "Kruisjes op de kaart" (De Positieve Embeddings)

Soms vergeten slimme computers waar iets precies staat. Ze zien een vorm, maar weten niet of die vorm links of rechts is.

  • De oplossing: De onderzoekers hebben een trucje toegevoegd: ze plakken een onzichtbaar rooster (een soort GPS-kaart) op de foto. Dit zorgt ervoor dat het model niet alleen ziet wat er is, maar ook precies waar het zit. Het helpt het model om de onderdelen van een object niet als losse stukjes te zien, maar als één geheel op de juiste plek.

3. De "Druktekaart" (De Density Map)

In plaats van één voor één objecten te zoeken (wat lastig is als er duizenden zijn), maakt CountFormer een soort "hittekaart" of "druktekaart" van de foto.

  • Hoe werkt het? Waar er veel objecten zijn, wordt de kaart rood. Waar er weinig zijn, is hij blauw.
  • De telling: Om het totale aantal te krijgen, telt de computer gewoon hoeveel "rood" er op de kaart zit. Het is alsof je de hoeveelheid regen in een emmer meet in plaats van elke regendruppel apart te tellen.

Wat hebben ze ontdekt?

De onderzoekers hebben hun model getest op een moeilijke verzameling foto's met allerlei rare objecten (van Lego-stukjes tot vogels).

  • Het goede nieuws: CountFormer is veel beter in het tellen van complexe dingen. Als je een bril ziet, telt hij die als één object, in plaats van twee glazen. Hij maakt minder fouten bij dingen die uit meerdere onderdelen bestaan.
  • Het minder goede nieuws: Als een foto extreem vol zit (bijvoorbeeld een doos vol met duizenden kleine Lego-stukjes die perfect op elkaar liggen), raakt het model nog steeds in de war. Het kan dan niet goed zien waar het ene stukje eindigt en het andere begint.
  • De verrassing: De onderzoekers merkten iets interessants op: de "gemiddelde fout" van hun model zag er niet zo geweldig uit. Maar dat kwam vooral door een paar foto's met extreem veel objecten. Als je die paar extreme foto's even buiten beschouwing laat, presteert het model eigenlijk heel goed! Dit laat zien dat de "gemiddelde score" soms niet eerlijk is als er een paar heel moeilijke uitzonderingen zijn.

Waarom is dit belangrijk?

Vroeger moesten computers altijd een voorbeeldfoto krijgen van wat ze moesten tellen (bijvoorbeeld: "kijk, dit is een appel, zoek nu alle appels"). CountFormer doet dit zonder voorbeelden. Het kan naar een foto kijken van iets dat het nog nooit heeft gezien (bijvoorbeeld een vreemd soort bloem) en toch een redelijke schatting maken, puur omdat het begrijpt hoe de onderdelen bij elkaar horen.

Kortom: CountFormer is als een slimme waarnemer die niet alleen naar de vorm kijkt, maar ook begrijpt hoe de onderdelen van een object samenwerken. Het is een stap dichter bij het menselijke vermogen om dingen te tellen, zelfs als we niet weten hoe ze heten.