CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Die Arbeit stellt CountFormer vor, ein exemplarfreies Framework, das durch den Einsatz des selbstüberwachten Vision-Modells DINOv2 die strukturelle Konsistenz beim Zählen unbekannter Objekte verbessert und zeigt, dass die Qualität der Repräsentation entscheidend für die Leistungsfähigkeit in diesem Bereich ist.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen

Veröffentlicht 2026-03-10
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stellen Sie sich vor, Sie stehen in einem riesigen, bunten Spielzeugladen. Vor Ihnen liegen Tausende von kleinen Lego-Steinen, eine große Menge an Brillen und Haufen von Stiften. Ein Mensch würde sofort sagen: „Oh, das sind 50 Brillen!" Warum? Weil unser Gehirn nicht nur die Form der Objekte erkennt, sondern auch versteht, wie die Teile zusammengehören. Wir wissen: Zwei Gläser und ein Bügel ergeben eine Brille, nicht zwei Objekte.

Computer hingegen haben oft ein Problem damit. Wenn sie eine Brille sehen, zählen sie manchmal die beiden Gläser einzeln und kommen auf „2" statt auf „1". Sie sehen die Teile, aber nicht das Ganze.

Genau hier kommt die neue Forschung „CountFormer" ins Spiel. Die Wissenschaftler haben eine Art „intelligenten Zähler" entwickelt, der lernen soll, wie ein Mensch zu sehen, ohne dass man ihm vorher Beispiele zeigen muss.

Hier ist die Geschichte des CountFormer, einfach erklärt:

1. Das Problem: Der Computer zählt nur die Teile

Bisherige Computer-Programme waren wie sehr fleißige, aber etwas naive Zähler. Wenn sie eine Brille sahen, zählten sie oft jeden einzelnen Teil (die Gläser, den Bügel) als eigenes Objekt. Das nennt man „Überzählen". Sie fehlten das große Bild, weil sie nur auf die Details schauten, ohne zu verstehen, wie diese Teile zusammenpassen.

2. Die Lösung: Ein „Super-Auge" namens DINOv2

Die Forscher haben dem Computer ein neues, sehr starkes „Auge" gegeben. Dieses Auge heißt DINOv2.

  • Die Analogie: Stellen Sie sich vor, ein normales Computer-Auge ist wie ein Kind, das gerade erst lernt, Formen zu erkennen. Es sieht einen Kreis und denkt: „Das ist ein Kreis."
  • Das DINOv2-Auge ist wie ein erfahrener Künstler oder ein Biologe. Es wurde nicht mit Texten trainiert, sondern hat Milliarden von Bildern allein durch Beobachtung studiert. Es versteht nicht nur, was ein Objekt ist, sondern auch, wie es aufgebaut ist. Es weiß intuitiv: „Diese zwei Kreise gehören zusammen, weil sie symmetrisch sind und einen Rahmen teilen."

3. Der Trick: Ein Koordinatensystem im Kopf

Nur das „Auge" allein reicht nicht. Der Computer braucht auch ein Gefühl für den Ort.

  • Die Analogie: Stellen Sie sich vor, Sie versuchen, ein Puzzle zu lösen, aber die Teile liegen alle durcheinander auf einem Tisch ohne Bildvorlage. Das ist schwer.
  • Der CountFormer fügt dem Bild eine unsichtbare Landkarte (Positionseingebungen) hinzu. Er sagt dem Computer: „Dieses Teil ist hier, und dieses Teil ist dort, und sie gehören zusammen, weil sie nebeneinander liegen." So bleibt die räumliche Struktur erhalten.

4. Wie funktioniert das Zählen? (Die Dichte-Karte)

Statt jeden einzelnen Gegenstand mit einem Kasten umranden zu müssen (was bei tausenden kleinen Objekten unmöglich ist), malt der CountFormer eine unsichtbare Dichte-Karte über das Bild.

  • Die Analogie: Stellen Sie sich vor, Sie streuen Sand über das Bild. Wo viele Objekte sind, wird der Sandhaufen hoch. Wo keine sind, ist es flach.
  • Am Ende zählt der Computer einfach, wie viel Sand insgesamt auf dem Bild liegt. Das Ergebnis ist die Gesamtzahl.

5. Was haben sie herausgefunden?

Die Forscher haben ihren neuen Zähler an einer großen Sammlung von Bildern getestet (FSC-147), die alles Mögliche enthält: von Vögeln über Lego bis hin zu Brillen.

  • Das Ergebnis: Der CountFormer ist nicht der absolute Weltmeister in der reinen Zahlenleistung (er ist nicht schneller als alle anderen), aber er macht weniger dumme Fehler.
  • Das Highlight: Bei komplexen Objekten wie Brillen zählt er viel besser. Er versteht, dass zwei Gläser eine Brille sind. Andere Programme zählten oft die Gläser einzeln.
  • Die Überraschung: Die Forscher stellten fest, dass die offiziellen Testergebnisse stark von ein paar extrem überfüllten Bildern beeinflusst wurden (wie ein Haufen Lego-Steine, die kaum zu unterscheiden sind). Wenn man diese extremen Fälle ausblendet, sieht der CountFormer noch viel besser aus.

Zusammenfassung

Der CountFormer ist wie ein neuer Zähler, der nicht nur „zählt", sondern wirklich versteht. Er nutzt ein super-intelligentes visuelles Gedächtnis (DINOv2) und eine Landkarte, um zu erkennen, dass Teile zu einem Ganzen gehören.

Er ist vielleicht nicht der schnellste Rechner im Raum, aber er ist derjenige, der am wenigsten verwirrt ist, wenn er vor einem Haufen von Dingen steht, die er noch nie gesehen hat. Er zeigt uns, dass es für Computer wichtig ist, nicht nur zu sehen, sondern auch die Struktur der Dinge zu begreifen.