CountEx: Fine-Grained Counting via Exemplars and Exclusion

Die Arbeit stellt CountEx vor, ein diskriminatives visuelles Zählframework, das durch die Kombination von Inklusions- und Exklusionshinweisen sowie einen neuartigen Modul zur Abfrageverfeinerung die Unterscheidung ähnlicher Objekte in überfüllten Szenen verbessert, und führt zudem den CoCount-Benchmark zur systematischen Evaluierung ein.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai

Veröffentlicht 2026-02-24
📖 4 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein sehr genauer Zähler, der in einem riesigen, chaotischen Lagerhaus arbeitet. Deine Aufgabe ist es, genau zu zählen, wie viele rote Äpfel dort sind. Das Problem: Das Lager ist voll mit grünen Äpfeln, roten Birnen und anderen Dingen, die den roten Äpfeln zum Verwechseln ähnlich sehen.

Bisherige Zähler-Programme (KI-Modelle) waren wie ein etwas verwirrter Praktikant: Wenn du sagst „Zähle die roten Äpfel", zählte er oft auch die grünen Äpfel mit, weil er dachte: „Äpfel sind Äpfel, egal welche Farbe." Er konnte nicht gut unterscheiden, was du nicht willst.

Hier kommt CountEx ins Spiel – der neue, super-scharfsinnige Zähler.

Das Grundproblem: „Zähle das, aber ignoriere das!"

Stell dir vor, du sagst zu deinem Praktikanten: „Zähle die Penne-Nudeln, aber nicht die Spaghetti."
Ein alter Zähler würde verwirrt sein. Er sieht Nudeln, zählt sie alle und hofft, dass er die richtigen erwischt. Er versteht nicht, dass du die Spaghetti aktiv ausschließen willst, obwohl sie auch Nudeln sind.

CountEx ist anders. Es ist wie ein Zähler, dem du nicht nur sagst, was du suchst, sondern ihm auch eine Ausschlussliste gibst. Du kannst sagen: „Zähle die Penne, aber ignoriere die Spaghetti" oder sogar Bilder von den Spaghetti zeigen und sagen: „Das hier ist es, was du nicht zählen sollst."

Wie funktioniert CountEx? (Die drei Schritte)

Stell dir CountEx als einen cleveren Detektiv vor, der in drei Schritten arbeitet:

  1. Der Suchauftrag (Einschluss): Zuerst schaut der Detektiv auf das Bild und sammelt alle Kandidaten, die wie die gesuchten Penne-Nudeln aussehen. Er hat eine Liste von „Möglichen Penne".
  2. Der Ausschluss-Check (Verneinung): Dann schaut er auf deine Ausschlussliste (die Spaghetti). Er sucht nach den Mustern, die nur bei den Spaghetti vorkommen und nicht bei den Penne.
  3. Die Feinjustierung (Der Filter): Jetzt kommt der magische Teil. Der Detektiv nimmt seine Liste der „Möglichen Penne" und wischt vorsichtig alles heraus, was wie eine Spaghetti aussieht. Aber er ist vorsichtig: Er löscht nicht die ganze Nudel, sondern nur den „Spaghetti-Teil" des Bildes. Was übrig bleibt, sind die echten Penne.

Dieser Prozess nennt sich im Fachjargon „Diskriminative Query Refinement" (Diskriminierende Abfrage-Verfeinerung), aber einfach gesagt: Es ist wie ein Sieb, das nur das herausfiltert, was du nicht willst, und den Rest perfekt zählt.

Der neue Test: CoCount

Um zu beweisen, dass ihr System wirklich gut ist, haben die Forscher einen neuen Test entwickelt, den sie CoCount nennen.

Stell dir das wie eine riesige Prüfungsmappe vor. Bisherige Tests waren oft zu einfach: Sie zeigten nur eine Art von Nudeln auf einem leeren Tisch. Das war zu leicht.
CoCount ist wie ein Chaos-Test:

  • Es gibt 1.780 Videos mit über 10.000 Bildern.
  • Die Bilder sind voller Dinge: Penne und Spaghetti, schwarze und weiße Schokoladentäfelchen, große und kleine Schrauben.
  • Die Aufgabe ist immer: „Zähle nur das eine, ignoriere das andere, das fast gleich aussieht."

Das ist wie ein Sehtest für KI, bei dem man nicht nur „Rot" von „Blau" unterscheiden muss, sondern „Hellrot" von „Dunkelrot" in einem vollen Raum.

Was haben sie herausgefunden?

Die Ergebnisse sind beeindruckend:

  • CountEx ist der Gewinner: Auf diesem schwierigen Test hat CountEx deutlich besser abgeschnitten als alle anderen Zähler-Programme. Es macht viel weniger Fehler.
  • Es funktioniert auch bei neuen Dingen: Selbst wenn der Zähler Penne und Spaghetti noch nie gesehen hat, aber ihm jemand sagt „Zähle diese, nicht jene", schafft er es trotzdem gut.
  • Es ist flexibel: Du kannst es nur mit Worten steuern („Zähle die roten Autos, nicht die blauen") oder mit Bildern zeigen („Zeig mir ein rotes Auto, das zählt, und ein blaues, das nicht zählt").

Warum ist das wichtig?

In der echten Welt ist alles chaotisch. In einer Fabrik müssen vielleicht nur die langen Schrauben gezählt werden, nicht die kurzen. In einem Krankenhaus müssen vielleicht nur bestimmte Zellarten gezählt werden, nicht die anderen, die daneben liegen.

CountEx gibt uns die Werkzeuge, um KI nicht nur zu sagen, was sie suchen soll, sondern auch, was sie ignorieren soll. Es macht die KI weniger dumm und mehr wie einen aufmerksamen Menschen, der genau weiß, worauf es ankommt.

Kurz gesagt: CountEx ist wie ein Zähler, dem du endlich sagen kannst: „Hey, zähle nur das, und lass das andere, das fast genauso aussieht, einfach weg!" – und er macht es perfekt.

Erhalten Sie solche Paper in Ihrem Posteingang

Personalisierte tägliche oder wöchentliche Digests passend zu Ihren Interessen. Gists oder technische Zusammenfassungen, in Ihrer Sprache.

Digest testen →