CountEx: Fine-Grained Counting via Exemplars and Exclusion

Each language version is independently generated for its own context, not a direct translation.

Stell dir vor, du bist ein sehr genauer Zähler, der in einem riesigen, chaotischen Lagerhaus arbeitet. Deine Aufgabe ist es, genau zu zählen, wie viele rote Äpfel dort sind. Das Problem: Das Lager ist voll mit grünen Äpfeln, roten Birnen und anderen Dingen, die den roten Äpfeln zum Verwechseln ähnlich sehen.

Bisherige Zähler-Programme (KI-Modelle) waren wie ein etwas verwirrter Praktikant: Wenn du sagst „Zähle die roten Äpfel", zählte er oft auch die grünen Äpfel mit, weil er dachte: „Äpfel sind Äpfel, egal welche Farbe." Er konnte nicht gut unterscheiden, was du nicht willst.

Hier kommt CountEx ins Spiel – der neue, super-scharfsinnige Zähler.

Das Grundproblem: „Zähle das, aber ignoriere das!"

Stell dir vor, du sagst zu deinem Praktikanten: „Zähle die Penne-Nudeln, aber nicht die Spaghetti."
Ein alter Zähler würde verwirrt sein. Er sieht Nudeln, zählt sie alle und hofft, dass er die richtigen erwischt. Er versteht nicht, dass du die Spaghetti aktiv ausschließen willst, obwohl sie auch Nudeln sind.

CountEx ist anders. Es ist wie ein Zähler, dem du nicht nur sagst, was du suchst, sondern ihm auch eine Ausschlussliste gibst. Du kannst sagen: „Zähle die Penne, aber ignoriere die Spaghetti" oder sogar Bilder von den Spaghetti zeigen und sagen: „Das hier ist es, was du nicht zählen sollst."

Wie funktioniert CountEx? (Die drei Schritte)

Stell dir CountEx als einen cleveren Detektiv vor, der in drei Schritten arbeitet:

Der Suchauftrag (Einschluss): Zuerst schaut der Detektiv auf das Bild und sammelt alle Kandidaten, die wie die gesuchten Penne-Nudeln aussehen. Er hat eine Liste von „Möglichen Penne".
Der Ausschluss-Check (Verneinung): Dann schaut er auf deine Ausschlussliste (die Spaghetti). Er sucht nach den Mustern, die nur bei den Spaghetti vorkommen und nicht bei den Penne.
Die Feinjustierung (Der Filter): Jetzt kommt der magische Teil. Der Detektiv nimmt seine Liste der „Möglichen Penne" und wischt vorsichtig alles heraus, was wie eine Spaghetti aussieht. Aber er ist vorsichtig: Er löscht nicht die ganze Nudel, sondern nur den „Spaghetti-Teil" des Bildes. Was übrig bleibt, sind die echten Penne.

Dieser Prozess nennt sich im Fachjargon „Diskriminative Query Refinement" (Diskriminierende Abfrage-Verfeinerung), aber einfach gesagt: Es ist wie ein Sieb, das nur das herausfiltert, was du nicht willst, und den Rest perfekt zählt.

Der neue Test: CoCount

Um zu beweisen, dass ihr System wirklich gut ist, haben die Forscher einen neuen Test entwickelt, den sie CoCount nennen.

Stell dir das wie eine riesige Prüfungsmappe vor. Bisherige Tests waren oft zu einfach: Sie zeigten nur eine Art von Nudeln auf einem leeren Tisch. Das war zu leicht.
CoCount ist wie ein Chaos-Test:

Es gibt 1.780 Videos mit über 10.000 Bildern.
Die Bilder sind voller Dinge: Penne und Spaghetti, schwarze und weiße Schokoladentäfelchen, große und kleine Schrauben.
Die Aufgabe ist immer: „Zähle nur das eine, ignoriere das andere, das fast gleich aussieht."

Das ist wie ein Sehtest für KI, bei dem man nicht nur „Rot" von „Blau" unterscheiden muss, sondern „Hellrot" von „Dunkelrot" in einem vollen Raum.

Was haben sie herausgefunden?

Die Ergebnisse sind beeindruckend:

CountEx ist der Gewinner: Auf diesem schwierigen Test hat CountEx deutlich besser abgeschnitten als alle anderen Zähler-Programme. Es macht viel weniger Fehler.
Es funktioniert auch bei neuen Dingen: Selbst wenn der Zähler Penne und Spaghetti noch nie gesehen hat, aber ihm jemand sagt „Zähle diese, nicht jene", schafft er es trotzdem gut.
Es ist flexibel: Du kannst es nur mit Worten steuern („Zähle die roten Autos, nicht die blauen") oder mit Bildern zeigen („Zeig mir ein rotes Auto, das zählt, und ein blaues, das nicht zählt").

Warum ist das wichtig?

In der echten Welt ist alles chaotisch. In einer Fabrik müssen vielleicht nur die langen Schrauben gezählt werden, nicht die kurzen. In einem Krankenhaus müssen vielleicht nur bestimmte Zellarten gezählt werden, nicht die anderen, die daneben liegen.

CountEx gibt uns die Werkzeuge, um KI nicht nur zu sagen, was sie suchen soll, sondern auch, was sie ignorieren soll. Es macht die KI weniger dumm und mehr wie einen aufmerksamen Menschen, der genau weiß, worauf es ankommt.

Kurz gesagt: CountEx ist wie ein Zähler, dem du endlich sagen kannst: „Hey, zähle nur das, und lass das andere, das fast genauso aussieht, einfach weg!" – und er macht es perfekt.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Das Ziel des Papers ist die Lösung eines wesentlichen Mangels bestehender Methoden zum visuellen Zählen (Visual Counting), insbesondere bei feingranularen Aufgaben in überfüllten Szenen.

Herausforderung: Herkömmliche prompt-basierte Ansätze (Text oder visuelle Beispiele) können nur angeben, was gezählt werden soll (Inklusion). Sie haben Schwierigkeiten, visuell ähnliche Ablenkungen (Distraktoren) oder Unterkategorien explizit auszuschließen.
Folge: In Szenen mit mehreren koexistierenden Objektkategorien (z. B. „Penne-Pasta" vs. „Spiral-Pasta" oder „weiße" vs. „blaue" Pokerchips) neigen Modelle dazu, die falsche Kategorie zu zählen, Distraktoren mitzuzählen oder sich auf die dominanteste Klasse zu konzentrieren.
Lücke: Es fehlt an einem Framework, das sowohl positive als auch negative Intentionen (was zählen, was ignorieren) gleichzeitig verarbeitet, ohne dabei die relationalen Kontexte zwischen den Objekten zu vernachlässigen.

2. Methodik: CountEx

Die Autoren stellen CountEx vor, ein diskriminierendes Zähl-Framework, das multimodale Prompts (Text und optionale visuelle Beispiele) nutzt, um sowohl Inklusions- als auch Exklusionsabsichten zu verarbeiten.

Kernkomponenten:

Prompt-Conditioned Query Encoding:
- Das System nutzt einen Open-Vocabulary-Detektor (basierend auf LLMDet/GroundingDINO-Architektur).
- Es werden separate Query-Sets generiert: $Q_{pos}$ für die positive Anfrage (was gezählt werden soll) und $Q_{neg}$ für die negative Anfrage (was ausgeschlossen werden soll).
- Beide Sets werden aus demselben Bild, aber konditioniert auf unterschiedliche Textbeschreibungen und/oder visuelle Bounding-Box-Beispiele erstellt. Dies erzeugt zwei komplementäre Repräsentationen der Szene.
Discriminative Query Refinement (DQR) Modul:
Dies ist der innovativste Teil des Papers. Statt die Zählungen einfach voneinander abzuziehen (was zu Informationsverlust führt), wird ein dreistufiger Prozess angewendet, um $Q_{pos}$ zu verfeinern:
- Schritt 1: Identifikation gemeinsamer Merkmale (Shared Feature Identification): Es werden lernbare Prototypen ( $C$ ) gelernt, die visuelle Attribute repräsentieren, die sowohl für positive als auch negative Queries gemeinsam sind (z. B. die Form einer Pasta, unabhängig davon, ob sie Penne oder Spiral ist).
- Schritt 2: Extraktion exklusiver Merkmale (Exclusive Feature Extraction): Die negativen Queries werden auf den gemeinsamen Unterraum projiziert. Die Residuen (der Teil, der nicht im gemeinsamen Raum liegt) werden extrahiert. Diese Residuen repräsentieren die spezifischen Merkmale, die nur für die auszuschließende Kategorie gelten (z. B. die spiralförmige Struktur).
- Schritt 3: Selektive Query-Verfeinerung (Selective Query Refinement): Die positiven Queries werden durch Cross-Attention mit den extrahierten exklusiven negativen Merkmalen ( $R_{neg}$ ) abgeglichen. Ein gating-Mechanismus unterdrückt selektiv diejenigen positiven Queries, die stark mit den negativen Mustern übereinstimmen, während die für die Zielkategorie relevanten Merkmale erhalten bleiben.
Trainingsziel:
Der Verlust besteht aus Klassifikations-, Lokalisierungs- und Dichtevorhersageverlusten, ergänzt durch spezielle Verluste für das Prototypen-Lernen (Shareability und Diversität), um sicherzustellen, dass die geteilten Merkmale korrekt gelernt werden.

3. Schlüsselbeiträge

Neue Aufgabenformulierung: Die Definition des Zählens mit expliziten Exklusionshinweisen (Negative Prompts), die es Nutzern ermöglichen, sowohl Zielobjekte als auch zu ignorierende Distraktoren zu spezifizieren.
CountEx-Architektur: Ein neues Modell, das Inklusions- und Exklusionssignale gemeinsam verarbeitet und durch das DQR-Modul eine präzise Unterscheidung feingranularer Kategorien ermöglicht.
CoCount-Dataset: Die Einführung eines neuen Benchmarks mit 10.086 annotierten Frames aus 1.780 Videos und 97 Kategorienpaaren.
- Das Dataset deckt sowohl inter-kategoriale Paare (z. B. Münzen vs. Büroklammern) als auch intra-kategoriale Paare (z. B. schwarze vs. weiße Pfefferkörner) ab.
- Es ist speziell darauf ausgelegt, Modelle zu trainieren, die zwischen ähnlichen Objekten unterscheiden müssen, und verhindert Bias zugunsten dominanter Klassen.

4. Ergebnisse

Die Experimente zeigen, dass CountEx den State-of-the-Art (SOTA) in mehreren Szenarien übertrifft:

Auf CoCount:
- Novel-Category Setting (NC): CountEx erreicht einen MAE von 26,61 (im Vergleich zu 33,22 beim besten Baseline-Modell LLMDet), was einer Fehlerreduktion von fast 20 % entspricht. Dies beweist die starke Generalisierungsfähigkeit auf unbekannte Kategorien.
- Known-Category Setting (KC): Mit einem MAE von 12,72 übertrifft CountEx alle Baselines (z. B. CountGD mit 15,55) deutlich.
Generalisierung auf andere Datensätze:
- LOOKALIKES: Im Zero-Shot-Transfer (ohne Feinabstimmung) erreicht CountEx einen MAE von 18,53 und übertrifft damit alle anderen Zero-Shot-Methoden signifikant. Im Vergleich zu Methoden, die synthetische Daten und Testzeit-Anpassung benötigen, ist CountEx schneller und interaktiver.
- PairTally: CountEx erzielt die besten Ergebnisse sowohl bei inter- als auch bei intra-Szenen-Vergleichen.
- FSC-147: Auch auf diesem klassischen Datensatz (ohne Exklusions-Prompts) zeigt CountEx konkurrenzfähige Ergebnisse, wenn er nur mit Inklusions-Prompts verwendet wird.

5. Bedeutung und Fazit

Das Paper adressiert eine kritische Lücke in der Computer Vision: Die Unfähigkeit bestehender Modelle, Nutzerabsichten präzise zu interpretieren, wenn visuelle Ähnlichkeiten zu Verwechslungen führen.

Technischer Fortschritt: Der Ansatz, negative Informationen nicht durch Subtraktion, sondern durch eine diskriminative Query-Verfeinerung zu nutzen, ist ein signifikanter methodischer Fortschritt.
Praktische Relevanz: Durch die Möglichkeit, negative Beispiele (Text oder Bilder) anzugeben, wird das Zählen in komplexen Umgebungen (z. B. medizinische Bildgebung, Überwachung von Menschenmengen, Lagerbestandskontrolle) robuster und kontrollierbarer.
Ressource: Das CoCount-Dataset setzt einen neuen Standard für die Evaluierung feingranularer Zählmethoden und fördert die Forschung im Bereich des exemplarbasierten Zählens mit negativen Constraints.

Zusammenfassend stellt CountEx einen Paradigmenwechsel dar, weg von reinem „Was zählen?" hin zu einem differenzierten „Was zählen und was ignorieren?", was zu einer deutlich höheren Genauigkeit in visuell komplexen Szenen führt.

CountEx: Fine-Grained Counting via Exemplars and Exclusion

Das Grundproblem: „Zähle das, aber ignoriere das!"

Wie funktioniert CountEx? (Die drei Schritte)

Der neue Test: CoCount

Was haben sie herausgefunden?

Warum ist das wichtig?

1. Problemstellung

2. Methodik: CountEx

Kernkomponenten:

3. Schlüsselbeiträge

4. Ergebnisse

5. Bedeutung und Fazit

Mehr davon

Conversational Successes and Breakdowns in Everyday Smart Glasses Use

EmbodMocap: In-the-Wild 4D Human-Scene Reconstruction for Embodied Agents

GVGS: Gaussian Visibility-Aware Multi-View Geometry for Accurate Surface Reconstruction

PyEncode: An Open-Source Library for Structured Quantum State Preparation

DOne: Decoupling Structure and Rendering for High-Fidelity Design-to-Code Generation