Counting Through Occlusion: Framework for Open World Amodal Counting

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine einfache Erklärung der Forschungspapier „CountOCC", als würde man es einem Freund beim Kaffee erzählen, ohne technische Fachbegriffe zu verwenden.

Das Problem: Der „Versteck-Spiel"-Fehler

Stell dir vor, du stehst auf einem belebten Marktplatz und sollst zählen, wie viele Menschen dort sind. Aber plötzlich kommt ein riesiger Lieferwagen und parkt genau in der Mitte. Er verdeckt 10 Leute.

Die alten Computer-Programme schauen nur auf das, was sie sehen können. Sie sehen die Leute vor dem LKW und die Leute daneben, aber sie denken: „Okay, ich sehe 50 Leute, also sind es 50." Sie vergessen die 10, die hinter dem LKW versteckt sind. Für sie ist der LKW einfach eine schwarze Wand, hinter der nichts existiert.
Das menschliche Gehirn hingegen ist schlauer. Wir wissen, dass ein LKW groß ist und Platz für Leute bietet. Wir sehen die Beine, die unter dem LKW hervorschauen, oder wir wissen aus Erfahrung, dass dort Leute stehen müssen. Wir sagen: „Da sind 10 Leute versteckt, also sind es insgesamt 60."

Bisher konnten Computer diese Art von „Versteck-Spiel" (in der Fachsprache: Okklusion) nicht gut lösen. Wenn etwas verdeckt war, zählten sie falsch.

Die Lösung: CountOCC – Der „Kluge Detektiv"

Die Forscher haben ein neues System namens CountOCC entwickelt. Man kann es sich wie einen genialen Detektiv vorstellen, der nicht nur mit den Augen sieht, sondern auch mit dem Verstand.

Das System hat zwei besondere Tricks, um die versteckten Leute zu finden:

1. Der „Geister-Rekonstrukteur" (Feature Reconstruction)

Stell dir vor, du hast ein Puzzle, bei dem einige Teile fehlen und durch schwarze Kleckse ersetzt wurden.

Der alte Computer versucht, das Puzzle nur mit den sichtbaren Teilen zu lösen.
CountOCC macht etwas Magisches: Es schaut sich die sichtbaren Teile an und fragt sich: „Wie würde das Puzzle aussehen, wenn der schwarze Klecks weg wäre?"
Es nutzt Text-Hinweise (z. B. „Das sind Autos") und Bilder (Beispiele von Autos), um sich das Bild der versteckten Autos im Kopf zu erschaffen. Es füllt die Lücken im Bild mit „Geister-Informationen" auf, die aussehen, als wären die Autos da, auch wenn sie nicht sichtbar sind. Es rekonstruiert quasi das, was unter dem LKW ist.

2. Der „Spiegel-Test" (Visual Equivalence)

Das System trainiert mit einem Lehrer-Schüler-Prinzip:

Der Lehrer schaut auf ein Bild, in dem nichts verdeckt ist. Er weiß genau, wo die Leute stehen.
Der Schüler schaut auf das gleiche Bild, aber mit dem riesigen LKW davor.
Normalerweise würde der Schüler verwirrt sein. Aber CountOCC zwingt den Schüler, sich genau so zu konzentrieren wie der Lehrer.
Die Analogie: Stell dir vor, der Lehrer zeigt mit dem Finger auf eine Stelle im Bild und sagt: „Hier ist ein Auto!" Der Schüler schaut auf die Stelle hinter dem LKW. CountOCC sorgt dafür, dass der Schüler genau auf dieselbe Stelle zeigt, als wäre der LKW unsichtbar. Es trainiert das System, den „Fingerzeig" (die Aufmerksamkeit) auch durch Hindernisse hindurch zu richten.

Warum ist das so wichtig?

Bisher haben Computer nur das gezählt, was sie direkt sehen konnten. Das ist in der echten Welt oft ein Problem:

In einem Parkhaus: Autos stehen dicht beieinander. Ein Auto verdeckt das andere. Ein alter Zähler würde weniger Autos zählen, als da sind.
In der Landwirtschaft: Ein Landwirt will wissen, wie viele Äpfel an einem Baum sind, aber viele sind von Blättern verdeckt.
In der Medizin: Wenn man Zellen unter dem Mikroskop zählt, überlappen sie sich oft.

Mit CountOCC können Computer jetzt so gut zählen wie ein erfahrener Mensch, der die Szene „durchschaut". Sie wissen, dass hinter dem Versteck noch mehr ist.

Das Ergebnis: Ein neuer Weltrekord

Die Forscher haben das System an verschiedenen Orten getestet (z. B. auf Bildern von Autos und Menschen).

Die alten Systeme machten viele Fehler, wenn Dinge verdeckt waren.
CountOCC hat die Fehlerquote um fast 50 % gesenkt. Das ist, als würde ein Schüler, der früher bei 100 Aufgaben 50 falsch gemacht hat, plötzlich nur noch 25 falsch machen.

Zusammenfassung in einem Satz

CountOCC ist ein KI-System, das nicht nur schaut, was sichtbar ist, sondern sich die unsichtbaren Teile eines Bildes clever „vorstellt" und rekonstruiert, um auch dann genau zu zählen, wenn Objekte verdeckt sind – genau wie ein menschlicher Detektiv, der den LKW im Kopf wegräumt, um die Leute dahinter zu sehen.

Each language version is independently generated for its own context, not a direct translation.

Hier ist eine detaillierte technische Zusammenfassung des Papers „Counting Through Occlusion: Framework for Open World Amodal Counting" (CountOCC) auf Deutsch:

1. Problemstellung

Das Paper adressiert eine fundamentale Lücke im Bereich des Open-World-Objektzählens (Open-World Object Counting). Während bestehende State-of-the-Art (SOTA) Methoden wie CountGD, LOCA oder CounTR bei vollständig sichtbaren Objekten hervorragende Ergebnisse erzielen, scheitern sie bei Verdeckungen (Occlusion).

Die Ursache: Herkömmliche Architekturen extrahieren Merkmale (Features) direkt aus dem Eingabebild. Wenn ein Objekt verdeckt ist, kodieren die Backbone-Netzwerke (z. B. Swin Transformer) stattdessen die verdeckende Oberfläche oder den Hintergrund. Dies führt zu korrupten Feature-Repräsentationen, die keine diskriminativen Eigenschaften des verdeckten Objekts mehr enthalten.
Die Folge: Die Modelle zählen nur das, was direkt sichtbar ist, und ignorieren vollständig verdeckte Instanzen. Dies ist in realen Szenarien (Parkplätze, Lagerhallen, landwirtschaftliche Felder) kritisch, da eine genaue Gesamtzahl für Bestandsmanagement oder autonome Systeme essenziell ist.
Ziel: Entwicklung eines Frameworks für amodales Zählen, das nicht nur sichtbare, sondern auch teilweise oder vollständig verdeckte Instanzen einer beliebigen Objektkategorie (definiert durch Text oder visuelle Beispiele) korrekt zählt, ohne das Modell für neue Klassen neu trainieren zu müssen.

2. Methodik: CountOCC

CountOCC erweitert den bestehenden Ansatz CountGD durch zwei komplementäre Mechanismen, die sowohl im Feature-Raum als auch im Aufmerksamkeitsraum (Attention Space) operieren:

A. Feature Reconstruction Module (FRM)

Das Herzstück des Frameworks ist das FRM, das explizit die Merkmale verdeckter Regionen rekonstruiert.

Hierarchische Verarbeitung: Das Modul arbeitet auf mehreren Ebenen einer Feature-Pyramide (z. B. 256, 512, 1024 Kanäle).
Trennung von Sichtbarem und Verdecktem: Basierend auf einer Verdeckungsmaske ( $M_o$ ) werden die Features in sichtbare Tokens ( $Z_{vis}$ ) und verdeckte Positionen unterteilt. Für verdeckte Positionen werden lernbare Query-Tokens initialisiert.
Attention-Fusion:
1. Selbst-Attention: Modelliert Abhängigkeiten zwischen den verdeckten Positionen.
2. Cross-Attention (Räumlich): Die verdeckten Queries attendieren auf die sichtbaren Tokens, um räumlichen Kontext zu aggregieren.
3. Cross-Attention (Semantisch): Die Queries werden mit fusionierten Text-Visuell-Embeddings (aus den Prompt-Beispielen) verknüpft, um semantische Guidance zu injizieren.
Rekonstruktion: Ein MLP transformiert diese konditionierten Queries in rekonstruierte Features ( $\hat{Z}_{occ}$ ), die dann die korrupten Features im Feature-Pyramid ersetzen. Das Ziel ist es, Features zu synthetisieren, so als wären die Objekte vollständig sichtbar.

B. Visual Equivalence (VisEQ)

Um sicherzustellen, dass die rekonstruierten Features sinnvoll sind, wird eine zusätzliche Supervision auf Ebene der Aufmerksamkeitskarten eingeführt.

Teacher-Student-Setup: Ein eingefrorener „Teacher"-Netzwerk verarbeitet das originale, unverdeckte Bild, während das „Student"-Netzwerk das verdeckte Bild verarbeitet.
Attention Alignment: Es werden gradientenbasierte Aufmerksamkeitskarten (ähnlich Grad-CAM) für beide Pfade berechnet.
Loss-Funktionen:
1. Ähnlichkeitsverlust ( $L_{sim}$ ): Erzwingt eine räumliche Übereinstimmung zwischen den Aufmerksamkeitskarten des Teachers und des Students (via $\ell_2$ -Distanz und Kosinus-Ähnlichkeit).
2. ROI-Konsistenzverlust ( $L_{cst}$ ): Sicherstellt, dass in Regionen von Interesse (RoI) hohe Aktivierungen und geringe Varianz vorliegen, um triviale Lösungen (z. B. flache Karten) zu vermeiden.

C. Verlustfunktionen

Der Gesamtverlust kombiniert:

Rekonstruktionsverlust: Eine Kombination aus $\ell_2$ -Distanz, Kosinus-Ähnlichkeit und Charbonnier-Strafterm, um die rekonstruierten Features an die Ground-Truth-Features des Teachers anzupassen.
VisEQ-Loss: Die oben genannten Attention-Konsistenz-Losses.

3. Schlüsselbeiträge

CountOCC Framework: Das erste Open-World-Framework, das explizit verdeckte Objektinstanzen rekonstruiert und zählt, indem es Feature-Rekonstruktion mit semantischer Guidance kombiniert.
Neue Architekturkomponenten: Einführung des Feature Reconstruction Module (FRM) für die hierarchische Wiederherstellung von Merkmalen und des Visual Equivalence (VisEQ)-Objektivs für Attention-Konsistenz.
Neue Benchmarks: Erstellung von verdeckungs-augmentierten Versionen etablierter Datensätze: FSC-147-OCC und CARPK-OCC. Diese ermöglichen eine rigorose Evaluation unter kontrollierten Verdeckungsbedingungen, die über den bisherigen CAPTURe-Real-Datensatz hinausgehen.
State-of-the-Art Ergebnisse: Demonstration, dass amodales Zählen durch explizite Feature-Rekonstruktion und Attention-Supervision signifikant verbessert werden kann.

4. Ergebnisse

CountOCC wurde auf drei Benchmarks evaluiert und übertrifft alle bisherigen Methoden deutlich:

FSC-147-OCC:
- Reduktion des MAE (Mean Absolute Error) um 26,72 % (Validierung) und 20,80 % (Test) im Vergleich zum bisherigen SOTA (CountGD).
- Deutliche Verbesserung auch bei RMSE (bis zu 54,71 % Reduktion).
- Besonders stark bei rein textbasierten und rein visuellen Baselines, die unter Verdeckung stark einbrechen.
CARPK-OCC (Zero-Shot Generalisierung):
- Reduktion des MAE um 49,89 % gegenüber CountGD.
- Zeigt hervorragende Generalisierungsfähigkeit auf neue Domänen (Parkplätze), ohne auf diesen Datensätzen trainiert worden zu sein.
CAPTURe-Real:
- MAE-Reduktion von 28,79 % gegenüber CountGD.
Qualitative Analyse:
- Die Visualisierung zeigt, dass CountOCC auch bei vollständiger Verdeckung dichte, kohärente Dichtekarten erzeugt und die Gesamtzahl korrekt vorhersagt, während andere Methoden nur sichtbare Objekte zählen.
- Die Rekonstruktion funktioniert über alle Pyramiden-Ebenen hinweg, wobei die unteren Ebenen (feinere Details) den größten Einfluss haben.

5. Bedeutung und Ausblick

Das Paper stellt einen Paradigmenwechsel im Open-World-Zählen dar. Es beweist, dass passives Feature-Extrahieren für verdeckte Szenen unzureichend ist und dass aktive Rekonstruktion von Merkmalen notwendig ist.

Anwendungsgebiete: Die Technologie ist entscheidend für Anwendungen, bei denen Objekte oft verdeckt sind, z. B. in der Landwirtschaft (Ernteschätzung), im Einzelhandel (Lagerbestände), in der Logistik und für autonome Systeme in unstrukturierten Umgebungen.
Limitationen: Das Framework benötigt derzeit eine Verdeckungsmaske (Occlusion Mask) als Eingabe, um die Rekonstruktion zu steuern. In der Praxis müssten diese Masken durch Segmentierungsmodelle oder Interaktion gewonnen werden. Zudem ist die Rekonstruktion auf die Feature-Ebene optimiert; die exakte räumliche Lokalisierung einzelner verdeckter Objekte ist nicht immer perfekt, auch wenn die Gesamtzahl stimmt.
Zukunft: Die Integration einer automatischen Verdeckungserkennung (Mask Prediction) direkt in das Zähl-System ist ein wichtiger nächster Schritt.

Zusammenfassend etabliert CountOCC einen neuen Standard für das Zählen in komplexen, verdeckten Szenarien und liefert einen robusten Rahmen für zukünftige Forschung im Bereich des amodalen Verstehens visueller Szenen.