Counting Through Occlusion: Framework for Open World Amodal Counting

Each language version is independently generated for its own context, not a direct translation.

Voici une explication simple et imagée du papier de recherche CountOCC, conçue pour être comprise par tout le monde, même sans bagage technique.

🕵️‍♂️ Le Problème : Le Compteur "Myope"

Imaginez que vous essayez de compter les voitures dans un parking très encombré.

La situation normale : Vous voyez toutes les voitures. C'est facile.
La situation réelle (avec obstacles) : Un gros camion est garé devant une rangée de voitures. Vous ne voyez que la moitié des véhicules.

Les systèmes d'intelligence artificielle actuels (les "compteurs" actuels) sont comme des personnes myopes. Ils ne comptent que ce qu'ils voient littéralement. Si une voiture est cachée derrière un camion, le compteur dit : "Je ne la vois pas, donc elle n'existe pas". Il se trompe lourdement.

C'est le problème que les chercheurs appellent le "comptage amodal" : compter les objets même s'ils sont cachés, en utilisant notre cerveau pour "imaginer" ce qui se trouve derrière l'obstacle.

💡 La Solution : CountOCC, le "Détective à Double Vue"

L'équipe de recherche (de l'Université de Dhaka) a créé un nouveau système appelé CountOCC. Au lieu d'être myope, CountOCC agit comme un détective très imaginatif.

Voici comment il fonctionne, en utilisant deux métaphores clés :

1. Le "Restaurateur d'Image" (Le Module de Reconstruction)

Imaginez que vous avez une vieille photo abîmée où une partie est tachée d'encre (l'objet caché).

Les anciens systèmes : Ils regardent la photo et disent "Je ne peux pas compter ce qui est taché".
CountOCC : Il utilise une technique magique. Il regarde les parties visibles de la photo (les bords de la voiture qui dépassent) et utilise le contexte (les autres voitures, la forme générale) pour reconstruire virtuellement la partie manquante.
- L'analogie : C'est comme si vous aviez un ami qui vous décrit une personne cachée derrière un mur. Au lieu de dire "Je ne la vois pas", votre cerveau assemble les indices (une chaussure, un pan de manteau) pour "dessiner" mentalement la personne entière. CountOCC fait cela mathématiquement : il recrée les "signatures" invisibles des objets cachés pour pouvoir les compter.

2. Le "Jumeau Miroir" (L'Équivalence Visuelle)

Pour s'assurer que son imagination ne le trompe pas, CountOCC utilise un système de jumeaux.

Il a un professeur (le "Teacher") qui regarde la scène sans les obstacles (la vérité).
Il a un élève (le "Student") qui regarde la scène avec les obstacles.
Le système force l'élève à avoir exactement la même "attention" que le professeur. Si le professeur regarde un endroit précis pour compter, l'élève doit aussi regarder cet endroit, même si c'est caché.
- L'analogie : C'est comme un élève qui apprend à conduire avec un moniteur. Même si le moniteur cache le volant (l'obstacle), l'élève doit savoir exactement où il devrait tourner les mains en se basant sur la route visible. CountOCC apprend à "sentir" les objets cachés en se calquant sur la logique de la vue claire.

🏆 Les Résultats : Pourquoi c'est impressionnant ?

Les chercheurs ont testé CountOCC sur des images réelles (des voitures dans des parkings, des objets divers) en y ajoutant artificiellement des "masques noirs" pour cacher des objets.

Avant : Les meilleurs systèmes perdaient environ 20 à 50 % de précision quand les objets étaient cachés. Ils comptaient seulement ce qui était visible.
Avec CountOCC : L'erreur a chuté drastiquement (jusqu'à 50 % de réduction d'erreur !).
- Sur le benchmark CARPK (voitures), il a réduit l'erreur de moitié.
- Sur FSC-147 (objets divers), il bat tous les records précédents.

En résumé, CountOCC ne se contente pas de compter ce qu'il voit ; il déduit ce qu'il ne voit pas.

🌍 À quoi ça sert dans la vraie vie ?

Ce n'est pas juste un jeu de mathématiques. Imaginez ces scénarios :

Agriculture : Compter les fruits sur un arbre même si les feuilles en cachent la moitié.
Entrepôts : Savoir exactement combien de palettes sont stockées derrière une rangée de camions.
Sécurité : Compter les personnes dans une foule dense, même si certaines sont cachées derrière d'autres.

⚠️ La petite limite (pour être honnête)

CountOCC est excellent pour dire "Combien y a-t-il d'objets ?" (le total).
Par contre, il est moins précis pour dire "Où exactement se trouve l'objet caché ?".

L'analogie : Il sait qu'il y a 5 voitures cachées derrière le camion, mais il ne peut pas toujours vous dire si la voiture bleue est à gauche ou à droite derrière le camion. Il compte bien, mais il ne "localise" pas parfaitement les fantômes.

En conclusion

CountOCC est une avancée majeure car il donne aux machines la capacité de faire ce que les humains font naturellement : remplir les trous. Il transforme un compteur "myope" en un compteur "visionnaire" capable de voir au-delà des obstacles.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique

Le comptage d'objets en vision par ordinateur a connu des progrès significatifs pour les instances visibles. Cependant, les méthodes de l'état de l'art (SOTA) échouent systématiquement face à l'occlusion.

La limitation fondamentale : Les architectures actuelles (comme CountGD, LOCA, CounTR) reposent sur l'extraction de caractéristiques (features) via des réseaux de base (backbones). Lorsqu'un objet est partiellement ou totalement caché, le réseau encode la surface de l'objet occlusif (le "bouchon") plutôt que l'objet cible lui-même. Cela corrompt les représentations de caractéristiques nécessaires au comptage précis.
L'échec du raisonnement amodal : Les méthodes existantes comptent uniquement ce qui est directement observable. Elles ne possèdent pas de mécanisme pour inférer l'existence d'instances cachées, ce qui conduit à une sous-estimation drastique dans des environnements réels encombrés (parkings, étagères de magasins, champs agricoles).
Le défi du "Monde Ouvert" : Le problème est d'autant plus complexe qu'il s'agit de comptage en "monde ouvert" (open-world), où les catégories d'objets sont spécifiées à l'inférence via des exemples visuels ou du texte, sans réentraînement spécifique, et ce, même pour des objets totalement cachés.

2. Méthodologie : CountOCC

Les auteurs proposent CountOCC, le premier cadre de comptage amodal en monde ouvert capable de reconstruire explicitement les caractéristiques des objets occlus. L'architecture s'appuie sur deux mécanismes complémentaires :

A. Module de Reconstruction de Caractéristiques (Feature Reconstruction Module - FRM)

Ce module opère dans l'espace des caractéristiques pour restaurer les informations manquantes.

Séparation Visibles/Occlus : Les caractéristiques extraites par le backbone (Swin Transformer) sont séparées en tokens visibles et en tokens occlus (marqués par un masque).
Reconstruction Hiérarchique : Au lieu d'accepter les encodages corrompus, le FRM génère des tokens d'interrogation (query tokens) apprenables pour les zones occluses.
Fusion Attentionnelle :
1. Auto-attention : Les tokens occlus modélisent leurs interdépendances.
2. Cross-attention spatiale : Ils intègrent le contexte des zones visibles adjacentes.
3. Guidage Sémantique : Une cross-attention avec des embeddings fusionnés (texte + exemples visuels) injecte des informations sémantiques spécifiques à la classe pour éviter une reconstruction erronée.
Intégration : Les caractéristiques reconstruites remplacent les tokens occlus dans la pyramide de caractéristiques, permettant au décodeur de compter l'objet complet.

B. Objectif d'Équivalence Visuelle (Visual Equivalence - VisEQ)

Pour superviser la reconstruction, le modèle utilise une approche enseignant-élève (teacher-student) dans l'espace de l'attention.

Configuration : L'enseignant traite l'image originale (non occluse), tandis que l'élève traite l'image occluse avec les tokens reconstruits.
Alignement des Cartes d'Attention : L'objectif est d'aligner les cartes d'attention basées sur les gradients (GradCAM) entre les deux réseaux.
Fonction de Perte :
- Similarité d'attention : Minimise la distance entre les cartes d'attention de l'enseignant et de l'élève (via une perte $L_2$ et une similarité cosinus).
- Cohérence des Régions d'Intérêt (RoI) : Assure que les zones où l'enseignant est confiant le sont aussi pour l'élève, avec une variance faible et une activation élevée, évitant ainsi les solutions triviales.

3. Contributions Clés

Premier cadre de comptage amodal en monde ouvert : CountOCC est la première méthode capable de quantifier précisément des catégories d'objets spécifiées à l'inférence, qu'ils soient visibles ou cachés.
Nouvelles architectures de reconstruction : Introduction du FRM pour la reconstruction de caractéristiques discriminatives et de l'objectif VisEQ pour assurer la cohérence spatiale de l'attention.
Nouveaux Benchmarks Rigoureux : Création de versions augmentées par l'occlusion des datasets FSC-147 et CARPK (nommés FSC-147-OCC et CARPK-OCC), permettant une évaluation standardisée sur des scènes structurées et non structurées.
Performance SOTA : Établissement de nouveaux records sur trois benchmarks (FSC-147-OCC, CARPK-OCC, CAPTURe-Real).

4. Résultats Expérimentaux

Les performances sont évaluées via l'Erreur Absolue Moyenne (MAE) et l'Erreur Quadratique Moyenne Racine (RMSE).

Sur FSC-147-OCC : CountOCC réduit l'erreur MAE de 26,72 % (validation) et 20,80 % (test) par rapport à la méthode précédente la plus performante (CountGD). Il surpasse également massivement les méthodes basées uniquement sur le texte ou les exemples visuels.
Sur CARPK-OCC (Généralisation Zero-shot) : Le modèle démontre une excellente généralisation sur des images de drones de parkings, réduisant le MAE de 49,89 % par rapport à CountGD.
Sur CAPTURe-Real : Réduction du MAE de 28,79 %, validant la robustesse sur des motifs répétitifs réels.
Analyse des ablations : Les expériences montrent que la reconstruction à plusieurs niveaux de la pyramide de caractéristiques et l'ajout de la supervision VisEQ sont tous deux essentiels pour réduire les erreurs, en particulier les grandes erreurs (RMSE) causées par les occlusions massives.
Données propres : Sur les images sans occlusion (FSC-147 original), CountOCC reste compétitif, bien qu'il y ait une légère régression par rapport aux modèles spécialisés uniquement pour les scènes propres, ce qui illustre le compromis entre robustesse à l'occlusion et précision sur les scènes dégagées.

5. Signification et Impact

Avancée Conceptuelle : Ce travail change le paradigme du comptage d'objets en passant d'une approche passive (compter ce qui est vu) à une approche active de reconstruction (inférer ce qui est caché).
Applications Réelles : La méthode est cruciale pour des applications où la visibilité est intrinsèquement limitée :
- Agriculture : Estimation des rendements de cultures avec des feuilles ou des fruits cachés.
- Logistique : Inventaire dans des entrepôts denses.
- Sécurité et Trafic : Gestion du trafic et comptage de véhicules dans des embouteillages denses.
- Biologie : Comptage de cellules ou d'organismes en microscopie.
Limitations et Perspectives : Le modèle nécessite un masque d'occlusion (synthétique ou provenant d'un modèle de segmentation) pour fonctionner. De plus, bien qu'il compte précisément le nombre total, la localisation spatiale exacte des objets entièrement cachés reste approximative (le modèle reconstruit les caractéristiques pour le comptage, pas pour la détection précise).

En conclusion, CountOCC résout un problème fondamental de la vision par ordinateur en permettant aux systèmes de "voir" au-delà des obstacles, établissant une nouvelle référence pour le comptage robuste en monde ouvert.