CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Ce papier présente CountFormer, un cadre de comptage d'objets sans exemple qui remplace l'encodeur d'image par le modèle fondation auto-supervisé DINOv2 pour améliorer la cohérence structurelle et réduire les erreurs de surcomptage liées aux répétitions visuelles, tout en obtenant des performances compétitives sur le jeu de données FSC-147.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen

Publié 2026-03-10
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

Voici une explication de l'article CountFormer en français, imagée et simplifiée pour tout le monde.

🧐 Le Problème : Pourquoi les robots comptent mal ?

Imaginez que vous regardez une photo remplie de lunettes de soleil. Vous, humain, vous voyez immédiatement : « Ah, il y a 10 paires de lunettes ». Votre cerveau est malin : il sait que deux verres et un pont forment une seule paire.

Mais si vous demandez à un robot de compter ces mêmes lunettes sans lui montrer d'exemple au préalable, il va souvent se tromper. Il va compter chaque verre séparément et dire : « Il y a 20 objets ! ».

Pourquoi ? Parce que la plupart des robots actuels sont comme des enfants qui apprennent à compter en regardant des étiquettes. Ils savent ce qu'est une « voiture » ou un « chat », mais s'ils voient quelque chose de nouveau (comme des lunettes), ils ne comprennent pas la structure. Ils voient des formes, mais pas comment les pièces s'assemblent pour former un tout.

🚀 La Solution : CountFormer

Les chercheurs ont créé un nouveau modèle appelé CountFormer. Leur idée n'était pas de construire un robot plus compliqué, mais de lui donner des « lunettes de vision » plus intelligentes.

Voici comment cela fonctionne, avec une analogie simple :

1. Le Cerveau (DINOv2) : Le Chef d'Orchestre

Au lieu d'utiliser un cerveau standard, ils ont utilisé un modèle appelé DINOv2.

  • L'analogie : Imaginez un chef d'orchestre très expérimenté. Avant, les robots écoutaient chaque musicien individuellement (chaque pixel de l'image). Le chef d'orchestre, lui, entend la symphonie complète. Il comprend non seulement qui joue, mais comment les musiciens sont disposés sur la scène.
  • En pratique : DINOv2 est un modèle entraîné seul (sans étiquettes humaines) qui a appris à voir la structure du monde. Il sait qu'un verre et un cadre sont liés, même s'il ne sait pas que c'est une « paire de lunettes ».

2. La Carte (Les Embeddings Positionnels) : Le GPS

Le chef d'orchestre a besoin de savoir où se trouve chaque musicien.

  • L'analogie : Le modèle ajoute une « carte GPS » à chaque information visuelle. Cela permet au robot de dire : « Ce verre est à gauche de ce pont, donc ils font partie du même objet ». Sans cette carte, le robot perd le fil et compte les pièces séparément.

3. Le Dessin (Le Décodeur) : Le Peintre

Enfin, le robot dessine une carte de chaleur (une image où les zones denses sont plus chaudes).

  • L'analogie : Au lieu de compter un par un, le robot peint une carte où chaque objet est un point chaud. En additionnant la chaleur totale de la carte, il obtient le nombre final. C'est comme compter les gouttes de pluie en mesurant la quantité d'eau dans un seau, plutôt que de les compter une par une.

🏆 Les Résultats : Qu'est-ce que ça donne ?

Les chercheurs ont testé ce modèle sur une base de données appelée FSC-147 (des images avec plein d'objets différents).

  • Le score global : Le modèle est très compétitif. Il compte aussi bien que les meilleurs robots actuels en moyenne.
  • La vraie victoire : Regardez les lunettes !
    • Les anciens modèles comptaient souvent les verres séparément (erreur : 185 lunettes au lieu de 96).
    • CountFormer a compris que c'étaient des paires et a compté 98 (très proche de la réalité).
    • L'analogie : C'est comme si un robot, pour la première fois, comprenait qu'une chaise a quatre pieds mais qu'on ne compte pas « 4 chaises », mais « 1 chaise ».

⚠️ Les Limites : Quand ça coince ?

Le modèle n'est pas magique. Il a du mal dans deux cas précis :

  1. La foule compacte : Si vous avez une image remplie de milliers de petits Lego collés les uns aux autres sans espace entre eux, le robot se perd. C'est comme essayer de compter les grains de sable sur une plage par temps de brouillard.
  2. Les cas extrêmes : Quelques images très denses dans le test ont faussé les résultats globaux. Si on enlève ces 4 images « impossibles », le robot est encore meilleur !

💡 En Résumé

CountFormer, c'est comme donner à un robot une intuition visuelle.
Au lieu de simplement chercher des objets connus, il apprend à voir comment les choses sont assemblées. Il ne compte plus juste des formes, il comprend la structure.

C'est une étape importante pour que les robots puissent compter n'importe quoi dans le monde réel, même s'ils n'ont jamais vu cet objet auparavant, en comprenant la logique des pièces qui forment un tout.