CountEx: Fine-Grained Counting via Exemplars and Exclusion

Ce papier présente CountEx, un cadre de comptage visuel discriminatif qui surpasse les méthodes existantes en permettant d'exprimer à la fois des intentions d'inclusion et d'exclusion via des prompts multimodaux, grâce à un module de raffinement de requêtes novateur et à l'introduction du benchmark CoCount pour une évaluation systématique.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai

Publié 2026-02-24
📖 4 min de lecture☕ Lecture pause café

Each language version is independently generated for its own context, not a direct translation.

🍝 Le Problème : Compter dans un bazar

Imaginez que vous êtes dans une cuisine remplie de deux types de pâtes : des penne (en forme de petits tubes) et des spaghetti (en forme de longs fils). Si vous demandez à un compteur automatique : "Compte les pâtes", il va probablement compter les deux types, car pour lui, ce sont juste "des pâtes". C'est comme si vous demandiez à un ami de compter "les voitures" dans un parking, et qu'il comptait aussi les camions de pompiers et les motos parce qu'ils ont tous des roues.

Les anciennes méthodes d'intelligence artificielle sont un peu comme cet ami : elles sont bonnes pour dire "combien d'objets", mais elles ont du mal à faire la différence entre deux choses qui se ressemblent beaucoup, sauf si on leur donne des instructions très précises.

🚀 La Solution : CountEx (Le Compteur Intelligents)

Les chercheurs ont créé CountEx, un nouveau système qui ne se contente pas de demander "Quoi compter ?", mais qui demande aussi "Quoi ignorer ?".

C'est comme si vous donniez une double instruction à votre ami :

"Compte les penne, mais ne compte pas les spaghetti."

CountEx comprend cette nuance. Il peut même utiliser des photos d'exemple (des "exemplaires") pour montrer exactement à quoi ressemblent les penne et à quoi ressemblent les spaghetti, rendant la tâche encore plus précise.

🧠 Comment ça marche ? (L'analogie du Tri de Tri)

Pour comprendre la magie derrière CountEx, imaginez un tri de tri en trois étapes, comme un chef cuisinier qui prépare un plat complexe :

  1. L'Identification des Similitudes (Le "C'est pareil") :
    D'abord, le système regarde les penne et les spaghetti et se dit : "Attends, ils sont tous les deux des pâtes, ils ont la même couleur, la même texture...". Il crée une liste de ce qu'ils ont en commun. C'est comme repérer que les deux objets sont "des pâtes".

  2. L'Extraction des Différences (Le "C'est spécial") :
    Ensuite, il se concentre uniquement sur ce qui rend les spaghetti spécifiquement différents des penne (leur forme en spirale). Il isole ces détails "exclusifs" aux spaghetti.

  3. Le Filtrage Intelligent (Le "Oublie ça") :
    Enfin, quand le système doit compter les penne, il utilise cette liste de différences pour dire : "Ah, cet objet a une forme en spirale ? C'est un spaghetti. Je l'ignore !" Il supprime activement les objets qui ressemblent aux spaghetti de son comptage, tout en gardant les penne.

C'est ce qu'ils appellent le "Raffinement Discriminatif". Au lieu de simplement soustraire le nombre de spaghetti du nombre total (ce qui est souvent faux), il apprend à ignorer les spaghetti dès le début.

📚 Le Nouveau Terrain de Jeu : CoCount

Pour entraîner ce nouveau compteur, les chercheurs ont dû créer un nouveau jeu de données appelé CoCount.

Imaginez un grand livre d'images contenant 10 000 photos de situations brouillonnes :

  • Des piles de pièces de monnaie et de trombones (qui se ressemblent).
  • Des boulons noirs et des boulons blancs.
  • Des bonbons de différentes couleurs.

Ce livre est spécial car il contient des paires d'objets très similaires (comme des vis à tête plate et des vis à tête ronde) mélangés ensemble. C'est l'école idéale pour apprendre à l'IA à faire des distinctions fines, comme un expert qui peut dire "C'est un boulon, pas une vis".

🏆 Les Résultats : Pourquoi c'est génial ?

Les tests montrent que CountEx est bien meilleur que les anciens systèmes :

  • Plus précis : Il fait beaucoup moins d'erreurs quand les objets se ressemblent.
  • Plus flexible : Il peut apprendre à compter de nouveaux objets qu'il n'a jamais vus, tant qu'on lui dit quoi exclure.
  • Plus humain : Il comprend mieux ce que l'utilisateur veut vraiment dire, même si la scène est très encombrée.

En résumé

CountEx, c'est comme passer d'un compteur automatique qui dit "Il y a 100 objets" à un assistant personnel très attentif qui dit "Il y a 100 objets, mais j'ai retiré les 20 qui ressemblent à ce que vous ne voulez pas, donc il vous reste 80 objets exacts".

C'est une avancée majeure pour la vision par ordinateur, permettant aux robots et aux logiciels de mieux comprendre le monde complexe et rempli de détails qui nous entoure, un peu comme nous le faisons nous-mêmes.

Recevez des articles comme celui-ci dans votre boîte mail

Digests quotidiens ou hebdomadaires personnalisés selon vos intérêts. Résumés Gist ou techniques, dans votre langue.

Essayer Digest →