CountEx: Fine-Grained Counting via Exemplars and Exclusion

Il paper presenta CountEx, un nuovo framework discriminativo per il conteggio visivo che risolve l'ambiguità nelle scene affollate permettendo di specificare sia cosa contare che cosa escludere tramite prompt multimodali, supportato da un modulo di raffinamento delle query e valutato sul nuovo benchmark CoCount.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai

Pubblicato 2026-02-24
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

Immagina di essere in una cucina molto affollata e qualcuno ti chiede: "Contami quanti spaghetti ci sono, ma non contare le penne!".

Se provassi a farlo a mente, potresti confonderti facilmente. Gli spaghetti e le penne sono entrambi pasta, hanno colori simili e sono mescolati insieme. Un computer, o meglio un'intelligenza artificiale, fa la stessa fatica: spesso conta tutto ciò che sembra "pasta", sbagliando il conteggio.

Questo è il problema che risolve il nuovo metodo chiamato CountEx, presentato in questo articolo. Ecco come funziona, spiegato in modo semplice:

1. Il Problema: "Conta tutto tranne..."

Fino a poco tempo fa, le intelligenze artificiali potevano solo dire: "Conta gli oggetti che assomigliano a questo". Se gli mostravi una foto di pasta, contava tutta la pasta, anche quella che non volevi. Non potevano capire il concetto di "esclusione". Era come se un assistente personale ti dicesse: "Ho trovato 100 oggetti che sembrano pasta", senza dirti quali erano esattamente quelli che volevi.

2. La Soluzione: CountEx (Il Contatore Selettivo)

Gli autori hanno creato un sistema che capisce due cose contemporaneamente:

  1. Cosa includere (es. "Conta le penne").
  2. Cosa escludere (es. "Non contare gli spaghetti").

L'utente può usare le parole (scrivendo "penne, non spaghetti") o mostrare delle immagini di esempio (disegnando un rettangolo attorno a una penna e un altro attorno a uno spaghetto).

3. Come Funziona: L'Analogia del "Setaccio Intelligente"

Immagina che CountEx abbia due secchielli magici e un setaccio speciale.

  • Il primo secchiello (Inclusione): Raccoglie tutto ciò che assomiglia a quello che vuoi contare (le penne).
  • Il secondo secchiello (Esclusione): Raccoglie tutto ciò che assomiglia a quello che non vuoi (gli spaghetti).

Il segreto sta nel Modulo di Affinamento Discriminativo (il setaccio intelligente). Invece di fare una semplice sottrazione matematica (che sarebbe come buttare via metà del contenuto dei secchielli a caso), il sistema fa questo:

  1. Trova le somiglianze: Guarda cosa hanno in comune penne e spaghetti (sono entrambi pasta, hanno lo stesso colore).
  2. Isola le differenze: Guarda cosa rende gli spaghetti diversi dalle penne (la forma a spirale).
  3. Il "Filtro Magico": Prende il secchiello delle penne e usa il filtro per rimuovere solo le parti che assomigliano troppo agli spaghetti, lasciando intatte le penne vere.

In pratica, il sistema impara a dire: "Questa è una penna, ma quella parte qui assomiglia troppo a uno spaghetto, quindi la ignoro".

4. Il Nuovo Campo di Addestramento: CoCount

Per insegnare a questo sistema a essere così bravo, gli autori hanno creato un nuovo "palestra" chiamata CoCount.
Immagina un libro di esercizi con 10.000 foto dove ci sono sempre due tipi di oggetti molto simili mescolati insieme (come fagioli neri e fagioli bianchi, o viti lunghe e viti corte).
Prima di questo, i computer venivano addestrati su foto con un solo tipo di oggetto, quindi non sapevano mai come distinguere le cose simili. CoCount li ha costretti a imparare a fare le differenze sottili.

5. Perché è Importante?

Questo metodo è rivoluzionario perché:

  • È più preciso: Non conta per sbaglio oggetti simili.
  • È flessibile: Puoi dirgli cosa contare e cosa ignorare in tempo reale, senza dover riaddestrare il computer da zero.
  • Funziona ovunque: È stato testato su foto di pasta, ma anche su monete, bottoni, e persino in scenari medici o di folla.

In Sintesi

CountEx è come dare a un contatore automatico un "occhiale da detective" che non solo vede gli oggetti, ma capisce anche cosa non deve contare, distinguendo anche tra cose che sembrano quasi identiche. È un grande passo avanti per far sì che le macchine capiscano le nostre richieste complesse, proprio come farebbe un umano attento.

Ricevi articoli come questo nella tua casella di posta

Digest giornalieri o settimanali personalizzati in base ai tuoi interessi. Riassunti Gist o tecnici, nella tua lingua.

Prova Digest →