CountEx: Fine-Grained Counting via Exemplars and Exclusion

O artigo apresenta o CountEx, um novo framework discriminativo de contagem visual que supera as limitações dos métodos existentes ao permitir a exclusão explícita de distratores visualmente similares por meio de prompts multimodais, introduzindo também o benchmark CoCount para avaliação sistemática e demonstrando desempenho superior em cenários complexos.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai

Publicado 2026-02-24
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você está em uma festa muito movimentada e precisa contar quantas pessoas estão usando camisas vermelhas. O problema é que há muita gente usando camisas rosa-choque e laranja, que parecem muito com a vermelha de longe.

Se você pedir para um contador comum (os métodos antigos de inteligência artificial), ele provavelmente vai contar tudo que é cor quente: vermelhos, rosas e laranjas. O resultado? Um número errado e frustrante.

É exatamente para resolver esse problema que os autores criaram o CountEx. Vamos explicar como funciona usando uma analogia simples:

1. O Problema: "Contar o que queremos, ignorando o que parece igual"

Antigamente, para contar objetos, você tinha que dizer apenas o que quer: "Conte as camisas vermelhas". A IA fazia o melhor que podia, mas se houvesse muitas camisas parecidas, ela se confundia.

O CountEx muda a regra do jogo. Agora, você pode dizer: "Conte as camisas vermelhas, mas NÃO conte as rosa-choque". É como dar uma instrução de "sim" e "não" ao mesmo tempo.

2. A Solução: O "Detetive de Diferenças" (O Módulo DQR)

O coração do CountEx é uma parte chamada Refinamento Discriminativo de Consultas. Vamos imaginar isso como um detetive muito esperto que trabalha em duas etapas:

  • Etapa 1: O que é igual?
    O detetive olha para as "camisas vermelhas" (o que você quer) e as "camisas rosa" (o que você não quer). Ele percebe que ambas têm mangas, botões e tecido. Ele separa essas coisas em comum e as guarda de lado.
  • Etapa 2: O que é único?
    Agora, ele foca apenas no que é diferente. Ele identifica que a cor "rosa-choque" é o que torna aquela camisa indesejada.
  • Etapa 3: O Filtro Mágico
    Com essa informação, ele pega a lista de todas as camisas e aplica um filtro: "Mantenha tudo que é vermelho, mas apague qualquer coisa que tenha o padrão 'rosa-choque' que acabamos de identificar".

Isso evita que a IA conte o que não deve, sem precisar "subtrair" números de forma burra (o que daria resultados errados). Ela entende a diferença visual entre os objetos.

3. O Novo "Campo de Treino": O Banco de Dados CoCount

Para treinar esse detetive, os autores precisavam de um campo de treino especial. Bancos de dados antigos tinham apenas "muitas maçãs" ou "muitas bolas".

Eles criaram o CoCount, que é como um laboratório de confusão controlada.

  • Eles filmaram 1.780 vídeos com objetos misturados.
  • Exemplo: Uma mesa cheia de parafusos longos e parafusos curtos, ou moedas de 1 real e moedas de 50 centavos.
  • O banco de dados tem quase 10.000 fotos anotadas, onde a IA precisa aprender a distinguir o "parafuso longo" do "curto" quando ambos estão misturados. É como treinar um cão de guarda para diferenciar um amigo de um impostor que se veste igual.

4. Como a IA aprende? (Exemplos Visuais e Texto)

O CountEx é flexível. Você pode dar a instrução de duas formas:

  1. Apenas Texto: "Conte os lápis azuis, não os verdes."
  2. Texto + Fotos: Você mostra uma foto de um lápis azul e diz "Conte esses", e mostra um lápis verde e diz "Não conte esses".

A IA usa essas dicas para criar uma "lista de desejos" (o que contar) e uma "lista de proibições" (o que ignorar), refinando sua visão para focar apenas no alvo.

5. Os Resultados: O Detetive Acertou

Os testes mostraram que o CountEx é muito melhor que os métodos antigos:

  • No treino: Ele aprendeu a distinguir objetos muito parecidos com muito mais precisão.
  • No teste (coisas novas): Mesmo quando mostraram objetos que a IA nunca viu antes (como um tipo novo de moeda), ela conseguiu contar corretamente porque aprendeu a lógica de "diferenciar", não apenas a decorar objetos.

Resumo em uma frase

O CountEx é como dar a uma IA um óculos de realidade aumentada onde você pode desenhar um círculo verde no que quer contar e um círculo vermelho no que quer ignorar, garantindo que ela conte apenas o que você realmente precisa, mesmo em meio a uma bagunça visual.

Onde encontrar: Os autores disponibilizaram o código e os dados no GitHub para que qualquer pessoa possa usar e melhorar essa tecnologia.

Receba artigos como este na sua caixa de entrada

Digests diários ou semanais personalizados de acordo com seus interesses. Gists ou resumos técnicos, no seu idioma.

Experimentar Digest →