CountEx: Fine-Grained Counting via Exemplars and Exclusion

Este artículo presenta CountEx, un marco de conteo visual discriminativo que supera las limitaciones de los métodos existentes al permitir la especificación de inclusiones y exclusiones mediante prompts multimodales, utilizando un módulo de refinamiento de consultas para suprimir distractores visualmente similares y logrando un rendimiento superior en el nuevo benchmark CoCount.

Yifeng Huang, Gia Khanh Nguyen, Minh Hoai

Publicado 2026-02-24
📖 4 min de lectura☕ Lectura para el café

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que la tarea de contar objetos en una foto es como intentar encontrar a tu amigo "Juan" en una multitud de gente que lleva camisetas rojas.

Hasta ahora, la inteligencia artificial (IA) tenía un problema: si le decías "cuenta a todos los que llevan camisetas rojas", la IA a veces contaba a todos los Juanes, pero también a los "Pedros" que llevaban una camiseta roja muy parecida, o a los "Luises" que solo tenían un detalle rojo. La IA no sabía qué ignorar.

Aquí es donde entra CountEx, el nuevo "superpoder" que presentan los autores de este paper.

1. El Problema: La "Ceguera" de la IA

Imagina que estás en una cocina llena de pasta. Hay dos tipos:

  • Pasta Penne (recta).
  • Pasta Espiral (enroscada).

Si le pides a una IA antigua: "Cuenta la pasta", probablemente te dará un número total de todas las pastas. Si le dices: "Cuenta la pasta Penne", la IA intentará hacerlo, pero en un desorden, a veces confunde una espiral con una recta porque se ven muy parecidas. Le falta un filtro para decir: "Espera, ignora las espirales".

2. La Solución: CountEx (El Detective con Lista de "No Contar")

CountEx es como un detective muy listo que no solo tiene una lista de quién buscar (los positivos), sino también una lista de quién ignorar (los negativos).

  • Antes: Le decías a la IA: "Busca a los perros".
  • Ahora (con CountEx): Le puedes decir: "Busca a los perros, pero NO cuentes a los gatos, y especialmente NO cuentes a esos perros que parecen gatos".

El usuario puede dar estas instrucciones de dos formas:

  1. Con palabras: "Cuenta las fichas de póker blancas, no las azules".
  2. Con ejemplos visuales: Puedes señalar con un recuadro en la foto: "Este es el que quiero contar (positivo)" y "Este es el que quiero ignorar (negativo)".

3. ¿Cómo funciona mágicamente? (La Analogía del Tamiz)

El corazón de CountEx es un módulo llamado Refinamiento Discriminativo de Consultas. Suena complicado, pero es como un tamiz de arena muy inteligente:

  1. Paso 1: Buscar lo en común. Primero, la IA mira lo que el objeto que quieres contar (ej. pasta Penne) y lo que quieres ignorar (ej. pasta Espiral) tienen en común. Ambas son pasta, ambas son blancas, ambas están en la mesa. La IA aprende a reconocer "esto es pasta".
  2. Paso 2: Encontrar lo único. Luego, la IA busca qué hace que la pasta Espiral sea diferente de la Penne (su forma enroscada). Identifica esos patrones exclusivos de lo que no quieres.
  3. Paso 3: El filtro mágico. Finalmente, la IA toma su lista de "pasta Penne" y aplica un filtro que borra solo las partes que se parecen a la pasta Espiral.
    • Resultado: La IA cuenta solo la Penne, ignorando perfectamente las espirales, porque sabe exactamente qué característica eliminar.

4. El Nuevo Campo de Entrenamiento: CoCount

Para entrenar a este detective, los autores crearon un nuevo banco de pruebas llamado CoCount.
Imagina que antes los entrenamientos eran como jugar al "Encuentra el objeto X" en una habitación vacía.
CoCount es como llenar una habitación con 97 tipos de parejas de objetos muy parecidos:

  • Monedas de 1 centavo vs. Monedas de 5 centavos.
  • Tornillos largos vs. Tornillos cortos.
  • Frijoles negros vs. Frijoles blancos.

Con 10,000 fotos anotadas, CountEx aprendió a distinguir diferencias muy sutiles, como si fuera un niño que aprende a diferenciar a sus hermanos gemelos.

5. ¿Por qué es importante?

Este sistema es un gran salto porque:

  • Es más humano: Nosotros, al pedir algo, a menudo decimos lo que no queremos ("Dame la manzana roja, no la verde"). CountEx entiende eso.
  • Es más preciso: En fotos llenas de cosas (multitudes, tiendas, laboratorios), evita contar lo que no debe.
  • Es flexible: Funciona incluso con objetos que la IA nunca ha visto antes, siempre que le des una pista de qué ignorar.

En resumen: CountEx es como darle a la inteligencia artificial un par de gafas especiales que le permiten decir "Sí, cuenta eso" y "No, ignora eso" al mismo tiempo, resolviendo el caos de contar objetos que se parecen mucho entre sí. ¡Es como tener un asistente personal que nunca se confunde con los gemelos!

Recibe artículos como este en tu bandeja de entrada

Resúmenes diarios o semanales personalizados según tus intereses. Gists o resúmenes técnicos, en tu idioma.

Probar Digest →