GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

O artigo apresenta o GroundCount, um framework que integra modelos de detecção de objetos a Modelos Visuais-Linguísticos (VLMs) para mitigar alucinações de contagem, demonstrando que a ancoragem espacial explícita via prompts estruturados supera a fusão de características e melhora significativamente a precisão na maioria das arquiteturas avaliadas.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique

Publicado 2026-03-12
📖 4 min de leitura☕ Leitura rápida

Each language version is independently generated for its own context, not a direct translation.

Imagine que você tem um amigo muito inteligente, que leu milhões de livros e sabe falar sobre quase tudo. Esse é o Modelo de Visão e Linguagem (VLM). Ele é ótimo em descrever o que vê, mas tem um defeito engraçado e perigoso: ele é um "alucinado" quando precisa contar coisas.

Se você mostra uma foto com 5 maçãs e pergunta "quantas maçãs tem aqui?", esse amigo inteligente pode olhar para a imagem, pensar muito e, confiante, responder: "São 3!" ou "São 7!", porque ele está mais focado no que acha que deveria ver do que no que realmente está na foto. É como se ele estivesse sonhando acordado.

Por outro lado, imagine um detector de objetos (como o YOLO). Ele é como um guarda de trânsito ou um contador de estoque super-rápido e metódico. Ele não "pensa" ou "sonha". Ele apenas varre a imagem, vê formas, desenha quadrados ao redor delas e diz: "Aqui tem uma pessoa, ali tem outra, e ali mais uma". Ele é perfeito para contar, mas não é muito bom em entender o contexto ou contar piadas.

O Problema: O Gênio vs. O Contador

Os pesquisadores descobriram que, mesmo nos modelos mais modernos e inteligentes, contar objetos é a tarefa onde eles mais erram. Eles confundem, alucinam e perdem a conta, enquanto os detectores de objetos fazem isso com facilidade e rapidez.

A Solução: O "GroundCount" (O Chão da Contagem)

A equipe criou uma solução chamada GroundCount. A ideia é simples: não tente consertar a cabeça do "gênio" (o modelo de IA), apenas dê a ele uma "cola" ou um "mapa" feito pelo "contador" (o detector de objetos).

Eles conectaram os dois mundos de três formas, mas a melhor funcionou como um assistente de voz:

  1. O Método do "Bilhete de Ajuda" (Plan A - O Vencedor):
    Antes de o "gênio" responder, o sistema pede ao "contador" para olhar a foto primeiro. O contador diz: "Olha, vejo 3 pessoas na esquerda, 2 no meio e 1 na direita".
    Então, o sistema escreve essa lista no papel de perguntas do "gênio".

    • Resultado: O "gênio" agora não precisa adivinhar. Ele lê a lista do contador, olha a foto para confirmar e responde corretamente.
    • A Mágica: Isso não só melhora a precisão (de 74% para 81%), mas também torna o processo mais rápido. Por que? Porque o "gênio" para de ficar pensando em círculos ("será que são 3? ou 4?") e vai direto à resposta. É como ter um GPS: você chega mais rápido porque não se perde.
  2. O Método da "Fusão de Cérebros" (Plan B e C):
    Aqui, eles tentaram fundir os dois modelos em uma única estrutura de rede neural, como se misturassem o sangue do contador no cérebro do gênio.

    • O Resultado: Funcionou, mas não foi tão bom quanto o "Bilhete de Ajuda". Às vezes, misturar as coisas de forma tão profunda criava confusão. O "gênio" preferia ler a lista clara do contador do que tentar entender uma mistura complexa de dados.

O Que Aprendemos? (As Lições do Dia)

  • O "Gênio" precisa de chão: O problema não é que o modelo é burro, é que ele tem dificuldade em conectar o que vê (imagem) com o que conta (números). Dar a ele uma lista explícita (o "chão" ou grounding) resolve o problema.
  • Menos é mais: Adicionar informações de confiança (ex: "tenho 90% de certeza que é uma pessoa") as vezes atrapalha. Às vezes, é melhor o contador apenas dizer "tem uma pessoa aqui" sem se preocupar com o quanto ele está confiante.
  • Tamanho não é documento: Modelos maiores e mais complexos nem sempre são melhores para contar. Às vezes, eles ficam tão confusos com suas próprias reflexões que erram mais do que modelos menores quando recebem a ajuda do contador.
  • A "Cola" funciona melhor que a "Fusão": A melhor estratégia foi simplesmente dar a informação ao modelo de forma clara (texto), em vez de tentar fundir os sistemas internamente. É mais fácil ler um mapa do que tentar "sentir" o caminho.

Resumo em uma Frase

O GroundCount é como dar uma calculadora para um matemático que está tentando adivinhar números de cabeça. Ao fornecer os dados brutos e organizados de um especialista em contagem, o modelo inteligente para de alucinar, responde com mais precisão e, ironicamente, fica mais rápido porque para de dar voltas desnecessárias.

Isso é ótimo para criar ferramentas mais confiáveis, como sistemas que ajudam pessoas cegas a contar objetos ou inventários automáticos que não erram a contagem de produtos.