GroundCount: Grounding Vision-Language Models with Object Detection for Mitigating Counting Hallucinations

이 논문은 객체 탐지 모델의 공간적 위치 정보를 시각-언어 모델에 명시적으로 결합하여 카운팅 오류를 줄이고 추론 시간을 단축하는 'GroundCount' 프레임워크를 제안하며, 이를 통해 다양한 모델에서 카운팅 정확도를 유의미하게 향상시킵니다.

Boyuan Chen, Minghao Shao, Siddharth Garg, Ramesh Karri, Muhammad Shafique

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎭 1. 문제: AI 의 '착각' (할루시네이션)

최근의 AI(시각 - 언어 모델) 는 그림을 보고 질문에 답하는 능력이 매우 뛰어나졌습니다. 하지만 **'개수 세기'**라는 간단한 작업에서는 자꾸 실수를 합니다.

  • 비유: 상상해 보세요. 아주 똑똑한 **문학 박사 (AI)**가 그림을 보고 있습니다. 그는 그림의 분위기나 감정은 잘 설명하지만, "여기에 사과가 몇 개야?"라고 물으면 "아마 3 개일 거야, 아니면 5 개일 수도 있고..." 하며 상상으로 답을 합니다.
  • 현실: AI 는 그림을 자세히 보는 것보다, 말로 된 지식 (예: "보통 사과가 3~4 개쯤 있지") 에 더 의존하는 경향이 있어, 실제 그림에 있는 개수와 다르게 말해버립니다. 이를 **'할루시네이션 (착각)'**이라고 합니다.

🛠️ 2. 해결책: 'GroundCount' (발견과 세기의 결합)

연구팀은 이 문제를 해결하기 위해 두 가지 도구를 합쳤습니다.

  1. AI (문학 박사): 그림의 맥락과 의미를 이해하는 역할.
  2. 물체 탐지 모델 (ODM, 예: YOLO): 카메라와 자 역할을 하는 전문 도구. 이 도구는 그림 속 사물을 정확히 찾아내고 "여기에 사과가 3 개 있습니다"라고 숫자와 위치를 딱딱 끊어서 알려줍니다.

이 연구는 AI 가 혼자서 상상하며 세는 대신, 전문 도구 (카메라) 가 찾아낸 정확한 숫자를 AI 에게 알려주고, AI 가 그 정보를 바탕으로 답을 하도록 만들었습니다.

🚀 3. 세 가지 실험 방법 (세 가지 전략)

연구팀은 이 두 도구를 어떻게 결합할지 세 가지 방법을 시도했습니다.

방법 A: "메모지 붙이기" (가장 효과적!)

  • 비유: AI 가 그림을 볼 때, 옆에 전문 감식관이 "여기 사과 3 개, 저기 바나나 2 개"라고 메모지를 붙여주는 방식입니다.
  • 결과: AI 가 메모지를 보고 답을 하니, 정확도가 81.3% 로 크게 올라갔습니다.
  • 특이점: 오히려 속도도 빨라졌습니다. AI 가 "아니야, 다시 세보자" 하며 헛되이 고민하는 시간을 줄여주었기 때문입니다.

방법 B: "뇌 수술하기" (복잡한 통합)

  • 비유: AI 의 뇌 (내부 구조) 를 직접 뜯어고쳐서, 감식관의 눈 (카메라) 과 AI 의 뇌를 신경으로 직접 연결하는 방식입니다.
  • 결과: 생각보다 효과가 떨어졌습니다. 두 도구를 너무 깊게 섞으려다 보니, AI 가 혼란을 겪거나 오히려 실수가 늘어났습니다.

방법 C: "메모지 + 뇌 수술" (하이브리드)

  • 비유: 메모지를 붙이면서 동시에 뇌도 수술하는 방식입니다.
  • 결과: 속도는 매우 빨라졌지만, 정확도는 '메모지'만 붙인 경우보다 약간 떨어졌습니다.

💡 4. 핵심 교훈 (무엇을 배웠을까?)

  1. 단순함이 최고다: AI 에게 복잡한 내부 구조를 바꾸기보다, **명확한 정보 (메모지)**를 주는 것이 훨씬 효과적이었습니다.
  2. 위치 정보가 중요하지만, 모델에 따라 다르다: "사과가 왼쪽 위에 있다"는 위치 정보를 주는 것이 큰 AI 에겐 도움이 되지만, 작은 AI 에겐 오히려 방해가 되기도 했습니다.
  3. 정확한 탐지가 핵심: 감식관 (카메라) 이 사물을 찾을 때 '아마 있을지도 모른다'는 낮은 확률의 정보까지 모두 주면 AI 가 헷갈려서 실수를 많이 했습니다. 확실한 것만 골라서 주는 것이 중요합니다.

🌟 5. 결론

이 연구는 **"AI 가 개수를 세는 데 서툴다면, AI 를 더 똑똑하게 만들기보다, AI 가 볼 수 있는 '정확한 눈'을 붙여주면 된다"**는 것을 증명했습니다.

이 기술은 재고 관리, 장난감 세기, 혹은 시각 장애인을 위한 보조 기기 등 정확한 개수가 중요한 모든 분야에서 AI 의 신뢰도를 높이는 데 큰 도움이 될 것입니다.

한 줄 요약:

"AI 가 그림 속 물건을 세느라 헛소리를 할 때, 옆에 **'정확한 카운터'**를 붙여주니 AI 가 더 빠르고 정확하게 답을 하게 되었다!"