Each language version is independently generated for its own context, not a direct translation.

🍝 "CountEx": 혼란스러운 세상에서 정확히 원하는 것만 세는 똑똑한 눈

이 논문은 컴퓨터 비전 (컴퓨터가 눈을 통해 세상을 보는 기술) 분야에서 **'정확한 세기 (Counting)'**라는 문제를 해결하기 위해 제안된 새로운 방법, CountEx에 대한 이야기입니다.

기존의 컴퓨터는 "이 사진에 사과가 몇 개 있나요?"라고 물으면 사과를 다 찾아서 세어주지만, **"빨간 사과만 세고, 초록색 사과는 빼줘"**라고 말하면 혼란에 빠지기 일쑤였습니다. 마치 아이에게 "과일만 먹어"라고 했을 때, 아이가 싫어하는 과일까지 다 먹어치우는 것과 비슷하죠.

이 논문은 그 문제를 해결하기 위해 "무엇을 세고, 무엇을 제외할지" 명확히 알려주는 새로운 시스템을 만들었습니다.

🎯 핵심 아이디어: "세고 싶은 것"과 "제외하고 싶은 것"을 동시에 말하기

1. 기존 방식의 한계 (혼란스러운 파티)

기존의 AI 는 사용자가 "이 사진에 있는 파스타를 세어줘"라고 하면, 사진 속 모든 파스타를 다 세려고 합니다. 하지만 사진 속에 **말린 파스타 (Spiral)**와 **펜네 파스타 (Penne)**가 섞여 있다면, AI 는 둘을 구별하지 못해 엉뚱한 개수를 세거나, 사용자가 원하지 않는 파스타까지 포함시켜 버립니다.

비유: 파티장에 들어간 아이에게 "모든 사탕을 줘"라고 했을 때, 아이가 싫어하는 초콜릿까지 다 챙겨오는 상황과 같습니다.

2. CountEx 의 해결책 (명확한 지시)

CountEx 는 사용자에게 **"무엇을 세고 (Inclusion), 무엇을 제외할지 (Exclusion)"**를 동시에 말할 수 있는 기회를 줍니다.

사용자: "이 사진에서 펜네 파스타만 세어줘. 나선형 파스타는 빼줘."
CountEx: "알겠습니다! 나선형 파스타는 무시하고 펜네 파스타만 정확히 세겠습니다."

이때 텍스트 ("나선형 파스타는 빼줘") 나, 예시 사진 (나선형 파스타를 지정한 박스) 을 함께 주면 더 정확해집니다.

🧠 CountEx 가 어떻게 작동할까? (마법 같은 필터링)

CountEx 는 단순히 "세고 싶은 것"에서 "제외하고 싶은 것"을 뺄셈하는 게 아닙니다. 그건 너무 단순해서 실수가 많기 때문입니다. 대신 3 단계의 지적인 필터링 과정을 거칩니다.

1 단계: 공통점 찾기 (Shared Feature Identification)

먼저 AI 는 "세고 싶은 것"과 "빼고 싶은 것"을 비교해 둘이 공통으로 가진 특징을 찾아냅니다.

비유: "펜네 파스타"와 "나선형 파스타"는 둘 다 **면 (Pasta)**이라는 공통점이 있습니다. AI 는 이 공통점을 먼저 파악합니다.

2 단계: 차이점 추출 (Exclusive Feature Extraction)

그다음, 공통점을 제외하고 오직 '빼고 싶은 것'에만 있는 특징을 찾아냅니다.

비유: "나선형 파스타"에만 있는 나선 모양을 찾아내서 "이건 제외 대상이다"라고 표시합니다.

3 단계: 선택적 억제 (Selective Query Refinement)

마지막으로, "세고 싶은 것"을 세는 과정에서 2 단계에서 찾은 '제외 대상 특징'만 살짝 누르거나 (Suppression) 무시합니다.

비유: AI 는 "면 (공통점) 은 세고, 나선 모양 (차이점) 은 무시해"라고 생각하며 펜네 파스타만 정확히 골라냅니다.

이 과정을 통해 AI 는 비슷한 물체들이 섞여 있어도 사용자가 원하는 것만 정확하게 찾아낼 수 있게 됩니다.

📊 새로운 시험장: CoCount 데이터셋

이 기술을 검증하기 위해 연구진은 CoCount라는 새로운 데이터셋을 만들었습니다. 기존 데이터셋은 보통 한 가지 물건만 많았지만, CoCount 는 서로 비슷하지만 다른 97 가지 물건 쌍을 담고 있습니다.

예시: 검은색 커피 캔디 vs 갈색 커피 캔디, 작은 볼트 vs 큰 볼트, 빨간색 카드 vs 검은색 카드 등.
의미: 마치 "빨간 공과 파란 공이 섞여 있을 때, 빨간 공만 정확히 세어라"라는 어려운 시험을 AI 에게 내주는 것과 같습니다.

🏆 결과: 왜 이것이 중요한가?

실험 결과, CountEx 는 기존 최고의 방법들보다 훨씬 더 정확하게 세는 능력을 보여주었습니다.

새로운 물건에도 강함: 훈련하지 않은 새로운 물건 쌍 (예: 훈련은 '과일'로 했지만, 테스트는 '간식'으로 함) 에도 잘 작동합니다.
혼란스러운 장면에서도 정확: 물건들이 뒤죽박죽 섞여 있어도, 사용자가 "제외할 것"을 알려주면 그걸 무시하고 정확히 셉니다.
실용성: 사용자가 "이건 세지 마"라고 말하기만 하면 되므로, 복잡한 상황에서도 AI 를 더 쉽게 제어할 수 있습니다.

💡 결론

이 논문은 "무엇을 할지"뿐만 아니라 "무엇을 하지 않을지"도 알려주는 것이 얼마나 중요한지 보여줍니다.

한 줄 요약:
CountEx 는 혼란스러운 세상에서 "세고 싶은 것"과 "싫어하는 것"을 동시에 지시받아, 마치 현명한 비서처럼 정확하게 원하는 것만 골라 세어주는 똑똑한 AI 입니다.

이 기술이 발전하면, 의료 영상에서 병변만 정확히 세거나, 공장 라인에서 불량품만 골라내는 등 우리 생활의 다양한 분야에서 큰 도움을 줄 수 있을 것입니다.

Each language version is independently generated for its own context, not a direct translation.

CountEx: 지시어 (Exemplars) 와 배제 (Exclusion) 를 통한 정밀한 객체 계수

1. 문제 정의 (Problem)

기존의 시각적 객체 계수 (Visual Counting) 방법론, 특히 프롬프트 기반 (Prompt-based) 접근법은 사용자가 '무엇을 세어야 하는지' (포함, Inclusion) 는 지정할 수 있지만, 시각적으로 매우 유사한 방해 요소 (Distractors) 를 명시적으로 '무엇을 제외할지' (배제, Exclusion) 지정하는 데 한계가 있었습니다.

현황: 복잡한 장면에서 유사한 객체 카테고리 (예: 나선형 파스타 vs 펜네 파스타, 검은색 커피 캔디 vs 갈색 커피 캔디) 가 공존할 때, 기존 모델은 사용자의 의도를 오해하거나 방해 요소를 포함하여 과다 계수 (Over-counting) 하는 경향이 있습니다.
한계: 단순히 양 (+) 과 음 (-) 예시를 별도로 처리하여 뺄셈을 수행하는 단순한 방식은 두 카테고리 간의 관계적 맥락을 무시하여 성능이 저하됩니다.

2. 제안 방법론: CountEx (Methodology)

저자들은 포함과 배제 의도를 모두 명시할 수 있는 새로운 프레임워크인 CountEx를 제안합니다. 이 프레임워크는 자연어 설명과 선택적 시각 지시어 (Exemplars) 를 결합한 멀티모달 프롬프트를 지원합니다.

핵심 구성 요소:

멀티모달 프롬프트 인코딩 (Prompt-Conditioned Query Encoding):
- 입력 이미지와 양 (+) 프롬프트 (텍스트/지시어), 음 (-) 프롬프트 (텍스트/지시어) 를 각각 처리하여 **양성 쿼리 집합 ( $Q_{pos}$ )**과 **음성 쿼리 집합 ( $Q_{neg}$ )**을 생성합니다.
- 이를 통해 장면의 두 가지 보완적 표현 (목표 객체 중심 vs 유사 방해 요소 중심) 을 동시에 확보합니다.
차별적 쿼리 정제 모듈 (Discriminative Query Refinement, DQR):
- 단순 뺄셈이 아닌, 3 단계 전략을 통해 $Q_{pos}$ $Q_{p os}$ 를 정제합니다.
  - 공유 특징 식별 (Shared Feature Identification): $Q_{pos}$ 와 $Q_{neg}$ 모두에 공통적으로 나타나는 시각적 특징 (예: 객체의 기본 형태, 질감) 을 학습하는 프로토타입 ( $C$ ) 을 추출합니다.
  - 배제 전용 특징 추출 (Exclusive Feature Extraction): 공유 특징 공간과 거리가 먼 음성 쿼리들을 식별하고, 이를 공유 특징에서 투영 (Projection) 하여 **음성 전용 잔차 (Negative-exclusive residuals)**를 추출합니다. 이는 두 카테고리 모두에 공통된 특징을 제거하고 오직 배제해야 할 특징만 남깁니다.
  - 선택적 쿼리 정제 (Selective Query Refinement): 추출된 음성 전용 특징 ( $R_{neg}$ ) 을 사용하여 $Q_{pos}$ 를 정제합니다. 교차 주의 (Cross-attention) 메커니즘을 통해 방해 요소 패턴과 정렬된 쿼리는 억제 (Suppression) 되지만, 공통 특징은 보존됩니다.
학습 목표:
- 분류, 국소화, 밀도 예측 손실과 함께, 프로토타입 학습을 위한 공유성 (Shareability) 및 다양성 (Diversity) 손실을 결합하여 엔드 - 투 - 엔드 학습을 수행합니다.

3. 주요 기여 (Key Contributions)

명시적 배제 지시 (Explicit Exclusion Cues) 를 통한 계수 태스크 정의: 사용자가 무엇을 세고 무엇을 제외할지 명시할 수 있는 새로운 인터페이스를 제안했습니다.
CountEx 아키텍처 개발: 포함과 배제 신호를 통합적으로 추론하여 다양한 벤치마크에서 최첨단 (SOTA) 성능을 달성하는 새로운 아키텍처를 제안했습니다.
CoCount 데이터셋 출시:
- 규모: 1,780 개의 비디오, 10,086 개의 주석 프레임, 97 개의 카테고리 쌍.
- 구성: 음식, 게임, 홈, 데스크, 기타 등 5 가지 상위 카테고리.
- 특징: 카테고리 간 (Inter-category, 예: 파스타 vs 후추) 과 카테고리 내 (Intra-category, 예: 검은색 vs 흰색 커피 캔디) 의 세밀한 변별력을 테스트할 수 있도록 설계되었습니다. 기존 데이터셋의 편향 (주류 카테고리만 계수하는 경향) 을 해결하기 위해 고안되었습니다.

4. 실험 결과 (Results)

CoCount 벤치마크:
- Novel-Category Setting (NC): 훈련 시 보지 못한 카테고리에 대한 제로샷 일반화 테스트에서 CountEx 는 MAE 26.61, RMSE 38.86 을 기록하여 기존 SOTA 모델 (LLMDet 등) 보다 약 19.9% 의 오차 감소를 달성했습니다.
- Known-Category Setting (KC): 훈련 데이터에 포함된 카테고리에 대한 테스트에서도 MAE 12.72 로 최상위 성능을 보였습니다.
타 데이터셋 일반화:
- LOOKALIKES: 제로샷 설정에서 MAE 18.53 을 기록하여 기존 방법론들을 압도했습니다. (단, 합성 데이터 생성 및 적응이 필요한 기존 방법보다 처리 속도가 빠릅니다.)
- PairTally: 모든 메트릭 (MAE, NAE) 에서 전문 계수 모델 및 일반 비전 - 언어 모델보다 우수한 성능을 보였습니다.
- FSC-147: 배제 프롬프트가 필요 없는 단일 카테고리 데이터셋에서도 경쟁력 있는 성능을 보였습니다.
Ablation Study: 부정적 (Negative) 텍스트 프롬프트의 추가가 성능 향상에 결정적임을 확인했으며, 밀도 예측 손실과 프로토타입 손실이 정제 과정에 필수적임을 입증했습니다.

5. 의의 및 결론 (Significance)

사용자 제어 및 모호성 해소: 복잡한 장면에서 시각적으로 유사한 객체를 구분할 때, 사용자가 "무엇을 제외할지" 명시할 수 있게 함으로써 계수 정확도를 획기적으로 높였습니다.
데이터셋의 중요성: CoCount 는 미세한 객체 변별력을 연구하기 위한 표준 벤치마크로 자리 잡을 것으로 기대됩니다.
기술적 혁신: 단순한 뺄셈이 아닌, 특징 공간에서의 '공유 특징 보존'과 '배제 특징 선택적 억제'를 통해 객체 계수의 정밀도를 높이는 새로운 패러다임을 제시했습니다.

이 연구는 컴퓨터 비전 분야에서 사용자 의도를 더 정밀하게 반영하고, 혼란스러운 장면에서도 신뢰할 수 있는 객체 계수를 가능하게 하는 중요한 진전을 이루었습니다.

CountEx: Fine-Grained Counting via Exemplars and Exclusion