Counting Through Occlusion: Framework for Open World Amodal Counting

Each language version is independently generated for its own context, not a direct translation.

🕵️‍♂️ 문제: "보이지 않는 것"을 어떻게 셀까?

상상해 보세요. 주차장에 차가 빽빽하게 들어차 있습니다. 그런데 어떤 큰 트럭이 앞을 가리고 있어서, 트럭 뒤에 숨은 차들은 보이지 않습니다.

기존의 최신 AI(컴퓨터 비전) 들은 "보이는 것만 세는" 아주 똑똑하지만, 동시에 "장님" 같은 성격을 가지고 있었습니다.

기존 AI: "아, 트럭 뒤에 차가 있는 것 같아? 모르겠어. 안 보이니까 없다고 치자." (이렇게 하면 실제 차 수보다 훨씬 적게 세게 됩니다.)
왜 그럴까? AI 가 트럭을 '물체'로 인식하지 않고, 그냥 '앞에 있는 검은색 덩어리'로만 인식하기 때문입니다. 트럭 뒤에 숨은 차의 특징을 기억해 낼 수 없었던 거죠.

💡 해결책: "CountOCC" - 상상력을 가진 AI

이 연구팀이 만든 CountOCC는 단순히 보는 것을 넘어, **"상상력"**을 발휘합니다.

1. "보이지 않는 조각을 다시 조립하다" (Feature Reconstruction)

마치 퍼즐을 맞추는 것처럼 생각해보세요.

상황: 퍼즐의 일부 조각이 다른 물건에 가려져 있어요.
기존 AI: 가려진 조각이 없으니까, 그 자리도 빈 공간이라고 생각합니다.
CountOCC: "잠깐, 이 주변에 차가 많잖아? 그리고 가려진 부분의 모양을 보면 뒤에 차가 있을 거야. 내가 그 가상 조각을 상상해서 만들어보자!"
기술적 비유: AI 는 가려진 부분의 '특징'을 잃어버린 것이 아니라, 주변 정보와 "이건 차야"라는 텍스트 지시 (예: "빨간 차") 를 결합해, 가려진 부분에도 마치 차가 있는 것처럼 가상의 특징을 채워 넣습니다.

2. "거울 속의 나"와 비교하다 (Visual Equivalence)

이제 AI 가 만든 가상의 조각이 진짜인지 확인해야 합니다.

비유: 거울을 두 개 준비합니다. 하나는 깨끗한 거울 (가려지지 않은 상태), 다른 하나는 안개가 낀 거울 (가려진 상태) 입니다.
CountOCC: "안개 낀 거울 속의 내가, 깨끗한 거울 속의 나와 **마음 (주의 집중 영역)**이 똑같아야 해!"
기술적 비유: AI 는 가려진 상태에서도 가려지지 않은 상태와 똑같이 "차에 집중하는 눈"을 갖도록 훈련시킵니다. 이렇게 하면 가려진 물체도 마치 보이는 것처럼 정확하게 인식하게 됩니다.

🏆 결과: 얼마나 잘할까?

이 기술은 기존 방법들보다 훨씬 뛰어납니다.

기존 방법: 가려진 차를 못 보고, 10 대 중 6 대만 세서 6 대라고 답함.
CountOCC: 가려진 차까지 상상해서 10 대를 정확히 세서 10 대라고 답함.

특히, FSC-147 (사물 인식 데이터) 과 CARPK (주차장 데이터) 같은 테스트에서, 기존 최고의 기술보다 오류율을 20~50% 이상 줄이는 놀라운 성과를 냈습니다.

🌍 왜 이게 중요할까? (실생활 예시)

이 기술은 우리 삶에 큰 변화를 줄 수 있습니다.

농업: 밀밭에서 밀 이삭이 서로 겹쳐서 가려져도, AI 가 전체 수확량을 정확히 예측할 수 있습니다.
창고 관리: 물건들이 쌓여 앞이 가려져도, 창고에 몇 개의 상품이 있는지 정확히 파악할 수 있습니다.
교통: 주차장이나 도로에서 차량이 겹쳐 있어도, 교통량을 정확히 세어 혼잡도를 분석할 수 있습니다.

📝 한 줄 요약

"CountOCC 는 AI 에게 '보이지 않는 것도 상상해서 세는 능력'을 가르쳐, 가려진 물체가 있어도 정확한 숫자를 알려주는 혁신적인 기술입니다."

이 기술은 AI 가 단순히 '보는' 것을 넘어, '이해하고 추론하는' 단계로 한 걸음 더 나아가게 했습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

기존의 객체 카운팅 (Object Counting) 연구는 가시적인 (visible) 인스턴스에 집중하여 높은 성능을 달성해 왔습니다. 그러나 실제 환경 (주차장, 소매점 선반, 농장 등) 에서는 객체가 전경의 장애물이나 구조물에 의해 가려지는 가림 (Occlusion) 현상이 빈번하게 발생합니다.

기존 방법의 한계: 최신 SOTA(State-of-the-Art) 오픈 월드 카운팅 모델들 (CountGD, LOCA, CounTR 등) 은 가시적인 부분만 인식하고, 가려진 부분을 배경으로 간주하여 숨겨진 객체를 완전히 누락합니다.
근본 원인: 백본 네트워크가 가리는 표면 (occluding surfaces) 의 특징을 인코딩하여 타겟 객체의 특징 표현을 왜곡시키기 때문입니다. 즉, 가려진 영역의 특징을 복원할 수 있는 메커니즘이 부재합니다.
목표: 학습 없이 새로운 객체 카테고리를 지정할 수 있는 오픈 월드 (Open-world) 환경에서, 가시적 및 가려진 (occluded) 인스턴스를 모두 포함하여 총 개수를 정확히 추정 (Amodal Counting) 하는 것입니다.

2. 제안 방법론: CountOCC (Methodology)

저자들은 CountOCC라는 새로운 프레임워크를 제안하며, 이는 크게 두 가지 핵심 구성 요소로 이루어집니다.

가. 특징 재구성 모듈 (Feature Reconstruction Module, FRM)

목적: 가려진 영역에서 손상된 특징을 복원하여 객체의 완전한 표현을 생성합니다.
작동 원리:
1. 가시/가려 분리: 피라미드 레벨별 특징을 가시 영역 (Visible tokens) 과 가려진 영역 (Learnable query tokens) 으로 분리합니다.
2. 계층적 멀티모달 안내:
  - 공간적 문맥: 가려진 쿼리가 가시 영역의 토큰과 크로스 어텐션 (Cross-attention) 을 통해 공간적 맥락을 학습합니다.
  - 의미적 사전 지식: 텍스트 및 시각적 예시 (Visual Exemplars) 로부터 얻은 융합 임베딩을 통해 클래스별 구별 가능한 특징을 주입합니다.
3. 재구성: MLP 를 통해 가려진 위치의 특징을 "객체가 완전히 보일 때"의 특징으로 재구성합니다.
4. 통합: 재구성된 특징을 원래 특징 맵의 가려진 위치에 대체하여 완전한 특징 피라미드를 형성합니다.

나. 시각적 동등성 (Visual Equivalence, VisEQ)

목적: 가려진 이미지와 가려지지 않은 이미지가 동일한 객체 증거에 주의를 기울이도록 보장합니다.
작동 원리:
- Teacher-Student 구조: 가려지지 않은 원본 이미지를 처리하는 Teacher 네트워크와 가려진 이미지를 처리하는 Student 네트워크를 사용합니다.
- 주의도 정렬 (Attention Alignment): 두 네트워크의 그라디언트 기반 주의도 맵 (GradCAM) 이 공간적으로 일치하도록 유도합니다.
- 손실 함수:
  - Attention Similarity Loss: Teacher 와 Student 의 주의도 맵 간의 $\ell_2$ 거리 및 코사인 유사도를 최소화합니다.
  - ROI Consistency Loss: 관심 영역 (RoI) 내에서 활성화 강도는 높고 분산은 낮도록 하여, 무의미한 균일한 예측을 방지합니다.

3. 주요 기여 (Key Contributions)

최초의 오픈 월드 아모달 카운팅 프레임워크: 가시적 및 가려진 공간 영역 모두에서 정확한 객체 수를 추정하는 최초의 오픈 월드 아모달 카운팅 모델 (CountOCC) 을 제안했습니다.
새로운 모듈 및 목적 함수:
- 가려진 영역을 위한 클래스 구별 특징을 명시적으로 복원하는 FRM을 도입했습니다.
- 가려진/가려지지 않은 뷰 간의 주의도 일관성을 강제하는 VisEQ 목적 함수를 제안했습니다.
엄격한 평가 벤치마크 구축:
- 기존 FSC-147 및 CARPK 데이터셋에 인위적인 가림 (Occlusion) 을 추가한 FSC-147-OCC와 CARPK-OCC를 구축하여 오픈 월드 아모달 카운팅을 평가할 수 있는 표준 벤치마크를 마련했습니다.
- 기존 CAPTURe-Real 데이터셋과 함께 포괄적인 평가를 수행했습니다.
SOTA 성능 달성: 모든 벤치마크에서 기존 방법론을 크게 앞서는 성능을 기록했습니다.

4. 실험 결과 (Results)

저자들은 FSC-147-OCC, CARPK-OCC, CAPTURe-Real 세 가지 벤치마크에서 CountOCC 를 평가했습니다.

FSC-147-OCC (검증/테스트):
- 이전 SOTA 인 CountGD 대비 검증 세트에서 MAE 26.72%, 테스트 세트에서 MAE 20.80% 감소.
- RMSE 역시 검증/테스트에서 각각 34.90%, 54.71% 크게 개선.
CARPK-OCC (제로샷 일반화):
- CountGD 대비 MAE 49.89% 감소.
- 시각적 예시 기반 모델 (LOCA 등) 대비 68~78% 이상의 성능 향상.
CAPTURe-Real:
- CountGD 대비 MAE 28.79% 감소.
분석:
- Ablation Study: FRM 을 모든 피라미드 레벨에 적용하고 VisEQ 를 결합했을 때 가장 큰 성능 향상을 보였습니다.
- 가시/가려 분리 분석: CountOCC 는 가려진 객체에 대한 오차 (MAE) 를 획기적으로 줄이면서도, 가시적인 객체에 대한 정확도는 유지했습니다.
- 시각화: t-SNE 분석을 통해 재구성된 특징이 가려지지 않은 객체의 특징 (Ground Truth) 과 공간적/의미적으로 잘 정렬됨을 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

기술적 의의: 이 연구는 오픈 월드 카운팅 분야에서 "가림 (Occlusion)"이라는 근본적인 한계를 해결하기 위해, 단순한 특징 추출이 아닌 적극적인 특징 재구성 (Feature Reconstruction) 과 주의도 일관성 (Attention Consistency) 을 결합한 새로운 패러다임을 제시했습니다.
실용적 가치: 주차 관리, 재고 통제, 농업 수확량 추정, 자율 주행 등 실제 환경에서 객체가 부분적으로 가려지는 복잡한 시나리오에서 신뢰할 수 있는 계산을 가능하게 합니다.
한계 및 향후 과제: 현재는 가림 마스크 (Occlusion Mask) 를 입력으로 필요로 합니다. 향후에는 가림 영역을 자동으로 탐지하여 마스크 없이도 작동할 수 있도록 확장하는 것이 중요한 연구 방향입니다.

요약하자면, CountOCC는 가려진 객체를 단순히 놓치는 것이 아니라, 시각적 문맥과 언어적 지시를 활용하여 그 존재를 추론하고 특징을 복원함으로써, 오픈 월드 환경에서의 아모달 카운팅 성능을 혁신적으로 향상시킨 획기적인 연구입니다.