Retrieve and Segment: Are a Few Examples Enough to Bridge the Supervision Gap in Open-Vocabulary Segmentation?

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"Retrieve and Segment (RNS)"**라는 새로운 인공지능 기술을 소개합니다. 쉽게 말해, **"아직 본 적 없는 물체도 몇 장의 사진만 보여주면 정확하게 찾아서 구분해내는 기술"**입니다.

기존의 AI 는 "강아지"라고만 말하면 강아지 모양을 대략적으로만 알았지만, 이 기술은 "내 강아지 '보리'의 사진 3 장"을 보여주면 보리만 정확히 찾아냅니다.

이 복잡한 내용을 일상적인 비유로 설명해 드릴게요.

1. 문제: AI 는 왜 '정확한' 그림을 못 그릴까?

과거의 AI 는 수만 장의 사진에 "이건 강아지, 저건 고양이"라고 일일이 손으로 표시해가며 (지도 학습) 배웠습니다. 하지만 이렇게 하려면 엄청난 비용과 시간이 듭니다.

그래서 최근에는 **텍스트 (글)**로만 배운 AI(VLM) 를 썼습니다. "강아지"라는 글자를 보고 강아지 사진을 찾아내는 거죠.

문제점: 글자만 보고 배우니까, "강아지"라고 했을 때 강아지 전체를 찾기는 하지만, **정확한 경계 (얼굴, 귀, 꼬리)**를 구분하는 데는 서툴러요. 마치 "강아지"라는 단어의 의미는 알지만, 실제 강아지 그림을 그릴 때 선이 흐릿한 상태입니다.

2. 해결책: RNS (찾아내고 잘라내기)

이 논문은 **"글자 (텍스트) + 사진 몇 장 (시각적 예시)"**를 함께 쓰는 방법을 제안합니다.

🍳 비유: 요리 레시피와 시식회

기존 방식 (텍스트만): 요리사에게 "매콤한 국물 요리"라고만 알려줍니다. 요리사는 '김치찌개'일 수도 있고 '떡볶이'일 수도 있다고 추측만 합니다. (정확하지 않음)
기존 방식 (사진만): "이 사진이 김치찌개야"라고 보여줍니다. 하지만 만약 사진에 김치찌개와 비슷한 색의 다른 음식이 섞여 있으면, AI 는 혼란을 겪습니다.
RNS 방식 (글자 + 사진):
1. 글자: "김치찌개"라고 알려줍니다. (기본 개념)
2. 사진: "이게 김치찌개야"라고 사진 3 장을 보여줍니다. (구체적인 예시)
3. 핵심: AI 는 이 두 정보를 스스로 섞어서 (학습) 새로운 요리를 그립니다.

3. RNS 가 어떻게 작동할까? (창고와 검색자)

이 기술의 핵심은 **'검색 (Retrieve)'**과 **'적응 (Adapt)'**입니다.

창고 (Support Set): 우리는 AI 에게 '김치찌개', '비빔밥', '된장찌개'에 대한 사진 몇 장을 미리 준비해 둡니다. 이를 '창고'라고 생각하세요.
검색 (Retrieval): 새로운 요리 사진이 들어오면, AI 는 창고에서 가장 비슷한 사진들을 찾아냅니다.
- 예: "김치찌개"를 찾으러 왔다면, 창고에서 김치찌개 사진만 골라냅니다. (다른 음식 사진은 무시)
적응 (Test-time Adapter): 찾아낸 사진들을 바탕으로, **지금 보고 있는 사진에 딱 맞는 '분류기'**를 1 초 만에 만들어냅니다.
- 마치 요리사가 "오늘은 김치찌개 사진 3 장을 보고, 이 요리를 그릴 때 김치 색깔을 더 강조해야겠다"라고 바로바로 결정을 내리는 것과 같습니다.

4. 왜 이 기술이 특별한가? (창의적인 비유)

🌧️ 비유: 우산과 비

기존 AI: 비가 오면 우산을 펴지만, 비가 어느 방향으로 오는지 정확히 모릅니다. (흐릿함)
RNS: 비가 오는 방향을 미리 본 사진 (시각적 예시) 으로 확인하고, 글자 (텍스트) 로 비의 종류를 확인합니다. 그리고 그 순간에 맞춰서 우산의 각도를 스스로 조절합니다.
- 비가 없으면 (사진이 없으면) 글자만 보고도 잘합니다.
- 비가 너무 많으면 (사진이 너무 많으면) 사진에 의존합니다.
- 중요한 점: 사진이 일부만 있어도 (예: 김치찌개는 있는데 비빔밥 사진이 없음) 글자 정보로 보완해서 잘 처리합니다.

5. 실제 효과: "나만의" 물건 찾기

이 기술의 가장 멋진 점은 **'개인화 (Personalized Segmentation)'**입니다.

상황: "내 강아지 '보리'를 찾아줘."
기존 AI: "강아지"라고만 하면 모든 강아지를 찾아냅니다. 보리만 찾는 건 어렵습니다.
RNS: "보리"라는 이름과 보리의 사진 2 장만 보여주면, 보리만 정확히 찾아냅니다.
- 보리가 옷을 입고 있거나, 배경이 어두워도 사진 2 장을 통해 "아, 이게 보리구나!"라고 바로 학습해서 찾아냅니다.

6. 요약: 한 줄로 정리하면?

"AI 에게 글자만 주면 막연하고, 사진만 주면 헷갈리는데, '글자 + 사진 몇 장'을 주면 AI 가 스스로 배우서 아주 정확하게 물체를 찾아냅니다. 마치 새로운 친구를 소개할 때 이름과 사진 한 장만 보여주고도 그 친구를 바로 알아보는 것과 같습니다."

이 기술은 앞으로 AI 가 우리가 원하는 특정 사물이나 상황 (예: 내 차, 내 고양이, 특정 질병의 병변 등) 을 더 정교하게 인식하고 처리하는 데 큰 역할을 할 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

오픈 보카불러리 세그멘테이션 (Open-Vocabulary Segmentation, OVS) 은 텍스트 프롬프트를 통해 학습 시 보지 못한 임의의 카테고리를 픽셀 단위로 분할하는 작업입니다. 최근 비전 - 언어 모델 (VLM) 의 발전으로 제로샷 (zero-shot) OVS 가 가능해졌으나, 여전히 완전 감독 학습 (fully supervised) 모델에 비해 성능 격차가 존재합니다.

이 격차의 주요 원인은 다음과 같습니다:

** supervision 의 불일치:** VLM 은 이미지 전체 수준의 레이블로 학습되지만, 세그멘테이션은 세밀한 픽셀 단위의 예측이 필요합니다.
자연어의 모호성: 텍스트 프롬프트는 범위를 지정할 수 있지만, 구체적인 객체의 경계나 맥락을 명확히 구분하기 어렵습니다 (예: '사람'과 '오토바이'가 함께 있는 이미지에서 누가 '사람'인지 모호함).

기존의 Few-shot 접근법들은 대부분 폐쇄된 세계 (closed-world) 를 가정하거나, 텍스트와 시각 정보를 단순하게 결합하여 모달리티 간의 시너지를 충분히 이끌어내지 못했습니다. 또한, 일부 클래스에 대한 시각적 예시 (support images) 가 부족하거나 아예 없는 상황 (open-world) 에 대응하는 유연성이 부족했습니다.

2. 제안 방법: RNS (Retrieve and Segment)

저자들은 RNS라는 새로운 프레임워크를 제안합니다. 이는 텍스트 프롬프트에 소수의 픽셀 단위 주석이 달린 시각적 예시 (few-shot support set) 를 추가하고, 검색 기반 (retrieval-augmented) 테스트 시간 어댑터를 통해 두 모달리티를 효과적으로 융합하는 방법입니다.

핵심 메커니즘

지원 세트 구성 (Support Construction):
- 시각 지원 특징 (Visual Support Features): 주석이 달린 지원 이미지 (Support Images) 에서 클래스별 특징을 풀링 (pooling) 하여 추출합니다.
- 융합 지원 특징 (Fused Support Features): 텍스트 특징 (class name) 과 시각 특징을 가중치 ( $\lambda$ ) 를 통해 선형 결합합니다. 단일 가중치가 아닌 다양한 가중치 집합 ( $\Lambda$ ) 을 사용하여 다중 융합 특징을 생성함으로써 모달리티 간의 보완적 정보를 포착합니다.
테스트 시간 적응 (Test-Time Adaptation, TTA):
- 각 테스트 이미지 (Query Image) 에 대해 **가벼운 선형 분류기 (linear classifier)**를 실시간으로 학습합니다.
- 검색 (Retrieval): 테스트 이미지의 패치 (patch) 또는 영역 (region) 특징과 가장 유사한 시각 지원 특징들을 k-NN 을 통해 검색하여, 해당 테스트 이미지에만 관련된 '검색된 시각 지원 세트'를 구성합니다.
- 손실 함수 (Loss Function):
  - 시각 손실 ( $L_v$ ): 검색된 시각 지원 특징에 대해 분류기를 학습시킵니다.
  - 융합 손실 ( $L_f$ ): 텍스트와 시각이 융합된 특징을 사용하여 학습합니다.
  - 가중치 ( $w_c$ ): 텍스트 특징과 테스트 이미지 전체 특징 간의 유사도를 기반으로 클래스 관련성 가중치를 부여하여, 테스트 이미지에 존재하지 않는 클래스의 영향을 억제합니다.
  - 부분적 지원 대응: 시각적 예시가 없는 클래스의 경우, 제로샷 예측을 통해 생성된 **의사 레이블 (pseudo-labels)**을 활용하여 시각 특징을 추정하고 ( $L_p$ ), 텍스트가 없는 클래스의 경우 평균 텍스트 특징을 사용하여 편향을 줄입니다.
동적 확장성:
- 새로운 시각 예시가 추가되면 지원 세트 (Support Set) 를 효율적으로 업데이트할 수 있어, 지속적으로 변화하는 오픈 월드 환경이나 개인화된 세그멘테이션 (Personalized Segmentation) 에 적합합니다.

3. 주요 기여 (Key Contributions)

Few-shot OVS 설정의 체계적 연구: 텍스트 프롬프트에 픽셀 단위 주석이 달린 시각적 예시를 결합한 다양한 Few-shot 설정 (전체 지원, 부분 시각 지원, 부분 텍스트 지원) 을 제안하고 분석했습니다.
학습 기반 융합 어댑터 (RNS) 개발: 기존 방법들이 수동으로 설계된 융합 (hand-crafted fusion) 에 의존했던 것과 달리, 테스트 이미지별로 학습되는 어댑터를 통해 텍스트와 시각 정보를 동적으로 융합하여 강력한 시너지를 달성했습니다.
성능 격차 해소: 제로샷 OVS 와 완전 감독 학습 사이의 성능 격차를 획기적으로 줄였으며, 오픈 보카불러리 능력을 유지하면서도 높은 정확도를 달성했습니다.
동적 적응 및 개인화 지원: 새로운 클래스나 예시를 실시간으로 추가할 수 있는 동적 지원 확장 메커니즘을 통해 개인화된 세그멘테이션 (특정 객체 인스턴스 분할) 에 효과적으로 적용 가능함을 입증했습니다.

4. 실험 결과 (Results)

벤치마크 성능: PASCAL VOC, COCO, Cityscapes, ADE20K 등 6 개의 주요 OVS 벤치마크에서 RNS 는 기존 SOTA 방법들 (kNN-CLIP, FREEDA, CAT-Seg 등) 보다 일관되게 우월한 성능을 보였습니다.
Few-shot 성능: 클래스당 1 장의 이미지만으로도 제로샷 기준 대비 OpenCLIP 에서 +7.3%, DINOv3.txt 에서 +18.4% 의 mIoU 향상을 기록했습니다.
부분 지원 robustness: 일부 클래스에 시각적 예시가 없거나 텍스트가 없는 상황에서도 RNS 는 성능이 급격히 떨어지지 않고 부드럽게 감소하는 경향을 보였습니다. 반면, 기존 방법들은 지원이 부족할 때 제로샷 성능 이하로 떨어지는 경우가 많았습니다.
개인화된 세그멘테이션: 특정 객체 (예: 특정 패턴의 치마, 특정 접시) 에 대한 소수의 예시만 추가하여도 해당 인스턴스를 정확하게 분할할 수 있음을 시각적으로 증명했습니다.
비교 분석:
- 텍스트 vs 시각: 시각적 지원이 부족할 때 텍스트가, 시각적 지원이 풍부해질 때 시각 정보가 주된 역할을 하여 상호 보완적임을 확인했습니다.
- 검색의 중요성: 무작위 샘플링이나 검색 없이 전체 지원 세트를 사용하는 것보다, 테스트 이미지와 관련된 특징을 **검색 (Retrieval)**하여 사용하는 것이 성능에 결정적인 영향을 미쳤습니다.

5. 의의 및 결론 (Significance)

이 논문은 오픈 보카불러리 세그멘테이션의 실용성을 크게 향상시켰습니다. RNS 는 다음과 같은 점에서 의미가 있습니다:

효율성: 무거운 모델 재학습 없이, 고정된 VLM 백본 위에 가벼운 선형 분류기를 테스트 시간에 학습함으로써 계산 비용을 낮추면서도 높은 성능을 달성합니다.
유연성: 실제 오픈 월드 환경에서 발생할 수 있는 '시각적 예시 부재'나 '텍스트 정의 부재'와 같은 불완전한 정보 상황에서도 견고하게 작동합니다.
확장성: 새로운 클래스나 개인화된 객체를 실시간으로 시스템에 추가할 수 있어, 로봇 공학, 의료 영상, 자율 주행 등 동적인 환경에서의 적용 가능성을 높였습니다.

결론적으로, RNS 는 소수의 예시 (Few Examples) 만으로도 오픈 보카불러리 세그멘테이션의 supervision gap 을 효과적으로 메울 수 있음을 입증하며, 텍스트와 시각 정보를 지능적으로 결합하는 새로운 패러다임을 제시합니다.