DQE-CIR: Distinctive Query Embeddings through Learnable Attribute Weights and Target Relative Negative Sampling in Composed Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

1. 문제점: 왜 기존 시스템은 헷갈릴까?

기존의 이미지 검색 시스템은 "정답 (Target)" 하나만 맞고, 나머지는 모두 "오답 (Negative)"으로 취급하는 방식이었습니다. 하지만 여기에는 두 가지 치명적인 문제가 있었습니다.

문제 1: "유사한 오답"을 너무 가혹하게 처벌함 (Relevance Suppression)
- 비유: 선생님이 "빨간색 반바지를 찾아오라"고 했을 때, 정답은 '빨간색 반바지'입니다. 그런데 '파란색 반바지'는 오답이지만, '빨간색 긴바지'는 어떨까요? 이걸도 무조건 오답으로 치고 점수를 깎아내리면, 학생은 "아, 빨간색 긴바지도 나쁜 거구나"라고 오해하게 됩니다. 결국 나중에 진짜 정답인 '빨간색 반바지'와 '빨간색 긴바지'를 구별하지 못하게 됩니다.
- 현실: 시스템이 정답과 아주 비슷한 이미지들도 '오답'으로 취급해 밀어내버려서, 진짜 필요한 이미지를 찾아내지 못하게 됩니다.
문제 2: "의미가 다른 질문"을 똑같이 취급함 (Semantic Confusion)
- 비유: 학생이 "빨간색으로 바꿔줘"라고 했을 때와 "파란색으로 바꿔줘"라고 했을 때, 선생님이 두 질문을 모두 "색깔을 바꿔라"라는 똑같은 의미로 받아들이고 같은 곳에 저장해버립니다. 나중에 검색하면 빨간색을 원했는데 파란색이 나오거나, 그 반대가 될 수 있습니다.
- 현실: 미세한 차이 (색깔, 모양, 개수 등) 를 구별하지 못해, 서로 다른 의도를 가진 검색어가 섞여버립니다.

2. 해결책: DQE-CIR 의 두 가지 마법

이 논문은 위 문제를 해결하기 위해 두 가지 혁신적인 방법을 제안합니다.

① 마법 1: "중요한 특징에 점수 부여하기" (Learnable Attribute Weights)

비유: 이제 선생님이 학생에게 "빨간색 반바지"를 찾을 때, "빨간색"이라는 단어에 100 점, "반바지"라는 단어에 50 점을 스스로 부여해서 집중하게 합니다. 만약 "긴팔"을 강조하는 명령이라면 "긴팔"에 더 높은 점수를 줍니다.
효과: 시스템이 텍스트의 뉘앙스를 정확히 파악해서, "색깔"이 중요한지 "모양"이 중요한지 스스로 판단하고 이미지의 해당 부분에 더 집중하게 됩니다.

② 마법 2: "가장 적절한 오답만 골라내기" (Target Relative Negative Sampling)

비유: 기존에는 "정답이 아닌 모든 것"을 다 오답으로 쳤다면, 이 방법은 "정답과 너무 다른 것 (너무 쉬운 오답)"과 "정답과 너무 비슷한 것 (헷갈리는 오답)"은 제외하고, "정답과 적당한 차이가 있는 것 (중간 지대)"만 골라내서 가르칩니다.
- 너무 쉬운 오답: "초록색 원피스" (빨간색 반바지와는 너무 다름) → 가르칠 필요 없음.
- 헷갈리는 오답: "빨간색 긴바지" (정답과 너무 비슷함) → 이건 오답이 아니라 '유사한 정답'일 수 있으니 제외.
- 골라낸 것: "파란색 반바지" (정답과 비슷하지만 색깔이 다름) → 이걸로 비교해서 "색깔이 빨간색이어야 해!"라고 명확히 가르침.
효과: 시스템이 "정답과 오답의 차이"를 명확히 구분하는 법을 배우게 되어, 미세한 변화 (색깔, 개수 등) 를 정확히 찾아낼 수 있게 됩니다.

3. 실제 효과: 어떤 변화가 일어났나요?

이 방법을 적용한 결과, 다음과 같은 놀라운 변화가 있었습니다.

정확한 검색: "파란색 반팔 티셔츠에 흰 글씨가 있는 것"을 찾을 때, 기존 시스템은 그냥 '파란색'이나 '흰색'만 있는 옷을 줬다면, 이 시스템은 세 가지 조건을 모두 만족하는 옷을 정확히 찾아냅니다.
미세한 변화 감지: "강아지"를 검색할 때, "어린 강아지 (강아지)"와 "성인 강아지 (개)"를 구별하거나, "물속에서 수영하는 강아지"와 "나무 위에 있는 강아지"를 정확히 구분해냅니다.
범용성: 옷 (패션) 이든, 일상적인 장면이든 상관없이 어떤 상황에서도 뛰어난 성능을 보여줍니다.

4. 한 줄 요약

"기존의 검색 시스템이 '정답 하나'만 보고 나머지를 무조건 버렸다면, DQE-CIR 은 '정답과 가장 비슷한 오답'들을 잘 골라내어, 미세한 차이까지 정확히 이해하는 똑똑한 검색 전문가로 만든 기술입니다."

이 기술은 우리가 원하는 옷을 찾거나, 특정 조건에 맞는 사진을 찾을 때 훨씬 더 만족스러운 결과를 가져다줄 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

컴포즈드 이미지 검색 (Composed Image Retrieval, CIR) 은 참조 이미지 (Reference Image) 와 수정 텍스트 (Modification Text) 를 결합하여, 텍스트에 명시된 속성 변경이 적용된 목표 이미지를 데이터베이스에서 찾는 작업입니다.

기존의 대부분의 CIR 방법론은 대조 학습 (Contrastive Learning) 프레임워크에 의존하며, 다음과 같은 두 가지 근본적인 한계를 가지고 있습니다:

관련성 억제 (Relevance Suppression): 정답 (Target) 이 아닌 이미지들은 모두 '부정 (Negative)'으로 처리됩니다. 이로 인해 사용자의 수정 의도와 부분적으로 일치하지만 정답은 아닌 이미지들 (예: 색상은 맞지만 소매 길이가 다른 옷) 이 훈련 과정에서 잘못되어 밀려나게 됩니다. 이는 실제로는 유용한 결과들을 검색 순서에서 하위로 밀어내어 검색 품질을 저하시킵니다.
의미적 혼란 (Semantic Confusion): 서로 다른 수정 의도 (예: '빨간색' vs '파란색') 를 가진 쿼리들이 임베딩 공간의 인접한 영역으로 붕괴 (Collapse) 되는 현상입니다. 이는 미세한 속성 (색상, 소매 길이 등) 을 구별하는 능력을 떨어뜨려, 시각적으로 유사하지만 의미적으로 다른 후보들을 구분하지 못하게 만듭니다.

2. 제안 방법론: DQE-CIR

저자들은 위 한계를 극복하기 위해 학습 가능한 속성 가중치 (Learnable Attribute Weights) 와 타겟 상대적 부정 샘플링 (Target Relative Negative Sampling, TRNS) 을 도입한 DQE-CIR 프레임워크를 제안합니다.

2.1. 핵심 구성 요소

학습 가능한 속성 가중치 (Learnable Attribute Weights):
- BLIP-2 백본을 기반으로 하여, 텍스트 수정 내용에서 추출된 '색상 (Color)' 및 '형태 (Shape)' 관련 하위 쿼리 (Sub-queries) 에 학습 가능한 스칼라 가중치 ( $w_{color}, w_{shape}$ ) 를 부여합니다.
- 이를 통해 특정 수정 의도에 중요한 시각적 특징을 강조하고, 덜 중요한 특징은 억제하여 쿼리 임베딩의 구별력 (Distinctiveness) 을 높입니다.
타겟 상대적 부정 샘플링 (Target Relative Negative Sampling, TRNS):
- 기존처럼 모든 비정답 이미지를 부정으로 취급하지 않고, $\Delta$ -score를 기반으로 '중간 지대 (Mid-zone)'를 정의합니다.
- $\Delta$ -score: 정답 이미지와의 유사도 ( $s_{tar}$ ) 와 후보 이미지와의 유사도 ( $s_j$ ) 의 차이 ( $\Delta S_j = s_{tar} - s_j$ ) 를 계산합니다.
- 중간 지대 ( $M$ ): 너무 쉬운 부정 (차이가 매우 큼) 과 너무 혼란스러운 부정 (거의 정답과 유사한 가짜 부정) 을 제외하고, $\alpha \le \Delta S_j \le \beta$ 범위에 속하는 정보력 있는 부정 (Informative Negatives) 만을 선택합니다.
- 이렇게 선택된 단일 부정 샘플과 정답을 대상으로 쌍대 학습 (Pairwise Learning) 을 수행하여 명확한 순위 마진 (Ranking Margin) 을 형성합니다.

2.2. 학습 목표 (Learning Objective)

최종 손실 함수는 다음 세 가지 요소의 조합으로 구성됩니다:

KL 발산 손실 (KL Divergence Loss): 정답에 대한 확률 분포가 예측 분포보다 높도록 유도.
주요 쌍대 순위 손실 (Main Pairwise Ranking Loss): 정답과 중간 지대 부정 간의 유사도 차이를 마진 ( $m$ ) 이상으로 유지.
속성 인식 보조 손실 (Attribute-aware Auxiliary Loss): 색상 및 형태 하위 쿼리에 대한 추가적인 마진 손실.

3. 주요 기여 (Key Contributions)

DQE-CIR 프레임워크 제안: 학습 가능한 속성 가중치와 보조 속성 쿼리를 통해 미세한 속성 변화에 민감한 독특한 쿼리 임베딩 (Distinctive Query Embeddings) 을 구축합니다.
TRNS 전략 도입: $\Delta$ -score 밴드를 기반으로 '중간 지대'의 부정 샘플을 선택함으로써, 가짜 부정 (False Negatives) 의 억제를 방지하고 훈련이 의미 있는 난이도의 샘플에 집중하도록 합니다.
성능 입증: FashionIQ, CIRR, CIRCO 등 다양한 벤치마크에서 기존 최첨단 방법론 (SOTA) 보다 우수한 성능을 보였으며, 특히 미세한 속성 수정과 시각적으로 유사한 후보를 구분하는 능력에서 큰 개선을 입증했습니다.

4. 실험 결과 (Results)

FashionIQ (패션 아이템 검색): Dress, Shirt, Toptee 카테고리 전반에서 Recall@10 및 Recall@50 지표에서 기존 최강 기법인 QuRe 를 상회했습니다. (예: Dress 카테고리 Recall@10 에서 46.80 → 48.47 향상).
CIRR (실제 장면 검색): 전역 순위 정확도 (Recall@K) 와 하위 집합 내 정밀도 (Recallsubset@K) 모두에서 최상위 성능을 기록했습니다. 특히 시각적으로 매우 유사한 후보들 사이에서 정답을 찾는 능력 (Recallsubset@1: 78.51 → 80.14) 이 크게 향상되었습니다.
Zero-shot 성능 (CIRCO): 데이터셋 훈련 없이도 타겟 상대적 부정 샘플링을 통해 높은 mAP 점수를 기록하여 모델의 일반화 능력을 입증했습니다.
정성적 분석: 크로스 어텐션 (Cross-attention) 시각화를 통해 모델이 텍스트에서 언급된 특정 속성 (예: "흰색 글자", "세 마리 펭귄") 에 정확히 주의를 집중하고 있음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 기존 대조 학습의 한계인 '관련성 억제'와 '의미적 혼란'을 해결하기 위해 부정 샘플의 질적 선택 (TRNS) 과 속성 기반 쿼리 강화를 결합한 새로운 패러다임을 제시합니다.

DQE-CIR 은 단순히 정답을 찾는 것을 넘어, 사용자의 미세한 수정 의도 (Fine-grained Intent) 를 정확하게 반영하고 시각적으로 유사하지만 의미적으로 다른 이미지들을 명확히 구분할 수 있는 강력한 검색 시스템을 제공합니다. 이는 패션 검색, 제품 추천, 콘텐츠 관리 시스템 등 실제 응용 분야에서 사용자 만족도를 높이는 데 중요한 기여를 할 것으로 기대됩니다.