WISER: Wider Search, Deeper Thinking, and Adaptive Fusion for Training-Free Zero-Shot Composed Image Retrieval

본 논문은 텍스트 기반 이미지 검색 (T2I) 과 이미지 기반 이미지 검색 (I2I) 의 상호 보완적 강점을 활용하여, '더 넓은 검색 (Wider Search)', '더 깊은 사고 (Deeper Thinking)', '적응형 융합 (Adaptive Fusion)'을 통해 학습 없이도 다양한 쿼리 의도에 맞춰 정확도를 극대화하는 제로샷 합성 이미지 검색 프레임워크인 WISER 를 제안합니다.

Tianyue Wang, Leigang Qu, Tianyu Yang, Xiangzhao Hao, Yifan Xu, Haiyun Guo, Jinqiao Wang

게시일 2026-03-10
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

WISER: "더 넓게 보고, 더 깊게 생각하며, 똑똑하게 융합하는" 이미지 검색의 새로운 혁신

이 논문은 "Zero-Shot Composed Image Retrieval (ZS-CIR)", 즉 "참고 이미지와 수정 명령어를 함께 입력해서 원하는 이미지를 찾아주는 기술"을 더 똑똑하게 만드는 방법을 소개합니다. 기존 방법들은 한 가지 방식만 고집하다가 실패하는 경우가 많았는데, WISER는 이를 해결하기 위해 세 가지 핵심 전략을 사용합니다.

이 복잡한 기술을 쉽게 이해할 수 있도록 **'명품 쇼핑을 도와주는 똑똑한 비서'**에 비유해 설명해 드리겠습니다.


🛍️ 상황 설정: 비서에게 옷을 고르라고 시키다

당신은 친구가 입고 있는 빨간 가죽 재킷을 보고, 비서에게 **"후드 (모자) 를 달아줘"**라고 말합니다.
이때 비서는 두 가지 방식으로 이미지를 찾아볼 수 있습니다.

  1. 문서 검색 (T2I) 방식: "빨간 가죽 재킷에 후드가 달린 옷"이라고 글로 적어서 검색합니다.
    • 문제점: 글로 설명하다 보니 재킷의 구체적인 질감이나 디자인 디테일이 사라질 수 있습니다. (예: 가죽의 광택이 사라짐)
  2. 이미지 편집 (I2I) 방식: 친구가 입은 재킷 사진을 그대로 가져와서 후드를 달아주는 것처럼 이미지를 수정해서 검색합니다.
    • 문제점: 이미지는 잘 보존되지만, "후드를 달아줘"라는 의미가 복잡하거나 추상적이면 엉뚱한 결과가 나올 수 있습니다. (예: 후드 대신 모자를 달거나, 재킷 전체를 바꿔버림)

기존의 비서들은 이 두 가지 중 하나만 고집해서 실수를 하곤 했습니다. 하지만 WISER는 다릅니다.


🚀 WISER 의 3 단계 작전: 넓게, 검증, 깊게

WISER 는 단순히 하나를 고르는 게 아니라, 세 가지 단계를 거쳐서 가장 완벽한 답을 찾아냅니다.

1 단계: 더 넓게 찾기 (Wider Search) - "양쪽 다 검색해!"

WISER 는 비서에게 "글로 검색한 결과"와 "이미지를 수정한 결과"를 동시에 찾아오라고 시킵니다.

  • 마치 쇼핑몰에서 문서 검색이미지 검색을 모두 돌려서 후보 목록을 두 배로 늘리는 것과 같습니다.
  • 이렇게 하면 실수할 확률이 줄어듭니다. 글로 찾으면 디테일이 빠질 수 있고, 이미지로 찾으면 의미가 틀릴 수 있지만, 양쪽을 다 모으면 실수를 보완할 수 있습니다.

2 단계: 똑똑하게 융합하기 (Adaptive Fusion) - "이게 맞는지 확인해!"

이제 두 가지 검색 결과가 섞여 있습니다. WISER 는 여기서 검증자 (Verifier) 역할을 하는 또 다른 AI 를 투입합니다.

  • 질문: "이 후보 이미지가 '빨간 가죽 재킷에 후드'라는 조건에 진짜로 맞나요?"
  • 판단:
    • 확신할 때 (High Confidence): 두 결과를 지혜롭게 섞어서 (적응적 융합) 가장 좋은 순서로 나열합니다.
    • 의심스러울 때 (Uncertainty): "아직 확실하지 않네?"라고 판단하면 바로 다음 단계로 넘어갑니다.
  • 기존 방법들은 "무조건 50:50 으로 섞어라"라고 고정된 규칙을 따랐지만, WISER 는 상황에 따라 유연하게 결정합니다.

3 단계: 더 깊게 생각하기 (Deeper Thinking) - "왜 틀렸지? 다시 생각해보자!"

만약 2 단계에서 "이건 좀 이상한데?"라고 의심이 들면, WISER 는 **자기 성찰 (Self-reflection)**을 시작합니다.

  • 분석: "아, 글로 검색했을 때 '후드'라는 말이 부족했나? 아니면 이미지 수정할 때 '가죽 질감'이 사라졌나?"
  • 수정: "다음엔 '후드'를 더 강조해서 설명해줘" 또는 "가죽 질감을 유지하면서 후드만 바꿔줘"라고 구체적인 피드백을 줍니다.
  • 재시도: 이 피드백을 바탕으로 다시 검색을 한 번 더 합니다. 마치 인간이 실수하고 나서 "아, 내가 잘못 생각했네"라고 깨닫고 다시 시도하는 것과 같습니다.

🌟 왜 WISER 가 특별한가요?

  1. 학습이 필요 없습니다 (Training-Free):
    • 기존 방법들은 수많은 데이터로 비서를 훈련시켜야 했지만, WISER 는 이미 존재하는 똑똑한 AI 들 (이미지 생성 AI, 언어 모델 등) 을 바로 연결해서 사용합니다. 새로운 옷 가게가 생겨도 바로 적응할 수 있습니다.
  2. 상황을 잘 파악합니다:
    • 어떤 요청은 글로 설명하는 게 좋고, 어떤 요청은 이미지 수정이 좋습니다. WISER 는 어떤 방식이 더 적합한지 스스로 판단해서 섞어줍니다.
  3. 실수하면 고칩니다:
    • 처음에 틀려도 자기 성찰을 통해 다시 시도하므로, 복잡한 요청일수록 더 정확한 결과를 보여줍니다.

📊 결과: 놀라운 성과

실험 결과, WISER 는 기존에 훈련된 방법들보다도 더 높은 정확도를 보였습니다. 특히 "후드 달기"처럼 복잡한 요청이나, "강아지 품종 바꾸기"처럼 디테일이 중요한 요청에서 기존 방법들이 실패했던 부분들을 성공적으로 해결했습니다.

💡 요약

WISER 는 **"한 가지 방법만 고집하지 않고, 두 가지 방법을 동시에 쓰되, 결과가 의심스러우면 스스로 생각하고 다시 시도하는 똑똑한 비서"**입니다. 덕분에 우리가 원하는 이미지를 훨씬 더 쉽고 정확하게 찾아낼 수 있게 되었습니다.