ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 아이디어: "사진 검색의 '카카오톡' 시대"

기존의 사진 검색은 도서관에서 책 제목만 보고 찾는 것과 비슷했습니다. "고양이"라고 치면 고양이 사진이 쫙 나옵니다. 하지만 "어제 비 오는 날, 창가에서 노란 우산을 쓰고 있는 귀여운 고양이를 찾아줘"라고 말하면 기존 검색기는 당황합니다.

이 논문은 **"사진 검색도 이제 카카오톡 대화처럼 하자"**라고 제안합니다.

사용자: "저기, 어제 본 그 고양이 사진 좀 찾아줘."
시스템: "어떤 고양이요? 노란 우산 쓴 거요?"
사용자: "아니, 그건 아니야. 비 오는 날 창가에서 노란 우산을 쓴 거야."
시스템: "아하! 알겠습니다. 이거 어때요?" (정확한 사진 제시)

이처럼 대화 흐름을 이해하고, 숨겨진 의도를 파악해서 사진을 찾아주는 시스템이 바로 이 연구의 주인공입니다.

🛠️ 두 가지 주요 무기: "교과서 (ChatSearch)"와 "천재 탐정 (ChatSearcher)"

연구진은 이 시스템을 만들기 위해 두 가지 큰 일을 했습니다.

1. ChatSearch (챗서치): 대화로 사진을 찾는 '교과서'

기존에는 이런 복잡한 대화 데이터가 없었습니다. 그래서 연구진은 **인공지능 (AI) 과 전문가들이 힘을 합쳐 '대화형 사진 검색'을 위한 거대한 교과서 (데이터셋)**를 만들었습니다.

비유: 마치 "어떤 사진을 보고 싶니?"라고 묻고, 사용자가 "저기, 빨간 차가 있는 해변 사진인데..."라고 말하며 대화를 이어가는 수천 개의 연습 문제집을 만든 것입니다.
이 교과서에는 텍스트뿐만 아니라, 대화 중간에 사진이 섞여 있는 복잡한 상황도 포함되어 있어, AI 가 문맥을 이해하는 훈련을 할 수 있게 했습니다.

2. ChatSearcher (챗서처): 대화의 맥락을 읽는 '천재 탐정'

이제 이 교과서로 훈련된 **AI 모델 (ChatSearcher)**이 등장합니다.

기존 검색기: "빨간 차"라고 입력하면 빨간 차만 찾습니다. (단순한 단어 매칭)
ChatSearcher: "어제 비 올 때 봤던 그 차, 창문이 살짝 열린 거"라고 대화하면, 비, 날, 창문, 차라는 단어들을 조합하고 세계 지식을 동원해 "아, 저기 그 비 오는 날의 빨간 차가 있겠구나!"라고 추리합니다.
특이점: 이 탐정은 텍스트와 사진을 섞어서 읽고, 섞어서 답을 낼 수 있습니다. (예: "이 사진과 비슷하지만 배경이 바다인 사진을 찾아줘"라고 말하면, 사진을 보고 바다 배경의 비슷한 사진을 찾아줍니다.)

🚀 왜 이것이 중요한가요? (기존 기술과의 차이)

과거 (CLIP 같은 모델): "이 사진과 비슷한 거 찾아줘"라고 하면 비슷해 보이지만, 왜 비슷한지 이유를 모릅니다. 대화의 흐름을 놓치기 쉽습니다.
ChatSearcher: 이유를 알고 있습니다. "사용자가 왜 이 사진을 원할까?", "이전 대화에서 무엇을 언급했을까?"를 **추리 (Reasoning)**합니다. 마치 친구와 대화하듯, "아, 너가 말한 그거구나!"라고 이해하는 것입니다.

📊 실제 성과

이 '천재 탐정'은 만든 '교과서 (ChatSearch)'에서 가장 높은 점수를 받았을 뿐만 아니라, 다른 사진 찾기 퀴즈나 그림에 대한 질문을 하는 일에서도 기존 최고의 기술들과 어깨를 나란히 했습니다.

💡 결론: 앞으로의 세상

이 연구는 **"컴퓨터와 대화하며 정보를 찾는 방식"**을 바꿉니다. 앞으로 우리는 복잡한 검색어 대신, 친구에게 말하듯 **"저기, 우리 여행 갔을 때 그 해변 사진 중에 해가 지는 거 찾아줘"**라고 말하면, 컴퓨터가 그 맥락을 완벽히 이해하고 정확한 사진을 찾아줄 날이 머지않았습니다.

한 줄 요약:

"사진 검색을 '키보드 타이핑'에서 '자연스러운 대화'로 바꾸는, 문맥을 이해하는 AI 탐정 프로젝트입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

기존의 이미지 검색 (Image Retrieval) 은 주로 단일 이미지, 속성 집합, 또는 간단한 설명 문구를 쿼리로 사용하여 원하는 이미지를 찾는 데 중점을 두었습니다. 또한, 상호작용 기반 검색은 관련성 점수나 간단한 텍스트 피드백을 통해 결과를 정제하는 수준에 머물러 있었습니다.

하지만 사용자의 의도는 종종 대화의 맥락에 암시적으로 내포되어 있으며, 복잡한 다중 모달 (텍스트 + 이미지) 대화 맥락을 이해하고 추론해야 정확한 이미지를 찾을 수 있습니다. 기존 연구들은 다음과 같은 한계가 있었습니다:

단일 회차 상호작용: 대부분의 연구가 한 번의 쿼리에만 의존하거나, 패션 이미지 등 특정 도메인으로 제한되었습니다.
맥락 이해 부족: 다중 라운드 대화에서 사용자의 암시적 의도 (Implicit Intention) 를 파악하고, 세계 지식 (World Knowledge) 을 활용하여 추론하는 능력이 부족했습니다.
생성형 검색 부재: 검색 결과를 단순히 목록으로 보여주는 것을 넘어, 대화형 인터페이스에서 텍스트와 이미지를 교차하여 생성하고 상호작용하는 모델이 부족했습니다.

따라서 이 논문은 개방형 도메인 (Open-domain) 에서 인간과 컴퓨터 간의 다중 라운드 다중 모달 대화를 기반으로 이미지를 검색하는 '일반 대화형 이미지 검색 (General Conversational Image Retrieval)' 과제를 정의하고 해결책을 제시합니다.

2. 방법론 (Methodology)

이 논문은 ChatSearch라는 새로운 데이터셋과 ChatSearcher라는 생성형 검색 모델을 제안합니다.

가. ChatSearch 데이터셋 구축

목적: 다중 라운드 다중 모달 대화 맥락에서 이미지를 검색하는 능력을 평가하기 위한 벤치마크.
구축 파이프라인:
1. 자동 생성: MSCOCO 데이터셋을 기반으로 GPT-4(텍스트 생성), CLIP-H(이미지 갤러리 검색), BLIP-2(이미지 캡션 생성) 와 같은 대규모 사전 학습 모델을 활용하여 대화를 자동 생성합니다.
2. 대화 유형:
  - MDC-I (Reference Image): 참조 이미지를 기반으로 단일 라운드 대화 생성.
  - MDC-T (Reference Text): 참조 텍스트를 기반으로 2 라운드 대화 생성 (텍스트 $\to$ 이미지 $\to$ 텍스트).
  - Context Merging: 위 두 가지 방식을 결합하여 복잡한 다중 라운드 대화 맥락을 생성.
3. 수동 검증: 생성된 데이터의 이미지 품질과 맥락의 관련성을 전문가가 검증하여 고품질 평가 세트를 구성합니다.
세부 태스크: 텍스트 대화 (tChatSearch), 단일 이미지 + 텍스트 (iChatSearch), 다중 모달 대화 (mChatSearch) 로 구성됩니다.

나. ChatSearcher 모델 아키텍처

기본 구조: Vicuna-7B v1.5 기반의 인과적 디코더 전용 LLM(Causal Decoder-only LLM) 을 사용합니다.
비주얼 인코딩:
- CLIP ViT-L 을 비전 백본으로 사용하여 이미지 특징을 추출합니다.
- Q-former Perceiver 를 통해 시각적 인코딩을 고정된 개수의 밀집 임베딩 (Dense Embeddings) 으로 압축합니다.
- [IMG] 및 [/IMG] 특수 토큰을 사용하여 텍스트 토큰과 시각적 토큰을 교차 (Interleaved) 시켜 LLM 에 입력합니다.
생성형 검색 목표 (Generative Retrieval Objective):
- 단어 예측과 이미지 검색을 모두 생성 과정으로 통합합니다.
- 텍스트: 표준 언어 모델링 손실을 사용합니다.
- 이미지: 특수 [IMG] 토큰이 생성되면, 모델은 이미지 검색 임베딩을 생성하고 동적으로 업데이트되는 특징 큐 (Feature Queue) 와의 유사도를 계산하여 가장 적합한 이미지를 선택합니다. 이는 시각적 어휘 (Visual Vocabulary) 로 간주됩니다.

다. 학습 전략 (Two-Stage Training)

1 단계: 양방향 이미지 - 텍스트 정렬 (Bidirectional Image-Text Alignment)
- CC3M 및 mmc4-core 데이터셋을 사용하여 이미지와 텍스트 간의 정렬을 학습합니다.
- 이미지 - 텍스트 쌍의 순서를 무작위로 배치하여 양방향 (이미지 $\to$ 텍스트, 텍스트 $\to$ 이미지) 이해 능력을 강화합니다.
2 단계: 대화형 지시 미세 조정 (Conversational Instruction Tuning)
- LLaVA-150k(시각 대화), InstructPix2Pix(이미지 편집), ChatSearch 학습 데이터 등을 혼합하여 지시 데이터를 구성합니다.
- 이를 통해 모델은 복잡한 대화 맥락에서 사용자의 의도를 추론하고, 검색 결과를 생성하거나 텍스트로 응답하는 능력을 습득합니다.

3. 주요 기여 (Key Contributions)

ChatSearch 데이터셋 공개: 개방형 도메인에서 다중 라운드 다중 모달 대화를 기반으로 한 일반 대화형 이미지 검색을 위한 최초의 대규모 데이터셋을 제안했습니다.
ChatSearcher 모델 제안: 텍스트와 이미지를 교차하여 입력받고, 생성형 방식으로 텍스트 응답과 검색된 이미지를 출력하는 엔드 - 투 - 엔드 학습 모델을 개발했습니다.
성능 및 일반화: ChatSearch 데이터셋에서 최상위 성능을 기록했을 뿐만 아니라, 제로샷 (Zero-shot) 구성 이미지 검색 (CIR) 및 제로샷 텍스트 - 이미지 검색, 시각적 대화 (Visual Conversation) 작업에서도 경쟁력 있는 성능을 입증했습니다.

4. 실험 결과 (Results)

ChatSearch 벤치마크 성능:
- ChatSearcher 는 tChatSearch, iChatSearch, mChatSearch 모든 하위 태스크에서 기존 CLIP 기반 모델 (CLIP-t, CLIP-i, CLIP-ti) 과 Multimodal LLM 인 FROMAGe 를 압도적으로 능가했습니다.
- 특히 mChatSearch (다중 모달 대화) 에서 가장 큰 성능 향상을 보였으며, 이는 외부 역사적 상호작용 맥락의 중요성을 시사합니다.
제로샷 구성 이미지 검색 (CIR):
- CIRR 벤치마크에서 기존 파인튜닝된 방법들보다 우수한 제로샷 성능을 달성하여, 다른 이미지 검색 작업으로의 뛰어난 전이 능력 (Transfer Ability) 을 입증했습니다.
텍스트 기반 이미지 검색:
- Flickr30K 및 MSCOCO 데이터셋에서 CLIP 과 유사한 제로샷 성능을 보여, 1 단계 학습을 통한 이미지 - 텍스트 정렬이 성공적으로 이루어졌음을 확인했습니다.
시각적 대화 능력:
- VQAv2, GQA, MMBench 등 주요 시각적 대화 벤치마크에서 Qwen-VL, LLaVA-1.5 와 같은 최상위 모델들과 비교 가능한 성능을 보였습니다.
애블레이션 연구 (Ablation Study):
- 특징 큐 (Feature Queue): 대규모 부정 샘플 (Negative Samples) 을 제공하는 큐의 크기가 증가할수록 검색 성능이 향상됨을 확인했습니다.
- 학습 가능한 LLM: LLM 을 고정하지 않고 학습시키는 것이 다중 모달 맥락 이해에 필수적입니다.
- 지시 데이터: 시각 대화 데이터 (LLaVA) 와 AIGC 데이터 (InstructPix2Pix) 를 포함할수록 추론 능력과 검색 성능이 향상됩니다.

5. 의의 및 결론 (Significance)

이 연구는 이미지 검색을 단순한 쿼리 - 결과 매칭을 넘어, 사용자의 암시적 의도를 이해하고 세계 지식을 활용하는 복잡한 추론 과정으로 확장했습니다.

상호작용의 혁신: 사용자가 자연스러운 대화와 이미지 참조를 통해 검색을 수행할 수 있는 직관적인 인터페이스를 제공합니다.
신뢰성 있는 생성: 생성된 AI 응답에 사실적인 이미지를 연결함으로써 정보의 신뢰성과 명확성을 높이는 새로운 패러다임을 제시합니다.
미래 전망: 이 작업은 이미지뿐만 아니라 비디오, 오디오 등 다양한 모달리티로 확장 가능한 대화형 멀티모달 검색 시스템 연구의 토대를 마련했습니다.

결론적으로, ChatSearch 와 ChatSearcher 는 대화형 AI 가 복잡한 시각적 정보와 맥락을 이해하고 검색하는 능력을 획기적으로 발전시킨 중요한 연구로 평가됩니다.