ChatSearch: a Dataset and a Generative Retrieval Model for General Conversational Image Retrieval

이 논문은 오픈 도메인 대화형 이미지 검색을 위한 새로운 데이터셋 'ChatSearch'와 이를 기반으로 한 생성형 검색 모델 'ChatSearcher'를 제안하여, 멀티모달 대화 맥락과 세계 지식을 활용한 정교한 이미지 검색 성능을 입증했습니다.

Zijia Zhao, Longteng Guo, Tongtian Yue, Erdong Hu, Shuai Shao, Zehuan Yuan, Hua Huang, Jing Liu

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🌟 핵심 아이디어: "사진 검색의 '카카오톡' 시대"

기존의 사진 검색은 도서관에서 책 제목만 보고 찾는 것과 비슷했습니다. "고양이"라고 치면 고양이 사진이 쫙 나옵니다. 하지만 "어제 비 오는 날, 창가에서 노란 우산을 쓰고 있는 귀여운 고양이를 찾아줘"라고 말하면 기존 검색기는 당황합니다.

이 논문은 **"사진 검색도 이제 카카오톡 대화처럼 하자"**라고 제안합니다.

  • 사용자: "저기, 어제 본 그 고양이 사진 좀 찾아줘."
  • 시스템: "어떤 고양이요? 노란 우산 쓴 거요?"
  • 사용자: "아니, 그건 아니야. 비 오는 날 창가에서 노란 우산을 쓴 거야."
  • 시스템: "아하! 알겠습니다. 이거 어때요?" (정확한 사진 제시)

이처럼 대화 흐름을 이해하고, 숨겨진 의도를 파악해서 사진을 찾아주는 시스템이 바로 이 연구의 주인공입니다.


🛠️ 두 가지 주요 무기: "교과서 (ChatSearch)"와 "천재 탐정 (ChatSearcher)"

연구진은 이 시스템을 만들기 위해 두 가지 큰 일을 했습니다.

1. ChatSearch (챗서치): 대화로 사진을 찾는 '교과서'

기존에는 이런 복잡한 대화 데이터가 없었습니다. 그래서 연구진은 **인공지능 (AI) 과 전문가들이 힘을 합쳐 '대화형 사진 검색'을 위한 거대한 교과서 (데이터셋)**를 만들었습니다.

  • 비유: 마치 "어떤 사진을 보고 싶니?"라고 묻고, 사용자가 "저기, 빨간 차가 있는 해변 사진인데..."라고 말하며 대화를 이어가는 수천 개의 연습 문제집을 만든 것입니다.
  • 이 교과서에는 텍스트뿐만 아니라, 대화 중간에 사진이 섞여 있는 복잡한 상황도 포함되어 있어, AI 가 문맥을 이해하는 훈련을 할 수 있게 했습니다.

2. ChatSearcher (챗서처): 대화의 맥락을 읽는 '천재 탐정'

이제 이 교과서로 훈련된 **AI 모델 (ChatSearcher)**이 등장합니다.

  • 기존 검색기: "빨간 차"라고 입력하면 빨간 차만 찾습니다. (단순한 단어 매칭)
  • ChatSearcher: "어제 비 올 때 봤던 그 차, 창문이 살짝 열린 거"라고 대화하면, 비, 날, 창문, 차라는 단어들을 조합하고 세계 지식을 동원해 "아, 저기 그 비 오는 날의 빨간 차가 있겠구나!"라고 추리합니다.
  • 특이점: 이 탐정은 텍스트와 사진을 섞어서 읽고, 섞어서 답을 낼 수 있습니다. (예: "이 사진과 비슷하지만 배경이 바다인 사진을 찾아줘"라고 말하면, 사진을 보고 바다 배경의 비슷한 사진을 찾아줍니다.)

🚀 왜 이것이 중요한가요? (기존 기술과의 차이)

  • 과거 (CLIP 같은 모델): "이 사진과 비슷한 거 찾아줘"라고 하면 비슷해 보이지만, 왜 비슷한지 이유를 모릅니다. 대화의 흐름을 놓치기 쉽습니다.
  • ChatSearcher: 이유를 알고 있습니다. "사용자가 왜 이 사진을 원할까?", "이전 대화에서 무엇을 언급했을까?"를 **추리 (Reasoning)**합니다. 마치 친구와 대화하듯, "아, 너가 말한 그거구나!"라고 이해하는 것입니다.

📊 실제 성과

이 '천재 탐정'은 만든 '교과서 (ChatSearch)'에서 가장 높은 점수를 받았을 뿐만 아니라, 다른 사진 찾기 퀴즈나 그림에 대한 질문을 하는 일에서도 기존 최고의 기술들과 어깨를 나란히 했습니다.

💡 결론: 앞으로의 세상

이 연구는 **"컴퓨터와 대화하며 정보를 찾는 방식"**을 바꿉니다. 앞으로 우리는 복잡한 검색어 대신, 친구에게 말하듯 **"저기, 우리 여행 갔을 때 그 해변 사진 중에 해가 지는 거 찾아줘"**라고 말하면, 컴퓨터가 그 맥락을 완벽히 이해하고 정확한 사진을 찾아줄 날이 머지않았습니다.

한 줄 요약:

"사진 검색을 '키보드 타이핑'에서 '자연스러운 대화'로 바꾸는, 문맥을 이해하는 AI 탐정 프로젝트입니다."