ReCQR: Incorporating conversational query rewriting to improve Multimodal Image Retrieval

이 논문은 대규모 언어 모델을 활용해 대화형 쿼리 재작성 (CQR) 과 고품질 다중 모달 대화 데이터셋 (ReCQR) 을 구축하여, 기존 이미지 검색 모델이 긴 텍스트와 불명확한 사용자 표현을 처리하는 능력을 획기적으로 향상시켰음을 보여줍니다.

Yuan Hu, ZhiYu Cao, PeiFeng Li, QiaoMing Zhu

게시일 2026-03-31
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"이미지 검색을 더 똑똑하게 만드는 새로운 방법"**에 대해 이야기합니다. 복잡한 기술 용어 대신, 일상적인 비유를 들어 쉽게 설명해 드릴게요.

📸 핵심 아이디어: "무슨 뜻인지 명확하게 말해줘!"

상상해 보세요. 친구가 사진을 보여주고 "어제 그 경기 봤어?"라고 물었다고 칩시다. 그리고 이어 "그 구름 낀 날의 그 장면 사진 좀 보내줘"라고 합니다.

만약 이 친구가 처음부터 대화한 적이 없는 낯선 사람이라면, "그 경기"가 뭐고 "그 장면"이 뭔지 알 수가 없죠. 그래서 검색 엔진은 헷갈려서 엉뚱한 사진 (예: 비가 오는 날의 축구 경기) 을 보여줄 수도 있습니다.

이 논문은 바로 이 헷갈리는 대화를 해결하는 방법을 제안합니다.


🛠️ 이 논문이 한 일 (세 가지 단계)

1. 새로운 훈련 교재 만들기 (ReCQR 데이터셋)

연구팀은 AI 가 배우기 좋은 **'대화형 이미지 검색 훈련 교재'**를 직접 만들었습니다.

  • 방법: 거대한 언어 모델 (LLM, 마치 지능이 매우 뛰어난 AI 비서) 을 고용해서 수천 개의 대화 예시를 만들었습니다.
  • 품질 관리: AI 가 만든 예시가 너무 이상하면 인간 전문가가 다시 한번 검토하고 "이건 OK, 저건 NO"로 걸러냈습니다. (마치 요리사가 재료를 고르듯, 7,000 개의 완벽한 대화 자료를 선별했습니다.)
  • 결과: "그 장면" 같은 모호한 말과, "구름 낀 날의 축구 선수 헤딩 장면" 같은 명확한 말 사이의 연결고리를 가진 데이터 7,000 개를 확보했습니다.

2. AI 에게 '번역' 가르치기 (CQR 작업)

이제 AI 에게 **"대화 맥락을 읽어서, 검색 엔진이 알아듣는 언어로 바꿔줘"**라고 가르칩니다.

  • 상황: 사용자가 "그거 보여줘"라고 할 때, AI 는 이전 대화 (예: "어제 축구 경기 봤어?") 를 기억하고 있습니다.
  • 작동: AI 는 "그거"라는 말을 "어제 축구 경기에서 구름 낀 날의 장면"으로 **번역 (재작성)**합니다.
  • 비유: 마치 통역사가 친구의 "저기 그거"라는 말을, 상대방이 알아들을 수 있는 "저기 있는 빨간 차"로 바꿔주는 것과 같습니다.

3. 실험 결과 확인하기

이렇게 훈련된 AI 를 실제 이미지 검색 시스템에 넣어봤습니다.

  • 결과: 원래는 엉뚱한 사진만 찾던 시스템이, AI 가 말을 바꿔주자 정확한 사진을 찾아내기 시작했습니다.
  • 중요한 발견:
    • 텍스트만 있는 대화: AI 가 대화 내용만 잘 읽어도 검색이 훨씬 잘 됩니다.
    • 이미지가 섞인 대화: 대화 중 이미지가 여러 장 나올 때는, AI 가 이미지 내용까지 함께 보고 말을 바꿔줘야 정확도가 높아집니다. (이미지 없는 대화만 보면 헷갈리는 경우가 많았습니다.)

💡 왜 이게 중요한가요?

지금까지의 이미지 검색은 **"한 번에 딱 맞는 질문"**을 해야만 잘 작동했습니다. 하지만 실제 인간은 대화하듯 **"그거", "저기", "어제 봤던 그거"**처럼 맥락에 의존하는 말을 많이 합니다.

이 연구는 **"AI 가 인간의 흐릿한 말을 알아듣고, 검색 엔진이 알아듣는 명확한 말로 바꿔주는 기술"**을 개발했다는 점에서 의미가 큽니다.

🚀 요약

이 논문은 **"사람들이 대화하듯 검색할 때, AI 가 그 맥락을 파악해서 검색어를 정리해주는 기술 (ReCQR)"**을 소개하고, 이를 위해 고품질의 훈련 데이터를 만들었으며, 실제로 검색 정확도를 크게 높였다는 것을 증명했습니다.

앞으로 우리는 "그거 보여줘"라고만 말해도, AI 가 "아, 어제 대화했던 그 구름 낀 날의 축구 장면이요?"라고 알아듣고 정확한 사진을 찾아줄 날이 가까워진 것입니다.