TaoSR1: The Thinking Model for E-commerce Relevance Search

이 논문은 BERT 기반 모델의 추론 한계를 극복하고 대형 언어 모델 (LLM) 을 직접 전자상거래 관련성 검색에 적용하기 위해 CoT 기반 SFT, DPO, GRPO 등을 결합한 'TaoSR1' 프레임워크를 제안하며, 오프라인 및 온라인 평가에서 기존 모델보다 뛰어난 성능을 입증했습니다.

Chenhe Dong, Shaowei Yao, Pengkun Jiao, Jianhui Yang, Yiming Jin, Zerui Huang, Xiaojiang Zhou, Dan Ou, Haihong Tang, Bo Zheng

게시일 Wed, 11 Ma
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

타오바오의 '생각하는 검색 엔진' (TaoSR1) 이야기

안녕하세요! 오늘 소개해 드릴 논문은 알리바바 타오바오 팀이 개발한 **'TaoSR1'**이라는 새로운 검색 기술에 대한 것입니다. 이 기술은 단순히 키워드를 매칭하는 것을 넘어, 사용자가 무엇을 진짜로 원하는지 '생각'하고 추론할 수 있는 인공지능을 만들어냈습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 기존 검색의 한계: "단어만 보는 맹인"

과거의 검색 엔진 (BERT 같은 모델) 은 마치 단어장만 들고 있는 맹인과 같았습니다.

  • 상황: 사용자가 "미우미우 대안 (Miu Miu alternative)"이라고 검색하면, 이 모델은 '미우미우'라는 단어가 들어간 옷을 무조건 찾아냅니다.
  • 문제: 사용자는 진짜 미우미우 옷이 아니라, 그 스타일과 비슷하지만 가격이 더 싼 다른 브랜드 옷을 원하는데 말입니다.
  • 결과: 검색 결과는 단어는 정확히 맞지만, 사용자의 의도는 완전히 빗나간 경우가 많았습니다.

2. TaoSR1 의 등장: "생각하는 명석한 상점 점원"

TaoSR1 은 이 문제를 해결하기 위해 **대규모 언어 모델 (LLM)**을 도입했습니다. 마치 고객의 마음을 읽는 명석한 상점 점원처럼 작동합니다.

이 점원은 단순히 "이 단어와 저 단어는 비슷하네"라고 말하는 게 아니라, 다음과 같은 **생각의 과정 (Chain-of-Thought)**을 거칩니다:

  1. 고객 이해: "아, 이 분은 명품 브랜드는 싫지만 그 스타일을 원하시는군요."
  2. 상품 분석: "이 옷은 디자인은 비슷하지만 브랜드가 다르고 가격이 훨씬 저렴하네."
  3. 규칙 적용: "타오바오 규칙상 '대안'을 찾는 고객에게는 원브랜드를 추천하면 안 되고, 비슷한 스타일의 다른 브랜드를 추천해야 해."
  4. 결론 도출: "이 옷이 정답이야!"

3. 3 단계 훈련 과정: 점원을 어떻게 가르쳤나?

이 '생각하는 점원'을 만들기 위해 연구팀은 3 단계의 특별한 훈련을 시켰습니다.

1 단계: "생각하는 법 배우기 (SFT with CoT)"

  • 비유: 신입 사원에게 "이런 상황에서는 이렇게 생각해야 해"라고 **구체적인 사고 과정 (CoT)**을 적어주며 가르치는 것입니다.
  • 기법: RAG(검색 증강 생성) 기술을 써서, 복잡한 비즈니스 규칙 (예: '아이폰' 검색 시 '아이패드'는 추천 안 함 등) 을 점원에게 주입했습니다.
  • 발견: 처음엔 점원이 "생각한 후 답을 말하기" (Think-then-respond) 방식을 썼는데, 생각하다 보면 중간에 실수 (환각) 를 해서 최종 답이 틀리는 경우가 많았습니다.
  • 해결: "먼저 답을 말하고, 그다음에 생각한 이유를 설명하기" (Respond-then-think) 방식으로 바꿨습니다. 이렇게 하면 실수가 쌓이는 것을 막고, 빠른 답변을 유지할 수 있게 되었습니다.

2 단계: "실수 교정하기 (DPO)"

  • 비유: 점원이 혼자서 여러 번 시도를 해보게 한 뒤, **가장 좋은 답 (Chosen)**과 **틀린 답 (Rejected)**을 비교하며 "왜 이게 더 좋은 답인지"를 학습시키는 것입니다.
  • 특이점: 점원이 아무리 노력해도 해결하지 못하는 아주 어려운 문제 (Hard Cases) 에 대해서는, **초고수 멘토 (DeepSeek-R1 같은 더 강력한 AI)**가 정답을 알려주고, 점원이 그걸 따라 배우게 했습니다.

3 단계: "어려운 문제 집중 훈련 (GRPO)"

  • 비유: 점원이 이미 잘하는 쉬운 문제는 건너뛰고, 점점이 헷갈려하는 어려운 문제들만 골라서 집중 훈련을 시켰습니다.
  • 효과: 이렇게 하면 점원이 "아, 이 문제는 내가 잘 모르는 구나"라고 깨닫고, 더 논리적으로 생각하게 되어 실수가 크게 줄었습니다.

4. 온라인 적용의 마법: "누적 확률로 등급 나누기"

실제 쇼핑몰에 이 점원을 투입하려면 속도가 매우 중요합니다.

  • 기존 방식: 점원이 답을 내기 위해 여러 번의 복잡한 계산을 해야 해서 느렸습니다.
  • TaoSR1 의 방법 (CumPT): 점원이 "이 옷은 4 점 (최상), 3 점 (좋음), 2 점 (보통), 1 점 (나쁨)" 중 어디에 해당할지 확률을 계산할 때, 가장 좋은 등급부터 순서대로 확률을 더해서 한 번의 간단한 계산으로 "이 옷은 '최상' 등급이야!"라고 바로 결정하게 했습니다.
  • 결과: 복잡한 설정 없이도 빠르고 정확하게 상품을 분류할 수 있게 되었습니다.

5. 실제 성과: "고객이 더 만족하는 쇼핑"

이 기술을 적용한 결과, 실제 타오바오 쇼핑몰에서 다음과 같은 변화가 일어났습니다.

  • 사용자 만족도: "미우미우 대안"처럼 복잡한 질문을 했을 때, 사용자가 원하는 옷을 훨씬 잘 찾아주었습니다.
  • 구매 행동: 검색 결과가 좋아지자, 사용자가 상품을 클릭하고 보는 횟수 (IPV) 가 2.43% 늘었고, 거래량도 0.82% 증가했습니다.
  • 핵심: 검색이 더 똑똑해졌지만, 사용자가 물건을 사려는 의지는 그대로 유지되었습니다.

요약

TaoSR1은 단순히 "단어 맞추기"를 하던 검색 엔진을, **"사용자의 숨은 의도를 이해하고 논리적으로 추론하는 똑똑한 점원"**으로 바꾼 혁신입니다. 복잡한 사고 과정을 거치면서도, 실수하지 않고 빠르게 답변할 수 있도록 훈련시킨 덕분에, 우리 모두 더 만족스러운 쇼핑 경험을 할 수 있게 되었습니다.