Each language version is independently generated for its own context, not a direct translation.
타오바오의 '생각하는 검색 엔진' (TaoSR1) 이야기
안녕하세요! 오늘 소개해 드릴 논문은 알리바바 타오바오 팀이 개발한 **'TaoSR1'**이라는 새로운 검색 기술에 대한 것입니다. 이 기술은 단순히 키워드를 매칭하는 것을 넘어, 사용자가 무엇을 진짜로 원하는지 '생각'하고 추론할 수 있는 인공지능을 만들어냈습니다.
이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.
1. 기존 검색의 한계: "단어만 보는 맹인"
과거의 검색 엔진 (BERT 같은 모델) 은 마치 단어장만 들고 있는 맹인과 같았습니다.
- 상황: 사용자가 "미우미우 대안 (Miu Miu alternative)"이라고 검색하면, 이 모델은 '미우미우'라는 단어가 들어간 옷을 무조건 찾아냅니다.
- 문제: 사용자는 진짜 미우미우 옷이 아니라, 그 스타일과 비슷하지만 가격이 더 싼 다른 브랜드 옷을 원하는데 말입니다.
- 결과: 검색 결과는 단어는 정확히 맞지만, 사용자의 의도는 완전히 빗나간 경우가 많았습니다.
2. TaoSR1 의 등장: "생각하는 명석한 상점 점원"
TaoSR1 은 이 문제를 해결하기 위해 **대규모 언어 모델 (LLM)**을 도입했습니다. 마치 고객의 마음을 읽는 명석한 상점 점원처럼 작동합니다.
이 점원은 단순히 "이 단어와 저 단어는 비슷하네"라고 말하는 게 아니라, 다음과 같은 **생각의 과정 (Chain-of-Thought)**을 거칩니다:
- 고객 이해: "아, 이 분은 명품 브랜드는 싫지만 그 스타일을 원하시는군요."
- 상품 분석: "이 옷은 디자인은 비슷하지만 브랜드가 다르고 가격이 훨씬 저렴하네."
- 규칙 적용: "타오바오 규칙상 '대안'을 찾는 고객에게는 원브랜드를 추천하면 안 되고, 비슷한 스타일의 다른 브랜드를 추천해야 해."
- 결론 도출: "이 옷이 정답이야!"
3. 3 단계 훈련 과정: 점원을 어떻게 가르쳤나?
이 '생각하는 점원'을 만들기 위해 연구팀은 3 단계의 특별한 훈련을 시켰습니다.
1 단계: "생각하는 법 배우기 (SFT with CoT)"
- 비유: 신입 사원에게 "이런 상황에서는 이렇게 생각해야 해"라고 **구체적인 사고 과정 (CoT)**을 적어주며 가르치는 것입니다.
- 기법: RAG(검색 증강 생성) 기술을 써서, 복잡한 비즈니스 규칙 (예: '아이폰' 검색 시 '아이패드'는 추천 안 함 등) 을 점원에게 주입했습니다.
- 발견: 처음엔 점원이 "생각한 후 답을 말하기" (Think-then-respond) 방식을 썼는데, 생각하다 보면 중간에 실수 (환각) 를 해서 최종 답이 틀리는 경우가 많았습니다.
- 해결: "먼저 답을 말하고, 그다음에 생각한 이유를 설명하기" (Respond-then-think) 방식으로 바꿨습니다. 이렇게 하면 실수가 쌓이는 것을 막고, 빠른 답변을 유지할 수 있게 되었습니다.
2 단계: "실수 교정하기 (DPO)"
- 비유: 점원이 혼자서 여러 번 시도를 해보게 한 뒤, **가장 좋은 답 (Chosen)**과 **틀린 답 (Rejected)**을 비교하며 "왜 이게 더 좋은 답인지"를 학습시키는 것입니다.
- 특이점: 점원이 아무리 노력해도 해결하지 못하는 아주 어려운 문제 (Hard Cases) 에 대해서는, **초고수 멘토 (DeepSeek-R1 같은 더 강력한 AI)**가 정답을 알려주고, 점원이 그걸 따라 배우게 했습니다.
3 단계: "어려운 문제 집중 훈련 (GRPO)"
- 비유: 점원이 이미 잘하는 쉬운 문제는 건너뛰고, 점점이 헷갈려하는 어려운 문제들만 골라서 집중 훈련을 시켰습니다.
- 효과: 이렇게 하면 점원이 "아, 이 문제는 내가 잘 모르는 구나"라고 깨닫고, 더 논리적으로 생각하게 되어 실수가 크게 줄었습니다.
4. 온라인 적용의 마법: "누적 확률로 등급 나누기"
실제 쇼핑몰에 이 점원을 투입하려면 속도가 매우 중요합니다.
- 기존 방식: 점원이 답을 내기 위해 여러 번의 복잡한 계산을 해야 해서 느렸습니다.
- TaoSR1 의 방법 (CumPT): 점원이 "이 옷은 4 점 (최상), 3 점 (좋음), 2 점 (보통), 1 점 (나쁨)" 중 어디에 해당할지 확률을 계산할 때, 가장 좋은 등급부터 순서대로 확률을 더해서 한 번의 간단한 계산으로 "이 옷은 '최상' 등급이야!"라고 바로 결정하게 했습니다.
- 결과: 복잡한 설정 없이도 빠르고 정확하게 상품을 분류할 수 있게 되었습니다.
5. 실제 성과: "고객이 더 만족하는 쇼핑"
이 기술을 적용한 결과, 실제 타오바오 쇼핑몰에서 다음과 같은 변화가 일어났습니다.
- 사용자 만족도: "미우미우 대안"처럼 복잡한 질문을 했을 때, 사용자가 원하는 옷을 훨씬 잘 찾아주었습니다.
- 구매 행동: 검색 결과가 좋아지자, 사용자가 상품을 클릭하고 보는 횟수 (IPV) 가 2.43% 늘었고, 거래량도 0.82% 증가했습니다.
- 핵심: 검색이 더 똑똑해졌지만, 사용자가 물건을 사려는 의지는 그대로 유지되었습니다.
요약
TaoSR1은 단순히 "단어 맞추기"를 하던 검색 엔진을, **"사용자의 숨은 의도를 이해하고 논리적으로 추론하는 똑똑한 점원"**으로 바꾼 혁신입니다. 복잡한 사고 과정을 거치면서도, 실수하지 않고 빠르게 답변할 수 있도록 훈련시킨 덕분에, 우리 모두 더 만족스러운 쇼핑 경험을 할 수 있게 되었습니다.