Each language version is independently generated for its own context, not a direct translation.

타오바오의 '생각하는 검색 엔진' (TaoSR1) 이야기

안녕하세요! 오늘 소개해 드릴 논문은 알리바바 타오바오 팀이 개발한 **'TaoSR1'**이라는 새로운 검색 기술에 대한 것입니다. 이 기술은 단순히 키워드를 매칭하는 것을 넘어, 사용자가 무엇을 진짜로 원하는지 '생각'하고 추론할 수 있는 인공지능을 만들어냈습니다.

이 복잡한 기술을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 기존 검색의 한계: "단어만 보는 맹인"

과거의 검색 엔진 (BERT 같은 모델) 은 마치 단어장만 들고 있는 맹인과 같았습니다.

상황: 사용자가 "미우미우 대안 (Miu Miu alternative)"이라고 검색하면, 이 모델은 '미우미우'라는 단어가 들어간 옷을 무조건 찾아냅니다.
문제: 사용자는 진짜 미우미우 옷이 아니라, 그 스타일과 비슷하지만 가격이 더 싼 다른 브랜드 옷을 원하는데 말입니다.
결과: 검색 결과는 단어는 정확히 맞지만, 사용자의 의도는 완전히 빗나간 경우가 많았습니다.

2. TaoSR1 의 등장: "생각하는 명석한 상점 점원"

TaoSR1 은 이 문제를 해결하기 위해 **대규모 언어 모델 (LLM)**을 도입했습니다. 마치 고객의 마음을 읽는 명석한 상점 점원처럼 작동합니다.

이 점원은 단순히 "이 단어와 저 단어는 비슷하네"라고 말하는 게 아니라, 다음과 같은 **생각의 과정 (Chain-of-Thought)**을 거칩니다:

고객 이해: "아, 이 분은 명품 브랜드는 싫지만 그 스타일을 원하시는군요."
상품 분석: "이 옷은 디자인은 비슷하지만 브랜드가 다르고 가격이 훨씬 저렴하네."
규칙 적용: "타오바오 규칙상 '대안'을 찾는 고객에게는 원브랜드를 추천하면 안 되고, 비슷한 스타일의 다른 브랜드를 추천해야 해."
결론 도출: "이 옷이 정답이야!"

3. 3 단계 훈련 과정: 점원을 어떻게 가르쳤나?

이 '생각하는 점원'을 만들기 위해 연구팀은 3 단계의 특별한 훈련을 시켰습니다.

1 단계: "생각하는 법 배우기 (SFT with CoT)"

비유: 신입 사원에게 "이런 상황에서는 이렇게 생각해야 해"라고 **구체적인 사고 과정 (CoT)**을 적어주며 가르치는 것입니다.
기법: RAG(검색 증강 생성) 기술을 써서, 복잡한 비즈니스 규칙 (예: '아이폰' 검색 시 '아이패드'는 추천 안 함 등) 을 점원에게 주입했습니다.
발견: 처음엔 점원이 "생각한 후 답을 말하기" (Think-then-respond) 방식을 썼는데, 생각하다 보면 중간에 실수 (환각) 를 해서 최종 답이 틀리는 경우가 많았습니다.
해결: "먼저 답을 말하고, 그다음에 생각한 이유를 설명하기" (Respond-then-think) 방식으로 바꿨습니다. 이렇게 하면 실수가 쌓이는 것을 막고, 빠른 답변을 유지할 수 있게 되었습니다.

2 단계: "실수 교정하기 (DPO)"

비유: 점원이 혼자서 여러 번 시도를 해보게 한 뒤, **가장 좋은 답 (Chosen)**과 **틀린 답 (Rejected)**을 비교하며 "왜 이게 더 좋은 답인지"를 학습시키는 것입니다.
특이점: 점원이 아무리 노력해도 해결하지 못하는 아주 어려운 문제 (Hard Cases) 에 대해서는, **초고수 멘토 (DeepSeek-R1 같은 더 강력한 AI)**가 정답을 알려주고, 점원이 그걸 따라 배우게 했습니다.

3 단계: "어려운 문제 집중 훈련 (GRPO)"

비유: 점원이 이미 잘하는 쉬운 문제는 건너뛰고, 점점이 헷갈려하는 어려운 문제들만 골라서 집중 훈련을 시켰습니다.
효과: 이렇게 하면 점원이 "아, 이 문제는 내가 잘 모르는 구나"라고 깨닫고, 더 논리적으로 생각하게 되어 실수가 크게 줄었습니다.

4. 온라인 적용의 마법: "누적 확률로 등급 나누기"

실제 쇼핑몰에 이 점원을 투입하려면 속도가 매우 중요합니다.

기존 방식: 점원이 답을 내기 위해 여러 번의 복잡한 계산을 해야 해서 느렸습니다.
TaoSR1 의 방법 (CumPT): 점원이 "이 옷은 4 점 (최상), 3 점 (좋음), 2 점 (보통), 1 점 (나쁨)" 중 어디에 해당할지 확률을 계산할 때, 가장 좋은 등급부터 순서대로 확률을 더해서 한 번의 간단한 계산으로 "이 옷은 '최상' 등급이야!"라고 바로 결정하게 했습니다.
결과: 복잡한 설정 없이도 빠르고 정확하게 상품을 분류할 수 있게 되었습니다.

5. 실제 성과: "고객이 더 만족하는 쇼핑"

이 기술을 적용한 결과, 실제 타오바오 쇼핑몰에서 다음과 같은 변화가 일어났습니다.

사용자 만족도: "미우미우 대안"처럼 복잡한 질문을 했을 때, 사용자가 원하는 옷을 훨씬 잘 찾아주었습니다.
구매 행동: 검색 결과가 좋아지자, 사용자가 상품을 클릭하고 보는 횟수 (IPV) 가 2.43% 늘었고, 거래량도 0.82% 증가했습니다.
핵심: 검색이 더 똑똑해졌지만, 사용자가 물건을 사려는 의지는 그대로 유지되었습니다.

요약

TaoSR1은 단순히 "단어 맞추기"를 하던 검색 엔진을, **"사용자의 숨은 의도를 이해하고 논리적으로 추론하는 똑똑한 점원"**으로 바꾼 혁신입니다. 복잡한 사고 과정을 거치면서도, 실수하지 않고 빠르게 답변할 수 있도록 훈련시킨 덕분에, 우리 모두 더 만족스러운 쇼핑 경험을 할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

TaoSR1: 이커머스 관련성 검색을 위한 사고 모델 (Thinking Model)

1. 문제 정의 (Problem)

이커머스 검색 엔진에서 쿼리와 상품 간의 관련성 (Relevance) 예측은 사용자 경험과 비즈니스 성과의 핵심 요소입니다. 기존 접근 방식은 주로 BERT 기반의 모델에 의존해 왔으며, 이는 텍스트 매칭과 기본적인 의미 분석에는 탁월하지만, 다음과 같은 한계가 있었습니다.

복잡한 쿼리 처리의 한계: "대체제 (alternatives)", "부정 (negation)", "지식 기반 질문" 등 추론이 필요한 긴 꼬리 (long-tail) 쿼리에 대해 성능이 저하됩니다.
BERT 의 구조적 제약: 양방향 어텐션 메커니즘의 저랭크 (low-rank) 문제로 인해 파라미터 스케일링이 제한되어 모델 성능의 상한선이 낮습니다.
LLM 의 적용 난제: 최근 대형 언어 모델 (LLM) 이 검색 시스템에 도입되고 있지만, 대부분은 판별식 (discriminative) 패러다임을 사용하거나 BERT 로 지식 증류 (distillation) 를 하여 배포합니다. 이는 LLM 의 추론 능력을 충분히 활용하지 못하게 합니다.
실제 배포의 장애물:
1. 지연 시간 (Latency): 사고 과정 (Chain-of-Thought, CoT) 을 포함하면 토큰 생성량이 증가하여 실시간 검색에 치명적인 지연을 초래합니다.
2. 오류 누적 (Error Accumulation): CoT 의 중간 단계에서 발생한 할루시네이션이나 오류가 최종 결과에 전파되어 분류를 실패하게 합니다.
3. 판별식 할루시네이션 (Discriminative Hallucination): 올바른 추론 과정을 거쳤음에도 불구하고 최종 답변이 틀리는 현상입니다.

2. 방법론 (Methodology)

이 논문은 위 문제들을 해결하기 위해 TaoSR1이라는 LLM 기반 최적화 프레임워크를 제안합니다. 이 프레임워크는 온라인 시스템에 직접 배포 가능한 3 단계 최적화 프로세스를 포함합니다.

1 단계: CoT 를 활용한 지도 미세 조정 (SFT with CoT)

목표: 모델에 추론 능력을 부여합니다.
RAG 기반 CoT 생성: 이커머스의 복잡한 비즈니스 규칙을 모델이 학습하도록, Retrieval-Augmented Generation (RAG) 파이프라인을 통해 CoT 데이터를 합성합니다. 비즈니스 규칙을 '원자적 (atomic)' 단위로 분해하여 관련 규칙을 동적으로 검색하고 프롬프트에 주입합니다.
구조적 혁신 ("Respond-then-think"): 기존 "생각한 후 답변 (Think-then-respond)" 방식은 오류 누적으로 인해 성능이 저하되었습니다. TaoSR1 은 먼저 관련성 레이블을 예측한 후, 그 이유를 설명하는 "답변 후 생각 (Respond-then-think)" 방식을 채택하여 오류 누적을 방지하고 온라인 배포 시의 지연 시간을 최소화합니다.

2 단계: Pass@N 기반 직접 선호도 최적화 (Pass@N-based DPO)

목표: 모델이 스스로 해결할 수 있는 사례의 정확도를 높이고, 실패 사례에 대해 외부 지식을 주입합니다.
Pass@N 전략: 오프라인에서 여러 번 샘플링하여 정답을 도출한 경우 (Pass@N > 0) 와 실패한 경우 (Pass@N = 0) 로 나눕니다.
- 해결 가능한 사례: 모델이 생성한 정답을 '선택 (Chosen)', 오답을 '거부 (Rejected)'로 하여 DPO 를 수행합니다.
- 해결 불가능한 사례 (Hard Cases): 모델이 항상 실패하는 경우, 더 강력한 모델 (DeepSeek-R1 등) 을 '오라클 (Oracle)'로 사용하여 정답을 생성하고, 이를 모델의 오답과 짝지어 DPO 학습에 활용합니다.

3 단계: 난이도 기반 동적 샘플링과 GRPO (Difficulty-based GRPO)

목표: 판별식 할루시네이션을 완화하고 모델의 추론 품질을 극대화합니다.
GRPO (Group Relative Policy Optimization): 온라인 강화학습을 통해 모델의 추론 경로를 탐색합니다.
난이도 기반 샘플링: 모든 샘플이 정답이거나 모두 오답인 균질한 배치 (homogeneous batches) 는 학습 효율을 떨어뜨리므로 제외합니다. 모델의 정확도가 중간 범위 (0, $\gamma$ ) 에 있는 어려운 인스턴스 (difficult instances) 에만 중점을 두어 학습합니다.
데이터 균형: 레이블 분포의 변동 계수 (CV) 가 낮을수록 (균형이 맞을수록) 성능이 향상됨을 발견하고, 다수 클래스를 다운샘플링하여 균형 잡힌 데이터셋으로 학습합니다.

온라인 배포 전략: 누적 확률 계층화 (Cumulative Probability Tiering, CumPT)

기존 방식은 여러 하이퍼파라미터 (임계값 등) 를 수동으로 튜닝해야 하는 복잡성이 있었습니다.
CumPT: 4 단계 관련성 점수 (1~4) 를 하위에서 위로 누적하여 하나의 임계값 ( $\beta_{cum}$ ) 만으로 Good/Mid/Bad 3 단계로 자동 분류하는 방식을 도입했습니다. 이는 배포 복잡성을 줄이고 성능을 안정화합니다.

3. 주요 기여 (Key Contributions)

온라인 배포 가능한 LLM 기반 관련성 모델: 추론 능력 (CoT) 을 유지하면서도 실시간 지연 시간 문제를 해결하는 "Respond-then-think" 아키텍처를 제안했습니다.
복합 최적화 프레임워크: SFT(추론 학습) $\rightarrow$ DPO(정답률 향상 및 외부 지식 주입) $\rightarrow$ GRPO(할루시네이션 완화 및 추론 강화) 의 3 단계 파이프라인을 구축하여 분류 작업에 강화학습을 효과적으로 적용했습니다.
RAG 기반 비즈니스 규칙 통합: 이커머스 특유의 복잡한 비즈니스 규칙을 RAG 를 통해 CoT 데이터에 효과적으로 주입하여 모델의 도메인 적응력을 높였습니다.
효율적인 배포 메커니즘: CumPT 를 통해 복잡한 하이퍼파라미터 튜닝 없이도 정밀도 - 재현율 균형을 자동으로 조절할 수 있는 방법을 제시했습니다.

4. 실험 결과 (Results)

오프라인 평가:
- 제안된 TaoSR1은 기존 BERT 및 다른 LLM 베이스라인 (Qwen 등) 보다 Macro-F1 에서 4.9 포인트 향상된 성능을 보였습니다.
- 특히 "Respond-then-think" 구조와 강화학습 (DPO+GRPO) 을 결합했을 때 가장 높은 성능을 기록했습니다.
- 난이도 기반 샘플링과 균형 잡힌 데이터셋을 사용한 GRPO 학습은 판별식 할루시네이션 발생률을 DPO 모델 대비 30% 감소시켰습니다.
온라인 평가 (Taobao):
- GSB (Good/Same/Bad): 인간 평가에서 테스트 버킷이 베이스라인보다 10~34% 더 우수한 결과를 보였습니다. 특히 "대체제 (Alternative)" 및 "지식 기반 (Knowledge)" 쿼리에서 성능 향상이 두드러졌습니다.
- 비즈니스 지표: 사용자 구매 행동 (IPV, 거래량, GMV) 에 부정적인 영향을 주지 않으면서, 전반적인 쇼핑 경험을 크게 개선했습니다. (IPV 2.43% 증가, 거래량 0.82% 증가).

5. 의의 및 결론 (Significance)

이 논문은 이커머스 검색과 같은 분류 (Classification) 작업에 대형 언어 모델 (LLM) 을 적용할 때의 새로운 패러다임을 제시합니다.

단순히 LLM 을 분류기로 사용하는 것을 넘어, 추론 (Reasoning) 능력을 유지하면서도 실시간 시스템의 제약 (지연 시간, 오류 누적) 을 극복하는 방법을 입증했습니다.
강화학습 (RL) 이 수학/코딩 영역을 넘어 수직 산업 (Vertical Industry) 의 복잡한 분류 작업에서도 효과적임을 보여주었습니다.
제안된 프레임워크는 이커머스뿐만 아니라 다른 복잡한 분류 및 의사결정 작업에 LLM 을 적용하는 데 귀중한 통찰을 제공합니다.

TaoSR1: The Thinking Model for E-commerce Relevance Search