When & How to Write for Personalized Demand-aware Query Rewriting in Video Search

Each language version is independently generated for its own context, not a direct translation.

이 논문은 짧은 영상 플랫폼 (예: 위챗 채널) 에서 사용자가 검색할 때, AI 가 어떻게 더 똑똑하게 검색어를 수정해 주는가에 대한 이야기입니다.

제목이 좀 어렵죠? **"개인화된 수요 인식 검색어 재작성 (Personalized Demand-aware Query Rewriting)"**이라는 말 대신, **"사용자의 숨은 의도를 읽어서 검색어를 알아서 고쳐주는 AI"**라고 생각하시면 됩니다.

이 논문에서 소개한 **'WeWrite'**라는 시스템을 일상적인 비유로 쉽게 설명해 드릴게요.

🎬 1. 문제: "광량 (Guangliang)"을 검색하면 누구를 찾는 걸까?

사용자가 "광량"이라고 검색했다고 가정해 봅시다.

상황 A: 이 사람은 최근 술 관련 영상을 많이 봤다면? → 술 브랜드를 찾고 싶은 거겠죠.
상황 B: 이 사람은 최근 가수 관련 영상을 봤다면? → 가수를 찾고 싶은 거겠죠.

기존의 검색 엔진은 이 차이를 모릅니다. 그냥 "광량"이라는 단어만 보고 검색하니까, 술을 찾는 사람에게 가수를 보여주거나 그 반대가 될 수 있어요. 사용자는 "아, 내가 원하는 게 아닌데"라고 생각하며 다시 검색어를 고치게 되죠.

🚀 2. 해결책: "WeWrite"라는 똑똑한 비서

이 논문은 이 문제를 해결하기 위해 WeWrite라는 시스템을 만들었습니다. 이 시스템은 크게 세 가지 핵심 질문을 답합니다.

① "언제" 고쳐줘야 할까? (When to Write)

비유: "요리사가 언제 재료를 추가해야 할지 아는 것"

모든 검색어를 다 고치면 오히려 혼란이 생깁니다. 예를 들어, "에어프라이어"라고 검색했는데, 사용자가 예전에 코미디 영상을 봤다고 해서 "에어프라이어로 하는 코미디"라고 검색어를 바꾸면 안 되죠. (기능을 찾는 건데 재미를 찾으라고 하면 안 되니까요.)

WeWrite 의 방법: 사용자의 과거 행동 (누가 무엇을 보고, 얼마나 오래 봤는지) 을 분석합니다.
- 사용자가 검색했다가 바로 다른 걸 검색하거나, 영상을 2 초도 안 보고 넘겼다면? → "아, 이 사용자는 원하는 걸 못 찾았구나! 고쳐줘야겠다!" (재작성 필요)
- 사용자가 검색하자마자 영상을 10 초 이상 즐겁게 봤다면? → "좋아, 이대로면 OK. 고칠 필요 없어." (재작성 불필요)
핵심: AI 가 무작정 고치는 게 아니라, 사용자가 진짜로 필요로 할 때만 고쳐줍니다.

② "어떻게" 고쳐줘야 할까? (How to Write)

비유: "도서관 사서에게 맞는 책 제목을 가르치는 것"

AI 가 검색어를 고쳤는데, 그 고친 검색어가 실제 데이터베이스 (검색 엔진의 책장) 에 없으면 소용없죠. 예를 들어, AI 가 "술맛 나는 광량"이라고 고쳤는데, 데이터베이스에는 "광량 술"만 있고 "술맛 나는 광량"은 없으면 검색 결과가 0 개가 나옵니다.

WeWrite 의 방법:
1. SFT (지도 학습): 먼저 과거의 성공 사례 (사용자가 만족한 검색어 수정 기록) 를 보여주고 "이렇게 고쳐라"라고 가르칩니다.
2. GRPO (강화 학습): 여기서 멈추지 않습니다. AI 가 고친 검색어가 실제로 검색 결과에 잘 걸리는지 (클릭률), 데이터베이스에 있는지를 점수로 매겨서 더 잘 고치도록 훈련시킵니다.
핵심: AI 가 창의적으로 고친 게 아니라, 실제 검색 시스템에서 잘 작동하는 방식으로 고치게 됩니다.

③ "어떻게" 빠르게 할까? (Deployment)

비유: "주방에서 요리하는 동안 미리 접시를 준비하는 것"

AI 가 검색어를 고치는 데 시간이 걸리면, 사용자는 검색 결과를 기다리는 동안 짜증이 날 수 있습니다. (지연 시간 문제)

WeWrite 의 방법: **"가짜 검색 (Fake Recall)"**이라는 기술을 썼습니다.
- 사용자가 검색을 누르는 순간, 기존 검색 엔진이 결과를 찾는 동시에 AI 가 검색어를 고치는 작업을 병렬로 시작합니다.
- AI 가 고친 검색어에 대한 결과는 미리 준비해 둔 '캐시 (가짜 인덱스)'에서 바로 가져옵니다.
- 기존 검색 결과와 AI 가 고친 결과를 합쳐서 사용자에게 보여줍니다.
핵심: 사용자가 느끼는 속도는 전혀 느려지지 않으면서, 더 좋은 결과가 나옵니다.

📊 3. 결과: 실제로 효과가 있었을까?

이 시스템을 실제 거대 영상 플랫폼에 적용해서 실험해 봤습니다.

결과 1: 사용자가 10 초 이상 영상을 본 횟수 (관심도) 가 1.07% 증가했습니다.
결과 2: 사용자가 검색어를 다시 고쳐야 했던 횟수가 2.97% 감소했습니다.

💡 요약

이 논문은 **"사용자의 과거 행동을 보고, 검색어가 애매할 때만 AI 가 알아서 고쳐주고, 그 결과가 실제 검색 시스템에 잘 맞도록 훈련시켰으며, 속도도 늦추지 않게 구현했다"**는 내용입니다.

마치 사용자의 취향을 잘 아는 친절한 비서가, 사용자가 "저기... 그거"라고 말했을 때, "아! 당신이 좋아하는 그 브랜드의 술이시군요?"라고 알아서 정확하게 말해주고 바로 가져다주는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

논문 개요: 비디오 검색을 위한 개인화 수요 인식 쿼리 재작성 (WeWrite)

이 논문은 비디오 검색 시스템에서 사용자의 검색 의도를 명확히 하고 모호성을 해결하기 위해, 사용자의 과거 행동 데이터를 활용한 개인화 쿼리 재작성 (Personalized Query Rewriting) 프레임워크인 WeWrite를 제안합니다. 기존 방법론의 한계를 극복하고, 대규모 비디오 플랫폼 (위챗 채널 등) 에서 실제 적용 가능한 저지연 솔루션을 제시합니다.

1. 문제 정의 (Problem)

비디오 검색 시스템에서 사용자의 검색어는 종종 짧고 모호합니다.

모호성 (Ambiguity): 예시, "광량 (Guangliang)"이라는 검색어는 가수일 수도 있고 술 브랜드일 수도 있습니다.
기존 방법의 한계:
- 신호 희석 (Signal Dilution): 암시적 히스토리 피처를 사용하는 전통적인 방법은 신호가 희석되어 지연된 피드백을 초래합니다.
- 의도 편향 (Intent Drift): 모든 쿼리를 무분별하게 재작성하면 기능적 쿼리 (예: "에어프라이어 사용법") 가 사용자의 오락적 히스토리 (예: "커플 농담") 에 의해 왜곡되어 검색 의도가 흐려질 수 있습니다.
- 지연 시간 (Latency): 대규모 언어 모델 (LLM) 의 추론 비용이 높아 실시간 검색 시스템의 동기화 경로에 직접 통합하기 어렵습니다.

따라서 "언제 (When)" 재작성이 필요한지 판단하고, "어떻게 (How)" 검색 시스템의 색인 (Index) 과 호환되는 재작성을 생성하며, 저지연으로 배포하는 것이 핵심 과제입니다.

2. 방법론 (Methodology: WeWrite Framework)

WeWrite 는 크게 세 가지 모듈로 구성됩니다.

2.1. 사후 기반 샘플 마이닝 (Posterior-based Sample Mining) - "언제 재작성할 것인가?"

개인화가 필요한 시점을 자동으로 식별하기 위해 사용자의 사후 행동 (피드백) 을 기반으로 고품질 학습 데이터를 추출합니다.

긍정 샘플 (Rewrite): 사용자가 원래 쿼리 ( $Q_{orig}$ $Q_{or i g}$ ) 로 검색 후 짧은 체류 시간 ( $<2.4s$ $< 2.4 s$ ) 을 보이다가, 재검색 ( $Q_{next}$ $Q_{n e x t}$ ) 을 통해 긴 체류 시간 ( $>10s$ $> 10 s$ ) 을 보인 경우.
- 필터링: 재검색된 쿼리에 포함된 새로운 용어가 사용자의 히스토리 (본 영상 제목/태그 등) 와 겹치는지 확인 (Context Overlap Filter) 하고, LLM 을 활용해 의도 의존성을 검증합니다.
부정 샘플 (Reject): 사용자가 원래 쿼리로 바로 만족스러운 결과 (긴 체류 시간) 를 얻은 경우. 이 경우 재작성을 하지 말아야 함을 학습시킵니다.

2.2. 스타일 정렬 LLM 파인튜닝 (Style-aligned LLM Fine-tuning) - "어떻게 재작성할 것인가?"

생성된 쿼리가 의미론적으로 정확할 뿐만 아니라, 검색 시스템의 색인에서 유효하게 작동하도록 학습합니다.

지도 미세조정 (SFT): 추출된 긍정/부정 샘플로 LLM 을 학습시켜 문맥에 따른 재작성 또는 <reject> 토큰 생성을 학습합니다.
강화 학습 (RL) - GRPO:
- 문제: 생성된 쿼리가 검색 색인에서 유효하지 않아 'Zero-recall'이 발생할 수 있음.
- 해결: **그룹 상대 정책 최적화 (GRPO)**를 도입합니다.
- 보상 함수 ( $R$ ): 생성된 쿼리가 시스템 색인 내 유효한 쿼리 집합 ( $V_{sys}$ ) 에 속하는지, 검색 빈도 (Freq), 그리고 클릭률 (CTR) 을 기반으로 보상을 계산합니다.
- 목적: LLM 이 검색 시스템의 색인 스타일과 일치하는 "검색 가능한" 쿼리를 생성하도록 유도합니다.

2.3. 배포: 가짜 회수 (Fake Recall) 아키텍처

LLM 추론으로 인한 지연 시간을 해결하기 위해 병렬 실행 구조를 설계합니다.

Fake Index 구축: 오프라인에서 시스템의 유효한 쿼리들에 대한 Top-K 결과를 미리 KV(Key-Value) 인덱스로 구축합니다.
병렬 실행:
1. 사용자 요청 발생 시, 전통적인 검색 경로와 **개인화 재작성 경로 (LLM 추론)**를 동시에 시작합니다.
2. LLM 이 재작성 쿼리를 생성하면, Fake Index에서 즉시 결과를 가져옵니다 (O(1) 시간).
3. 경량화된 관련성 필터링을 거쳐 메인 후보군과 병합 (Fusion) 합니다.
효과: LLM 추론이 메인 검색 경로의 병목 현상을 일으키지 않아 지연 시간 증가 없이 (Zero-perceived-latency) 개인화를 적용합니다.

3. 주요 기여 (Key Contributions)

사후 기반 "언제 (When)" 전략: 사용자의 행동 피드백 (재검색, 체류 시간) 을 자동 마이닝하여 개인화가 필요한 경우만 재작성을 수행하도록 하여 의도 편향을 방지합니다.
GRPO 정렬 "어떻게 (How)" 학습: SFT 와 강화 학습 (GRPO) 을 결합하여, 생성된 쿼리가 검색 시스템의 색인 구조와 일치하도록 스타일을 정렬합니다. 이는 검색 효율성을 극대화합니다.
가짜 회수 (Fake Recall) 배포: LLM 추론을 메인 경로에서 분리하여 병렬 처리하는 아키텍처를 제안함으로써, 실시간 비디오 검색 시스템의 엄격한 지연 시간 제약을 해결했습니다.

4. 실험 결과 (Results)

대규모 비디오 플랫폼 (위챗 채널) 에서 온라인 A/B 테스트를 수행한 결과는 다음과 같습니다.

클릭 후 10 초 이상 체류한 영상 수 (VV>10s): 1.07% 증가 (사용자 만족도 향상).
쿼리 재작성률 (Query Reformulation Rate): 2.97% 감소 (사용자가 검색어를 다시 수정할 필요가 줄어듦).
지연 시간: 병렬 아키텍처 덕분에 사용자 체감 지연 시간은 변화가 없었습니다.

5. 의의 및 결론 (Significance)

이 논문은 비디오 검색 분야에서 **명시적 개인화 (Explicit Personalization)**의 성공적인 적용 사례를 제시합니다.

기존에 암시적 데이터에 의존하던 방식에서 벗어나, **"언제 재작성할지"**와 **"어떻게 시스템에 맞춰 재작성할지"**에 대한 체계적인 해결책을 제시했습니다.
특히, LLM 의 높은 추론 비용을 실시간 시스템에 도입하는 데 있어 지연 시간 문제를 해결한 "Fake Recall" 아키텍처는 산업계 적용에 중요한 시사점을 줍니다.
결과적으로 모호한 사용자 의도를 정확하게 파악하여 검색 경험을 개선하고, 플랫폼의 전반적인 사용자 참여도를 높이는 데 기여했습니다.