Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments

이 논문은 대규모 앱 스토어 검색 시스템에서 행동 기반 데이터의 부족을 해결하기 위해 미세 조정된 LLM 을 활용해 텍스트 관련성 라벨을 대량 생성하고, 이를 순위 결정 모델에 통합함으로써 오프라인 성능과 전 세계 A/B 테스트에서 전환율을 유의미하게 향상시켰음을 보여줍니다.

Evangelia Christakopoulou, Vivekkumar Patel, Hemanth Velaga, Sandip Gaikwad, Sean Suchter, Venkat Sundaranatha

게시일 Tue, 10 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍎 핵심 이야기: "앱스토어 사서 (Search Engine) 의 고민과 해결책"

앱스토어에는 수백만 개의 앱이 있습니다. 사용자가 "요리 레시피"라고 검색했을 때, 가장 잘 맞는 앱을 1 번으로 띄워주는 것이 앱스토어 사서의 일입니다.

하지만 여기서 두 가지 큰 문제가 있었습니다.

  1. 행동 데이터는 넘쳐나는데 (B): "누가 무엇을 클릭하고 다운로드했는지"는 데이터는 엄청나게 많습니다. (사람들이 많이 클릭한 앱이 인기 있다는 뜻이죠.)
  2. 전문가 평가는 귀합니다 (A): "이 앱이 검색어와 의미적으로 얼마나 잘 맞는가?"를 평가하는 것은 인간 전문가가 직접 해야 합니다. 하지만 전문가 인건비가 비싸고 시간이 많이 걸려서 데이터가 턱없이 부족합니다.

결과: 사서는 "인기 있는 앱"은 잘 찾지만, "의미가 맞는 앱"을 찾는 데는 약점이 생겼습니다. 특히 사람들이 잘 검색하지 않는 **희귀한 검색어 (꼬리 질문, Tail Queries)**에서는 인기 데이터도 없어서 더 엉망이 됩니다.


🤖 해결책: "AI 비서 (LLM) 를 고용하다"

연구팀은 이 문제를 해결하기 위해 **거대한 AI(대규모 언어 모델, LLM)**를 고용했습니다. 하지만 단순히 AI 를 쓰지 않고, 가장 똑똑하게 쓰는 방법을 찾아냈습니다.

1. 실험: "거인 vs 훈련된 요원"

연구팀은 두 가지 AI 를 비교해 봤습니다.

  • 거인 (300 억 개 파라미터): 엄청나게 크고 똑똑해 보이지만, 앱스토어 규칙을 모릅니다.
  • 훈련된 요원 (30 억 개 파라미터): 크기는 작지만, 기존에 인간 전문가들이 작성한 평가 데이터를 보고 **철저히 훈련 (Fine-tuning)**을 받은 AI 입니다.

결과: 놀랍게도 작지만 훈련된 요원이 거인보다 훨씬 정확하게 앱을 평가했습니다. 마치 "수만 권의 책을 읽은 일반인"보다 "자신의 업무 매뉴얼을 달달 외운 전문 사무원"이 더 일을 잘하는 것과 같습니다.

2. 대량 생산: "AI 가 평가자 100 만 명을 대신하다"

이제 이 훈련된 AI 를 이용해 수백만 개의 앱 평가 데이터를 만들어냈습니다.

  • 인간 전문가가 1 개를 평가하는 데 10 분 걸린다면, AI 는 1 초 만에 수천 개를 평가합니다.
  • 이렇게 만들어진 데이터는 인간 전문가의 평가와 거의 똑같은 품질을 가졌습니다.

🚀 성과: "두 마리 토끼를 다 잡다"

이제 이 방대한 AI 평가 데이터를 기존 앱스토어 검색 시스템에 넣어 다시 학습시켰습니다. 그 결과는 놀라웠습니다.

  • 기존 시스템: "인기 있는 앱"과 "의미가 맞는 앱" 사이에서 타협해야 했습니다. (한쪽을 올리면 다른 쪽이 떨어지는 상황)
  • 새로운 시스템 (AI 데이터 추가): 두 마리 토끼를 모두 잡았습니다.
    • 의미적으로 맞는 앱이 더 잘 올라옵니다.
    • 동시에 사람들이 더 많이 다운로드합니다.
    • 이를 기술 용어로 **파레토 개선 (Pareto Improvement)**이라고 하는데, 쉽게 말해 "무엇도 잃지 않고 모두 이득을 본 상태"입니다.

🌟 가장 큰 기적: "잊혀진 질문들 (꼬리 질문)"

가장 큰 성과는 **사람들이 아주 드물게 검색하는 질문 (꼬리 질문)**에서 나왔습니다.

  • 이유: "내일 비가 오면 입는 옷"처럼 드문 검색어는 클릭 데이터가 없어서 기존 시스템이 무작위로 앱을 보여줬습니다.
  • 해결: 하지만 AI 는 텍스트만 봐도 "이 앱이 검색어와 잘 맞는다"고 판단해 줍니다.
  • 결과: 기존 시스템이 무력했던 곳에서, AI 가 강력한 신호를 보내주어 전환율 (앱 다운로드) 이 크게 증가했습니다.

📊 요약: 이 논문이 우리에게 주는 교훈

  1. 크기보다 훈련: AI 가 무조건 커야 좋은 게 아닙니다. **자신의 업무에 맞춰 훈련 (Fine-tuning)**을 잘 받은 AI 가 훨씬 효율적이고 저렴합니다.
  2. 데이터의 부재는 AI 가 채운다: 사람이 할 수 없는 일을 AI 가 대신해 주면, 데이터가 부족한 부분에서도 훌륭한 서비스를 제공할 수 있습니다.
  3. 실제 효과: 이 기술은 이론이 아니라, 전 세계 앱스토어 사용자에게 적용되어 실제 다운로드 수를 0.24% 늘렸습니다. (이건 거대 플랫폼에서 엄청난 성과입니다!)

한 줄 결론:

"앱스토어는 이제 AI 비서에게 '수백만 명의 평가자' 역할을 시켜, 우리가 찾지 못했던 숨은 보석 같은 앱들도 찾아내게 되었습니다."