Variance reduction combining pre-experiment and in-experiment data

이 논문은 Etsy 의 온라인 실험에서 사전 데이터와 실험 중 데이터를 결합하여 평균 처리 효과 추정의 분산을 효과적으로 줄이고 실험 민감도를 향상시키는 새로운 프레임워크를 제안합니다.

Zhexiao Lin, Pablo Crespo

게시일 2026-03-24
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

실험의 정밀도를 높이는 새로운 비법: "실험 전"과 "실험 중" 데이터를 함께 쓰는 방법

이 논문은 인터넷 회사들이 새로운 기능을 테스트할 때 사용하는 **'A/B 테스트'**의 정확도를 높이는 혁신적인 방법을 소개합니다.

1. 배경: 왜 실험이 더 정밀해야 할까요?

인터넷 회사 (예: 이커머스, 스트리밍 서비스) 는 새로운 버튼 디자인이나 추천 알고리즘이 매출에 좋은 영향을 미치는지 확인하기 위해 A/B 테스트를 합니다. 사용자를 두 그룹 (A 그룹: 기존 버전, B 그룹: 새 버전) 으로 나누어 결과를 비교하는 것이죠.

하지만 문제는 비용입니다. 더 정확한 결과를 얻으려면 더 많은 사람 (데이터) 을 테스트해야 하는데, 이는 시간과 돈이 많이 듭니다. 그래서 연구자들은 **"적은 사람으로 더 정확한 결과를 내는 방법 (분산 축소)"**을 찾아왔습니다.

2. 기존 방법의 한계: "과거의 기록"만 믿는 것

지금까지 가장 인기 있던 방법 (CUPED, CUPAC) 은 **실험 시작 전의 데이터 (과거 기록)**를 활용했습니다.

  • 비유: 새로운 약이 효과가 있는지 테스트할 때, 환자가 약을 먹기 전의 건강 상태 (과거 기록) 를 참고하는 것과 같습니다.
  • 문제점: 과거 기록은 유용하지만, **실험이 진행되는 동안 일어나는 일 (현재 상황)**을 반영하지 못합니다. 예를 들어, 약을 먹은 후 환자의 기분이 좋아져서 활동량이 늘었다는 사실은 과거 기록에는 없습니다.

3. 새로운 아이디어: "실험 중" 데이터를 조심스럽게 활용하기

이 논문은 **"실험이 진행되는 동안 수집된 데이터 (In-experiment data)"**도 함께 쓰면 훨씬 더 정확한 예측이 가능하다고 말합니다.

  • 비유: 약을 먹은 후 환자의 실시간 심박수나 활동량을 함께 측정하면, 약의 효과를 훨씬 더 정밀하게 파악할 수 있습니다.
  • 위험 요소: 하지만 여기서 함정이 있습니다. 만약 '심박수'가 약의 직접적인 결과라면 (약 때문에 심박수가 빨라진다면), 이 데이터를 분석에 넣으면 약의 효과를 과소평가하게 되어 잘못된 결론을 내릴 수 있습니다. 이를 '중개 변수 (Mediator)'의 문제라고 합니다.

4. 이 논문의 핵심 해결책: "안전한" 실험 중 데이터만 골라 쓰기

저자들은 **"모든 실험 중 데이터를 다 쓰는 게 아니라, 약 (처치) 에 영향을 받지 않는 데이터만 골라 쓰자"**고 제안합니다.

  • 어떤 데이터인가요?
    • 예: 쇼핑몰 실험에서 '장바구니 담기' 버튼 디자인을 바꿨다고 가정해 봅시다.
    • 위험한 데이터: '구매 여부' (버튼 디자인이 바뀌었으니 구매가 바뀔 수 있음).
    • 안전한 데이터: '상품 상세페이지를 본 시간'이나 '화면 스크롤 깊이'. (디자인이 바뀌었다고 해서 사용자가 상품을 보는 방식이 근본적으로 바뀌지는 않음).
  • 방법론:
    1. 1 단계 (과거 데이터 활용): 기존 방식처럼 과거 데이터를 이용해 예측 모델을 만듭니다.
    2. 2 단계 (안전한 현재 데이터 추가): 실험 중 수집된 데이터 중, **A 그룹과 B 그룹의 평균이 비슷하게 유지되는 것들 (처치에 영향을 받지 않는 것들)**만 찾아내어 1 단계 모델의 오차를 보정합니다.

5. 마치 요리사처럼: "재료"를 선별하는 과정

이 방법은 마치 요리사가 재료를 고르는 과정과 같습니다.

  • 기존 방식: 오직 '냉장고에 미리 넣어둔 재료 (과거 데이터)'만 써서 요리를 했습니다.
  • 새로운 방식: '지금 시장에서 사 온 신선한 채소 (실험 중 데이터)'도 쓰고 싶지만, **상한 채소 (처치에 영향을 받은 데이터)**는 요리에 넣으면 맛이 망가집니다.
  • 해결책: 연구자들은 "이 채소는 상하지 않았는지 (A/B 그룹 평균이 같은지)"를 꼼꼼히 검사한 후, 안전한 채소들만 요리에 추가합니다. 이렇게 하면 요리의 맛 (실험 결과의 정확도) 이 훨씬 좋아집니다.

6. 실제 성과: Etsy 에서의 검증

이론만 있는 게 아닙니다. 실제 온라인 쇼핑몰 Etsy에서 29 가지 실험을 해본 결과:

  • 기존 방법보다 오차 (불확실성) 가 크게 줄어든 것이 확인되었습니다.
  • 과거 데이터 117 개를 쓰던 것보다, 실험 중 데이터 23 개만 추가해도 훨씬 더 정밀한 결과를 얻었습니다.
  • 이는 더 적은 비용과 시간으로 더 빠른 의사결정을 가능하게 합니다.

요약

이 논문은 **"과거의 기록만 믿지 말고, 실험 중의 실시간 데이터도 활용하라"**고 말하지만, **"무조건 다 쓰는 게 아니라, 실험의 결과에 영향을 주지 않는 '안전한' 데이터만 골라서 써야 한다"**는 중요한 원칙을 제시합니다. 이를 통해 기업들은 더 빠르고 정확하게 새로운 기능을 출시할 수 있게 됩니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →