Each language version is independently generated for its own context, not a direct translation.

실험의 정밀도를 높이는 새로운 비법: "실험 전"과 "실험 중" 데이터를 함께 쓰는 방법

이 논문은 인터넷 회사들이 새로운 기능을 테스트할 때 사용하는 **'A/B 테스트'**의 정확도를 높이는 혁신적인 방법을 소개합니다.

1. 배경: 왜 실험이 더 정밀해야 할까요?

인터넷 회사 (예: 이커머스, 스트리밍 서비스) 는 새로운 버튼 디자인이나 추천 알고리즘이 매출에 좋은 영향을 미치는지 확인하기 위해 A/B 테스트를 합니다. 사용자를 두 그룹 (A 그룹: 기존 버전, B 그룹: 새 버전) 으로 나누어 결과를 비교하는 것이죠.

하지만 문제는 비용입니다. 더 정확한 결과를 얻으려면 더 많은 사람 (데이터) 을 테스트해야 하는데, 이는 시간과 돈이 많이 듭니다. 그래서 연구자들은 **"적은 사람으로 더 정확한 결과를 내는 방법 (분산 축소)"**을 찾아왔습니다.

2. 기존 방법의 한계: "과거의 기록"만 믿는 것

지금까지 가장 인기 있던 방법 (CUPED, CUPAC) 은 **실험 시작 전의 데이터 (과거 기록)**를 활용했습니다.

비유: 새로운 약이 효과가 있는지 테스트할 때, 환자가 약을 먹기 전의 건강 상태 (과거 기록) 를 참고하는 것과 같습니다.
문제점: 과거 기록은 유용하지만, **실험이 진행되는 동안 일어나는 일 (현재 상황)**을 반영하지 못합니다. 예를 들어, 약을 먹은 후 환자의 기분이 좋아져서 활동량이 늘었다는 사실은 과거 기록에는 없습니다.

3. 새로운 아이디어: "실험 중" 데이터를 조심스럽게 활용하기

이 논문은 **"실험이 진행되는 동안 수집된 데이터 (In-experiment data)"**도 함께 쓰면 훨씬 더 정확한 예측이 가능하다고 말합니다.

비유: 약을 먹은 후 환자의 실시간 심박수나 활동량을 함께 측정하면, 약의 효과를 훨씬 더 정밀하게 파악할 수 있습니다.
위험 요소: 하지만 여기서 함정이 있습니다. 만약 '심박수'가 약의 직접적인 결과라면 (약 때문에 심박수가 빨라진다면), 이 데이터를 분석에 넣으면 약의 효과를 과소평가하게 되어 잘못된 결론을 내릴 수 있습니다. 이를 '중개 변수 (Mediator)'의 문제라고 합니다.

4. 이 논문의 핵심 해결책: "안전한" 실험 중 데이터만 골라 쓰기

저자들은 **"모든 실험 중 데이터를 다 쓰는 게 아니라, 약 (처치) 에 영향을 받지 않는 데이터만 골라 쓰자"**고 제안합니다.

어떤 데이터인가요?
- 예: 쇼핑몰 실험에서 '장바구니 담기' 버튼 디자인을 바꿨다고 가정해 봅시다.
- 위험한 데이터: '구매 여부' (버튼 디자인이 바뀌었으니 구매가 바뀔 수 있음).
- 안전한 데이터: '상품 상세페이지를 본 시간'이나 '화면 스크롤 깊이'. (디자인이 바뀌었다고 해서 사용자가 상품을 보는 방식이 근본적으로 바뀌지는 않음).
방법론:
1. 1 단계 (과거 데이터 활용): 기존 방식처럼 과거 데이터를 이용해 예측 모델을 만듭니다.
2. 2 단계 (안전한 현재 데이터 추가): 실험 중 수집된 데이터 중, **A 그룹과 B 그룹의 평균이 비슷하게 유지되는 것들 (처치에 영향을 받지 않는 것들)**만 찾아내어 1 단계 모델의 오차를 보정합니다.

5. 마치 요리사처럼: "재료"를 선별하는 과정

이 방법은 마치 요리사가 재료를 고르는 과정과 같습니다.

기존 방식: 오직 '냉장고에 미리 넣어둔 재료 (과거 데이터)'만 써서 요리를 했습니다.
새로운 방식: '지금 시장에서 사 온 신선한 채소 (실험 중 데이터)'도 쓰고 싶지만, **상한 채소 (처치에 영향을 받은 데이터)**는 요리에 넣으면 맛이 망가집니다.
해결책: 연구자들은 "이 채소는 상하지 않았는지 (A/B 그룹 평균이 같은지)"를 꼼꼼히 검사한 후, 안전한 채소들만 요리에 추가합니다. 이렇게 하면 요리의 맛 (실험 결과의 정확도) 이 훨씬 좋아집니다.

6. 실제 성과: Etsy 에서의 검증

이론만 있는 게 아닙니다. 실제 온라인 쇼핑몰 Etsy에서 29 가지 실험을 해본 결과:

기존 방법보다 오차 (불확실성) 가 크게 줄어든 것이 확인되었습니다.
과거 데이터 117 개를 쓰던 것보다, 실험 중 데이터 23 개만 추가해도 훨씬 더 정밀한 결과를 얻었습니다.
이는 더 적은 비용과 시간으로 더 빠른 의사결정을 가능하게 합니다.

요약

이 논문은 **"과거의 기록만 믿지 말고, 실험 중의 실시간 데이터도 활용하라"**고 말하지만, **"무조건 다 쓰는 게 아니라, 실험의 결과에 영향을 주지 않는 '안전한' 데이터만 골라서 써야 한다"**는 중요한 원칙을 제시합니다. 이를 통해 기업들은 더 빠르고 정확하게 새로운 기능을 출시할 수 있게 됩니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem Setting)

배경: 온라인 통제 실험 (A/B 테스트) 은 데이터 기반 의사결정의 핵심이지만, 고정된 표본 크기 하에서 실험의 민감도 (sensitivity) 를 높이는 것은 어렵습니다. 표본 크기를 늘리는 것은 비용과 시간 측면에서 비효율적일 수 있으므로, 평균 처리 효과 (ATE) 추정량의 분산을 줄이는 것이 중요합니다.
기존 방법의 한계:
- CUPED/CUPAC: 사전 실험 데이터 (pre-experiment data) 를 사용하여 회귀 조정 (regression adjustment) 을 수행합니다. 이는 추정량의 분산을 줄이지만, 사전 데이터가 실험 중 측정된 결과 (outcome) 와 얼마나 강한 상관관계를 가지는지에 그 효과가 제한됩니다.
- 실험 중 데이터 (In-experiment data) 의 활용 부재: 실험 중 수집된 데이터는 결과와 더 강한 상관관계를 가질 수 있어 분산 감소에 더 유리할 수 있습니다. 하지만, 처리 (treatment) 가 적용된 후 측정된 변수를 임의로 조정하면 처리 효과의 일부가 제거되어 편향 (bias) 이 발생할 수 있다는 우려 (post-treatment bias) 로 인해 기존 파이프라인에서는 사용되지 않았습니다.
핵심 문제: 실험 중 데이터를 활용하여 분산을 줄이되, 처리 효과에 대한 편향을 유발하지 않는 안전한 방법은 무엇인가?

2. 제안된 방법론 (Methodology)

저자는 사전 실험 데이터와 실험 중 데이터를 결합하여 분산을 감소시키는 일반적이고 견고한 프레임워크를 제안합니다. 이 방법은 두 단계로 구성됩니다.

2.1. 핵심 아이디어

처리 불감성 (Treatment-insensitivity) 변수 식별: 모든 실험 중 변수가 편향을 유발하는 것은 아닙니다. 처리 (treatment) 가 결과에 영향을 미치는 경로 (mediator) 에 있지 않고, 단순히 결과와 강한 상관관계만 가진 변수들은 사전 변수와 유사하게 안전하게 조정할 수 있습니다.
2 단계 조정 (Two-stage Adjustment):
1. 1 단계 (CUPAC): 기존 CUPAC 과 동일하게 사전 실험 데이터 ( $X$ ) 를 사용하여 머신러닝 모델 ( $\hat{f}(X)$ ) 로 결과를 예측합니다.
2. 2 단계 (선형 조정): 1 단계의 잔차 ( $\hat{R} = Y - \hat{f}(X)$ ) 를 대상으로, 선형 모델을 통해 선택된 실험 중 변수 ( $Z$ ) 로 추가 조정합니다.

2.2. 수식적 정의

추정량은 다음과 같이 정의됩니다:
$\hat{\tau} = \frac{1}{n_1} \sum_{W_i=1} (Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i) - \frac{1}{n_0} \sum_{W_i=0} (Y_i - \hat{f}(X_i) - \hat{\gamma}^\top Z_i)$
여기서 $\hat{\gamma}$ 는 잔차와 실험 중 변수 $Z$ 간의 선형 관계를 추정하는 계수입니다.

2.3. 편향 없는 조정을 위한 조건

평균 동등성 (Mean Equivalence): 선택된 실험 중 변수 $Z$ 가 처리군과 대조군에서 평균이 동일해야 합니다 ( $E[Z|W=1] = E[Z|W=0]$ ).
선형 조정의 이점: 비선형 조정은 분포의 완전한 불변성을 요구하지만, 선형 조정은 평균만 일치하면 편향이 발생하지 않습니다. 이는 더 넓은 범위의 변수를 안전하게 포함할 수 있게 해줍니다.
변수 선택 (Selection): 두 표본 통계적 검정 (Two-sample test) 을 통해 각 실험 중 변수의 평균 균형을 검증합니다. 귀무가설 ( $H_0$ : 평균 차이 없음) 을 기각하지 못하는 변수들만 2 단계 조정에 포함시킵니다.

3. 주요 기여 (Key Contributions)

새로운 프레임워크 제안: 기존 CUPED/CUPAC 의 한계를 넘어, 실험 중 데이터를 안전하게 활용하여 분산을 추가적으로 감소시키는 2 단계 프레임워크를 제시했습니다.
이론적 근거:
- 제안된 추정량의 점근적 정규성 (asymptotic normality) 과 일관성 (consistency) 을 증명했습니다.
- 일관된 분산 추정량 (consistent variance estimator) 을 제공했습니다.
- 사전 모델 ( $\hat{f}$ ) 이 $L_2$ 일관성을 가진다면, 2 단계 선형 조정의 오차가 점근적으로 무시할 수 있음을 보였습니다.
실용적 타당성:
- 편향 없는 조건: "대리 변수 (surrogate)"나 "주요 층화 (principal stratification)"와 같은 강한 가정을 요구하지 않고, 검증 가능한 "평균 동등성" 조건만 만족하면 됩니다.
- 계산 효율성: 복잡한 머신러닝 모델을 실험마다 새로 학습할 필요 없이, 기존 CUPAC 파이프라인에 선형 조정 단계만 추가하면 되어 확장성이 뛰어납니다.
변수 선택 전략: 실험 중 변수가 처리에 의해 영향을 받지 않는지 확인하기 위한 체계적인 통계적 검정 및 메타 분석 (Fisher's method 등) 절차를 제시했습니다.

4. 실증 연구 결과 (Empirical Results)

데이터: Etsy 에서 수행된 29 개의 온라인 실험 (A/B 테스트) 에 적용했습니다. 주요 결과 지표는 고객 전환율 (conversion rate) 입니다.
설정:
- Baseline: 117 개의 사전 변수를 사용한 CUPAC (LightGBM 모델).
- 제안 방법: CUPAC + 23 개의 선택된 실험 중 변수 (선형 조정).
결과:
- 예측 정확도 향상: 제안된 방법은 CUPAC 대비 $R^2$ 의 제곱근에서 0.02 에서 0.14 까지 일관된 개선을 보였습니다.
- 분산 감소: CUPAC 이 기존 차이 (difference-in-means) 대비 분산을 줄인 것에 더해, 제안된 방법은 CUPAC 대비 추가적인 분산 감소를 달성했습니다.
- 효율성: CUPAC 이 117 개의 변수를 사용한 반면, 제안된 방법은 실험 중 데이터에서 단 23 개의 변수만 추가하여도 상당한 추가 분산 감소 효과를 얻었습니다. 이는 실험 중 데이터가 결과에 대해 더 강력한 예측력을 가질 수 있음을 시사합니다.

5. 의의 및 결론 (Significance)

실무적 영향: 이 연구는 산업계에서 "실험 중 데이터는 편향을 유발하므로 사용하지 않는다"는 기존 관행을 깨뜨립니다. 대신, 적절한 통계적 검정과 도메인 지식을 통해 처리 불감성 변수를 선별하여 활용할 경우, 추가적인 비용 없이 실험 민감도를 크게 높일 수 있음을 증명했습니다.
확장성: 대규모 A/B 테스트 플랫폼에서 수천 개의 실험이 병렬로 수행되는 환경에 적합합니다. 복잡한 모델 학습 없이 기존 파이프라인에 통합 가능하여 구현이 용이합니다.
결론: 제안된 프레임워크는 이론적으로 엄밀하면서도 실용적으로 적용 가능한 솔루션으로, 데이터 기반 의사결정 속도를 가속화하고 실험의 효율성을 극대화하는 데 기여합니다.

요약: 이 논문은 A/B 테스트에서 사전 데이터와 실험 중 데이터를 결합하여 ATE 추정량의 분산을 줄이는 새로운 방법을 제시합니다. 핵심은 실험 중 데이터 중 처리 효과와 무관한 (mean-equivalent) 변수들을 통계적으로 선별하여 선형 조정에 활용함으로써, 편향 없이 추가적인 분산 감소 효과를 얻는 것입니다. Etsy 의 실제 데이터를 통해 기존 CUPAC 방법 대비 추가적인 분산 감소와 예측 정확도 향상을 입증했습니다.

Variance reduction combining pre-experiment and in-experiment data