Uncertainty Quantification of Click and Conversion Estimates for the Autobidding

Each language version is independently generated for its own context, not a direct translation.

🎯 핵심 주제: "예측이 틀릴 때, 어떻게 현명하게 돈을 쓸까?"

현대 온라인 광고 플랫폼 (예: 쿠팡, 네이버, 아마존 등) 은 매일 수백만 건의 경매를 치릅니다. 광고주는 "내 광고를 보여줄 때 클릭될 확률 (CTR)"과 "구매로 이어질 확률 (CVR)"을 예측하는 AI 모델을 사용합니다. 그리고 이 예측값을 바탕으로 자동 입찰 시스템이 "얼마나 많은 돈을 써서 이 광고를 살지"를 결정합니다.

하지만 여기서 큰 문제가 생깁니다. AI 의 예측은 100% 정확하지 않습니다. 마치 날씨 예보가 "내일 비 올 확률 70%"라고 했을 때, 실제로는 비가 오지 않거나 폭우가 내릴 수 있는 것처럼요.

기존 시스템은 AI 가 "70%"라고 예측하면, 그 숫자를 100% 사실로 믿고 입찰가를 정합니다. 하지만 예측에 '노이즈 (오차)'가 섞여 있다면, 광고주는 너무 비싼 값을 치르거나, 반대로 좋은 기회를 놓치게 됩니다.

이 논문은 **"AI 의 예측이 얼마나 불확실한지 **(노이즈)를 제안합니다. 이 방법을 'DenoiseBid(소음 제거 입찰)라고 부릅니다.

🧩 비유로 이해하는 DenoiseBid

이 시스템을 이해하기 위해 **'비 오는 날 우산 사기'**라는 상황을 상상해 보세요.

1. 상황 설정

광고주: 비가 올 때 우산을 팔고 싶어 합니다.
AI 예측관: "내일 비 올 확률 70%"라고 알려줍니다.
문제: 이 예측은 완벽하지 않습니다. 실제로는 30% 만 비가 오거나, 90% 가 오거나 할 수 있습니다.
**기존 방식 **(Non-robust) AI 가 "70%"라고 하면, 그 숫자를 믿고 우산 가격을 70% 수준으로 책정합니다. 만약 실제로 비가 오지 않으면 (확률이 낮으면), 우산이 남아서 손해를 봅니다. 반대로 비가 많이 오는데 가격을 너무 낮게 책정하면, 수익을 놓칩니다.
**기존의 다른 방법 **(RobustBid) "아마 비가 안 올지도 모른다!"라고 너무 걱정해서, 아예 우산 가격을 아주 낮게 책정하거나 아예 팔지 않습니다. 안전하지만 기회를 많이 놓칩니다.

2. DenoiseBid 의 접근법 (Bayesian 마법)

이 방법은 AI 가 "70%"라고 말했을 때, 단순히 그 숫자를 믿지 않습니다. 대신 이렇게 생각합니다.

"AI 가 70% 라고 했지만, 과거 데이터를 보면 AI 는 보통 실제 확률 60~80% 사이에서 예측을 할 때 70% 라고 말하더라. 그리고 AI 가 예측할 때 실제 비가 오는지 안 오는지에 대한 '노이즈'도 있었지."

이 방법은 다음과 같은 두 가지 단계를 거칩니다.

**1 단계: 과거의 패턴을 기억하다 **(Prior Distribution)
과거에 AI 가 어떤 예측을 했을 때, 실제로 비가 얼마나 왔는지 (실제 CTR/CVR 분포) 를 분석합니다. 마치 "과거에 비가 올 확률이 70% 라고 예측했던 날들 중, 실제로 비가 온 날은 60% 였다"는 식의 역사적 데이터를 바탕으로 '진짜 확률'의 분포를 복원합니다.
**2 단계: 소음을 제거하다 **(Denoising)
AI 가 예측한 "70%"라는 숫자에서 '소음 (오차)'을 제거하고, 가장 가능성 높은 '진짜' 확률을 계산해 냅니다.
- 만약 AI 가 예측이 매우 불안정하다면 (노이즈가 크다면), 70% 를 50% 정도로 낮춰서 보수적으로 입찰합니다.
- 만약 AI 가 매우 확신하는 예측이라면, 70% 를 그대로 믿고 공격적으로 입찰합니다.

🛠️ 이 방법이 어떻게 작동할까요? (기술적 원리 간단히)

논문의 핵심 기술은 **'베이지안 추론 **(Bayesian Inference)과 **'확률 분포 복원'**입니다.

노이즈 모델링: AI 의 예측 오차가 어떻게 생겼는지 (예: 로그 공간에서 정규분포를 따름) 수학적으로 정의합니다.
**분포 복원 **(XDGMM) 실제 데이터는 없지만, AI 가 내뱉은 '잡음 섞인 예측값'들을 통해, 실제 데이터가 어떤 분포를 가졌을지를 수학적으로 역추적합니다. (마치 흐릿한 사진에서 원본의 윤곽을 찾아내는 것 같습니다.)
최적 입찰 계산: 이렇게 복원된 '진짜' 확률 분포를 바탕으로, 예산과 비용 제한 (CPC) 을 지키면서 가장 많은 구매 (Conversion) 를 얻을 수 있는 입찰가를 **공식 **(Closed-form)으로 계산합니다.

📊 실험 결과: 실제로 효과가 있을까?

저자들은 다양한 데이터셋 (합성 데이터, 실제 광고 데이터 등) 으로 실험을 했습니다.

비교 대상:
- Non-robust: AI 예측을 맹신하는 기존 방식.
- RobustBid: 너무 보수적으로 접근하는 기존 방식.
- DenoiseBid: 이 논문에서 제안한 방식.
결과:
- Non-robust는 예측이 틀릴 때 (노이즈가 클 때) 예산을 낭비하거나 목표 비용 (CPC) 을 초과하는 등 망했습니다.
- RobustBid는 비용은 잘 지켰지만, 너무 조심해서 **판매량 **(변환 수)했습니다.
- DenoiseBid는 두 마리 토끼를 다 잡았습니다. 비용 제한을 지키면서도, 판매량은 기존 방식보다 훨씬 높게 유지했습니다. 특히 예측이 불확실할 때 (노이즈가 심할 때) 그 차이가 더 컸습니다.

💡 결론: 왜 이것이 중요한가?

이 논문은 **"AI 가 예측할 때, 그 숫자 하나만 믿지 말고 '불확실성'까지 고려하라"**는 메시지를 줍니다.

마치 운전할 때 속도계만 보는 게 아니라, "날씨가 흐리고 노면이 미끄러우니 (불확실성), 속도를 조금 더 줄여서 안전하고 효율적으로 운전하자"는 것과 같습니다.

DenoiseBid는 광고주가 AI 의 예측 오차 때문에 돈을 잃지 않도록 도와주는 지능적인 안전장치이자 수익 극대화 도구입니다. 앞으로 더 많은 AI 모델이 광고 시장에 들어올수록, 이 '불확실성 관리' 기술은 필수불가결해질 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 현대 전자상거래 플랫폼은 매일 수백만 건의 경매를 처리하며, 광고주들을 위해 자동 입찰 (Autobidding) 시스템을 운영합니다. 이 시스템은 기계학습 (ML) 모델이 예측한 **클릭률 (CTR)**과 **전환률 (CVR)**을 기반으로 입찰가를 결정합니다.
핵심 문제: ML 모델의 예측값은 본질적으로 불확실성 (노이즈) 을 포함합니다. 기존 자동 입찰 알고리즘은 이러한 예측값을 확정적 (Deterministic) 값으로 간주하여 입찰가를 계산합니다.
- 2 차 가격 경매 (SPA) 하에서 최적 입찰가는 CTR 과 CVR 의 선형 함수로 유도됩니다.
- 따라서 CTR/CVR 예측의 오차가 입찰가에 직접적으로 전파되어, 광고주의 예산 제약이나 클릭당 비용 (CPC) 제약을 위반하거나, 비효율적인 예산 배분을 초래할 수 있습니다.
목표: 예측 노이즈를 명시적으로 고려하여, 실제 전환 수를 최대화하면서도 CPC 및 예산 제약을 준수하는 견고한 (Robust) 입찰 전략을 개발하는 것입니다.

2. 제안 방법론: DenoiseBid

저자들은 DenoiseBid라는 베이지안 기반 자동 입찰 방법을 제안합니다. 이 방법의 핵심은 노이즈가 포함된 CTR/CVR 예측값을 대신하여, 관측값을 조건으로 한 **사후 기대값 (Posterior Expectation)**을 사용하여 입찰가를 계산하는 것입니다.

2.1. 수학적 형식화

확률적 최적화: 기존 결정론적 선형 계획법 (LP) 을 확률적 최적화 문제로 변환합니다. 목적 함수는 관측치 $O$ 를 조건으로 한 실제 전환 확률의 기대값을 최대화하는 것으로 설정됩니다.
$\max E \left[ \sum x_t \cdot CTR_t \cdot CVR_t \mid O \right]$
입찰 공식 유도: 라그랑주 승수법과 상보적 여유 조건을 적용하여 폐쇄형 (Closed-form) 입찰 공식을 유도합니다.
$bid_t = \frac{1}{p^* + q^* E[CTR_t \cdot CVR_t \mid O]} + \frac{q^*}{p^* + q^* C} E[CTR_t \mid O]$
여기서 $p^*, q^*$ 는 예산 및 CPC 제약에 대한 최적의 쌍대 변수이며, $E[\cdot \mid O]$ 는 노이즈가 제거된 (Denoised) 기대값입니다.

2.2. 노이즈 모델링 및 사전 분포 복원

계산 효율성을 위해 CTR 과 CVR 을 Logit 공간으로 변환하여 모델링합니다.

노이즈 모델 (Likelihood): Logit 공간에서의 관측 오차는 가우시안 분포를 따른다고 가정합니다.
$\hat{\xi}_t = \xi_t + \epsilon_t, \quad \epsilon_t \sim N(0, \sigma_t^2)$
사전 분포 (Prior): 실제 CTR/CVR 분포는 복잡하고 다봉 (Multimodal) 일 수 있으므로, **가우시안 혼합 모델 (Gaussian Mixture)**로 가정합니다.
분포 복원 (Empirical Reconstruction): 실제 데이터에서는 Ground Truth 를 알 수 없으므로, 관측된 노이즈가 있는 데이터로부터 사전 분포 파라미터를 추정해야 합니다. 이를 위해 Extreme Deconvolution (XDGMM) 기법을 사용합니다. XDGMM 은 각 샘플의 개별 노이즈 분산을 고려하여 사전 분포를 복원합니다.
계산:
- CTR 만 불확실한 경우: 가우시안 혼합 모델의 성질과 Probit 근사를 활용하여 사후 기대값을 폐쇄형으로 계산합니다.
- CTR-CVR 공동 불확실성 (Joint Uncertainty): 두 변수 간의 상관관계를 고려하기 위해 이변량 가우시안 혼합 모델을 사용합니다. 기대값 계산 시 Gauss-Hermite Quadrature와 Cholesky 분해를 사용하여 상관관계를 반영하면서도 실시간 입찰 시스템에 적합한 속도로 계산합니다.

3. 주요 기여 (Key Contributions)

노이즈가 있는 CTR/CVR 하의 입찰 문제 정식화: 불확실성을 고려한 확률적 최적화 문제를 정의하고, 베이지안 사후 기대값에 기반한 폐쇄형 입찰 규칙을 유도했습니다.
DenoiseBid 알고리즘 개발: 관측 데이터로부터 XDGMM 을 통해 사전 분포를 복원하고, 이를 기반으로 노이즈가 제거된 입찰가를 폐쇄형으로 계산하는 실용적인 파이프라인을 구축했습니다.
광범위한 실험적 검증: 합성 데이터 (Synthetic), iPinYou, BAT, Criteo Attribution 등 4 개의 데이터셋에서 합성 노이즈와 실제 모델 예측에서 추출한 경험적 노이즈 (Empirical Noise) 를 모두 사용하여 방법을 검증했습니다.

4. 실험 결과 (Results)

비교 대상:
- Non-robust Baseline: 노이즈를 고려하지 않은 기존 LP 기반 입찰 (문헌 [17, 3]).
- RobustBid: 불확실성 집합을 기반으로 한 강건 최적화 방법 (문헌 [14]).
주요 결과:
- 노이즈 증가에 따른 안정성: 노이즈 수준이 증가할수록 기존 Non-robust 방법은 CPC 제약 위반이 발생하고 전환 효율이 급격히 떨어집니다. RobustBid 는 제약을 준수하지만 전환량 (R/R*) 이 크게 감소합니다.
- DenoiseBid 의 성능: DenoiseBid 는 노이즈 수준이 높아져도 CPC 제약을 거의 완벽하게 준수하면서 최적의 전환량에 가까운 성능을 유지했습니다.
- 실제 데이터 (Criteo): CatBoost 모델의 Virtual Ensembles 를 통해 추정한 불확실성을 적용한 실험에서, DenoiseBid 는 CPC 편차를 통계적으로 유의미하게 줄이고 전환 수를 증가시켰습니다. 특히 데이터 양이 적거나 특징이 제거된 (높은 불확실성) 상황에서도 강건한 성능을 보였습니다.

5. 의의 및 결론 (Significance)

모델 독립성 (Model-free): DenoiseBid 는 특정 ML 모델 구조 (GBDT, Deep Learning 등) 에 의존하지 않으며, 예측 모델이 제공하는 노이즈 추정치와 경험적 분포만 있으면 적용 가능합니다.
실용성: 복잡한 확률적 계산을 폐쇄형 식과 효율적인 근사 기법 (Probit, Gauss-Hermite) 으로 해결하여, 실시간 입찰 시스템 (Real-time Bidding) 에 즉시 배포 가능한 속도를 보장합니다.
불확실성 정량화의 중요성 강조: 단순한 점 추정 (Point Estimate) 이 아닌 예측의 불확실성 (Uncertainty) 을 입찰 의사결정 과정에 통합함으로써, 광고주에게 더 안전하고 효율적인 예산 배분을 가능하게 합니다.

이 연구는 자동 입찰 분야에서 예측 불확실성을 체계적으로 다루는 새로운 표준을 제시하며, 특히 고비용의 광고 경매 환경에서 예산 낭비를 방지하고 전환 효율을 극대화하는 데 중요한 기여를 합니다.