Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

Each language version is independently generated for its own context, not a direct translation.

🎯 핵심 비유: "경험 많은 요리사 vs. 새로운 레시피 개발자"

광고 입찰 시스템은 마치 거대한 식당과 같습니다.

광고주 (고객): "오늘 예산 10 만 원으로 최대한 많은 손님을 모으고 싶어!"라고 말합니다.
경매 (식당): 매일 수천 명의 손님이 오고, 메뉴 가격도 실시간으로 변합니다.
AI 입찰자 (요리사): "어떤 메뉴를 몇 원에 팔아야 예산을 다 쓰지 않고 손님을 가장 많이 모을지" 결정해야 합니다.

1. 기존 방법들의 문제점

기존 RL(강화학습) 방법: "요리사"가 실패를 반복하며 배우는 방식입니다. 하지만 광고처럼 실패하면 돈이 바로 날아가는 곳에서는 실수를 할 수 없습니다. 그래서 과거의 성공 기록 (데이터) 만 보고 배우는데, 이 방식은 학습이 불안정하고 자주 망가집니다.
기존 AIGB(생성형) 방법: "요리사"가 과거의 성공 레시피 (데이터) 를 그대로 베껴서 요리하는 방식입니다. 매우 안정적이지만, 새로운 상황이 오면 "이건 과거에 없던 메뉴인데 어떻게 하지?"라고 고민하다가 실패하거나, 너무 보수적으로만 행동합니다. 즉, 과거 데이터 밖으로 나가는 탐험을 못 합니다.

2. 이 논문이 제안한 해결책: "AIGB-Pearl"

이 논문은 **"과거의 레시피를 베끼되, 새로운 맛을 시도할 때는 안전장치를 갖춘 요리사"**를 만듭니다.

이 시스템은 두 가지 핵심 도구를 사용합니다:

🔍 도구 1: "맛 평가자 (Trajectory Evaluator)"

역할: AI 가 만들어낸 새로운 레시피 (입찰 전략) 가 실제로 얼마나 맛있는지 (성과가 좋은지) 미리 점수를 매겨주는 심사위원입니다.
비유: 과거의 성공 레시피를 분석해서 "이 조합은 100 점, 저 조합은 50 점"이라고 점수를 매기는 미식가입니다.
특징: 이 미식가는 과거 데이터를 바탕으로 훈련되었지만, AI 가 새로운 시도를 할 때 "이건 위험해, 점수가 떨어질 거야"라고 경고해 줍니다.

🛡️ 도구 2: "안전한 탐험 규칙 (KL-Lipschitz 제약)"

문제: AI 가 너무 과감하게 새로운 레시피를 만들면, 미식가의 점수 예측이 빗나갈 수 있습니다. (예: "이건 내가 본 적 없는 이상한 재료라 점수를 잘 매길 수 없어"라고 함)
해결: AI 가 과거의 성공 레시피와 너무 멀어지지 않도록 묶어둡니다.
- KL 제약: 과거의 성공적인 레시피 패턴을 완전히 잊지 않도록 합니다.
- Lipschitz 제약: 레시피를 조금씩만 변형하도록 합니다. 갑자기 "초콜릿을 넣은 김치찌개" 같은 기괴한 조합을 만들지 못하게 막는 것입니다.
효과: AI 는 과거 데이터 밖으로 조금만 나가서 (Safe Exploration) 더 좋은 레시피를 찾아낼 수 있지만, 절대 위험한 실수를 하지 않습니다.

🚀 이 방법이 왜 특별한가요?

안정적인 학습: 기존 방식처럼 "시행착오"를 반복하며 불안정하게 학습하지 않습니다. 과거 데이터를 기반으로 점수를 매기고, 그 점수를 따라가며 안정적으로 발전합니다.
안전한 혁신: "과거 데이터 밖"으로 나가서 더 좋은 성과를 낼 수 있지만, 안전장치가 있기 때문에 광고 예산을 낭비하는 위험한 실수를 막아줍니다.
실제 성과: 알리바바 (Taobao/Tmall) 의 실제 광고 시스템에서 테스트한 결과, 기존 최고의 방법들보다 매출 (GMV) 이 약 3~5% 더 증가했습니다.
- 상상해 보세요: 매일 수천억 원이 오가는 광고 시장에서 3% 만 더 늘어도 그 금액은 어마어마합니다.

💡 한 줄 요약

**"과거의 성공 경험을 바탕으로, AI 가 새로운 입찰 전략을 만들 때 '맛 평가자'가 점수를 매기고, '안전장치'가 위험한 실수를 막아주어 더 많은 수익을 내는 똑똑한 시스템"**입니다.

이 방법은 AI 가 단순히 과거를 모방하는 것을 넘어, 안전하게 미래를 예측하고 최적의 결정을 내릴 수 있게 해주는 획기적인 기술입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

배경: 자동 입찰은 광고주가 동적이고 경쟁적인 환경에서 입찰가를 자동으로 최적화하여 광고 성과를 극대화하는 핵심 도구입니다. 이는 예산 제약 하에서 누적 광고 가치 (GMV) 를 최대화하는 오프라인 순차 의사결정 문제로 모델링됩니다.
기존 방법의 한계:
- 오프라인 강화학습 (Offline RL): 부트스트랩 (bootstrapping) 기반의 가치 추정 방식을 사용하여 학습 불안정성이 크고, 분포 외 (OOD, Out-of-Distribution) 상태에서의 일반화 실패 위험이 있습니다.
- 생성형 자동 입찰 (AIGB): 최근 제안된 방법으로, 오프라인 데이터셋의 조건부 궤적 분포를 생성 모델 (예: Diffusion, Transformer) 로 학습합니다. 학습 안정성이 높고 성능이 우수하지만, 오프라인 데이터셋을 넘어선 탐색 (Exploration) 능력이 부족합니다. 즉, 데이터에 없는 새로운 궤적을 생성할 때 보상 신호가 없어 생성 품질이 저하되거나 위험한 입찰 전략을 취할 수 있습니다.
핵심 과제: AIGB 의 생성 능력을 유지하면서, 보상을 기반으로 한 정책 최적화 (Policy Optimization) 를 어떻게 통합하여 오프라인 데이터셋을 넘어선 안전하고 효과적인 탐색을 가능하게 할 것인가?

2. 제안 방법: AIGB-Pearl

저자들은 AIGB-Pearl을 제안하며, 이는 생성형 플래너 (Planner) 에 **궤적 평가자 (Trajectory Evaluator)**를 도입하고 RL 기반의 정책 최적화를 수행하는 프레임워크입니다.

2.1 핵심 구성 요소

궤적 평가자 (Trajectory Evaluator):
- 오프라인 데이터셋을 통해 학습된 지도학습 모델로, 생성된 궤적 $\tau$ 의 품질 (보상) 을 점수 $\hat{y}_\phi(\tau)$ 로 예측합니다.
- 이 평가자는 생성 모델이 학습된 데이터 분포를 벗어날 때에도 신뢰할 수 있는 보상 신호를 제공합니다.
KL-Lipschitz 제약 하의 점수 최대화 (KL-Lipschitz-constrained Score Maximization):
- 생성 모델 (플래너) 이 평가자의 점수를 최대화하도록 학습되지만, 무제한적인 탐색을 방지하기 위해 두 가지 강력한 제약을 부과합니다.
- KL 제약 (Behavior Cloning): 생성된 궤적이 오프라인 데이터셋의 분포와 너무 멀어지지 않도록 KL 발산을 제한합니다.
- Lipschitz 제약 (Generation Sensitivity): 생성 모델이 조건 (예: 목표 보상) $y$ 에 대해 민감하게 반응하지 않도록 Lipschitz 연속성을 보장합니다. 이는 작은 조건 변화가 궤적에 큰 변동을 일으키는 것을 막아 OOD 영역에서의 예측 불안정성을 줄입니다.

2.2 이론적 기반

평가자 편향 상한선 (Evaluator Bias Bound): 평가자의 예측 오차와 생성 모델의 Lipschitz 상수를 기반으로, 생성된 궤적의 점수 최대화가 실제 성능 (True Performance) 과 얼마나 차이가 날 수 있는지에 대한 **이론적 상한선 (Sub-optimality Bound)**을 증명했습니다.
안전한 탐색 보장: 이 이론적 분석을 통해, 제안된 제약 하에서는 생성 모델이 오프라인 데이터셋의 고품질 궤적 주변에 "검증된 영역 (Certified Neighborhood)" 내에서만 탐색하도록 보장되어, 위험한 OOD 탐색을 방지합니다.

2.3 알고리즘 구현

동기 커플링 (Synchronous Coupling): Lipschitz 제약 조건을 계산하기 위해, 서로 다른 조건 ( $y_1, y_2$ ) 하에서 동일한 가우시안 노이즈 시퀀스를 사용하여 두 궤적을 생성하는 동기 커플링 기법을 도입했습니다. 이는 Wasserstein 거리 추정의 분산을 줄이고 더 엄격한 상한선을 제공합니다.
학습 과정:
1. 평가자를 오프라인 데이터로 학습 (Lipschitz 정규화 포함).
2. 고정된 평가자를 사용하여 생성 모델 (플래너) 을 점수 최대화 및 제약 조건 하에서 반복적으로 학습.

3. 주요 기여 (Key Contributions)

AIGB-Pearl 제안: 오프라인 데이터셋을 넘어선 지속적인 품질 개선을 가능하게 하는 새로운 생성형 자동 입찰 방법론 제안.
이론적 안전성 보장: 하위 최적성 (Sub-optimality) 한계를 가진 KL-Lipschitz 제약 점수 최대화 목적함수를 제안하여, 데이터 외 일반화의 안전성을 수학적으로 증명.
실용적 알고리즘 설계: Lipschitz 조건을 만족시키기 위해 동기 커플링 (Synchronous Coupling) 기법을 활용한 효율적인 학습 알고리즘 개발.
실험적 검증: 시뮬레이션 및 실제 대규모 광고 시스템 (Taobao) 에서의 A/B 테스트를 통해 SOTA 성능 입증.

4. 실험 결과 (Results)

시뮬레이션 실험: 30 명의 광고주와 다양한 예산 수준에서 수행되었으며, 기존 AIGB (DiffBid, DT 등) 및 오프라인 RL 방법 (BCQ, CQL 등) 보다 GMV(총 상품 거래액) 에서 일관되게 우월한 성능을 보였습니다.
실제 환경 (Taobao A/B 테스트):
- 6,000 명의 광고주가 참여한 19 일간의 A/B 테스트에서, 제안된 방법은 GMV 약 3% 향상, 구매 건수 (BuyCnt) 2.2% 향상, ROI 1.89% 향상을 기록했습니다.
- 비용 (Cost) 은 허용 오차 범위 ( $\pm 2\%$ ) 내에서 유지되었습니다.
- TargetROAS 문제 (ROI 제약 추가) 에 적용 시에도 GMV 5% 이상 향상을 달성했습니다.
일반화 능력: 오프라인 데이터셋에 포함되지 않은 새로운 광고주 (Unseen advertisers) 에 대한 테스트에서도 기존 방법보다 우수한 일반화 성능을 보였습니다.
학습 안정성: 부트스트랩을 사용하는 기존 오프라인 RL 방법과 비교하여 학습 곡선이 훨씬 부드럽고 일관성이 높음을 확인했습니다.

5. 의의 및 결론 (Significance)

이 논문은 생성형 AI 와 강화학습의 장점을 결합하여 오프라인 의사결정 문제의 핵심 난제인 안전한 탐색 (Safe Exploration) 문제를 해결했습니다.

이론과 실무의 연결: 단순히 성능을 높이는 것을 넘어, 생성 모델이 데이터 분포를 벗어날 때 발생할 수 있는 위험을 이론적으로 증명하고 제어하는 프레임워크를 제시했습니다.
산업적 가치: 알리바바 그룹 (Taobao/Tmall) 의 실제 대규모 광고 시스템에 적용되어 수백만 위안의 추가 GMV 창출 효과를 입증했습니다.
향후 방향: 생성형 모델 기반의 오프라인 RL 분야에서 새로운 표준을 제시하며, 복잡한 제약 조건 하의 의사결정 문제에 대한 안전한 적용 가능성을 열었습니다.

요약하자면, AIGB-Pearl은 생성형 모델의 안정성을 유지하면서 보상 기반의 탐색을 통해 오프라인 데이터의 한계를 극복하고, 이론적으로 보장된 안전성 하에서 실제 광고 시스템의 성과를 극대화하는 획기적인 방법론입니다.