Knowledge-informed Bidding with Dual-process Control for Online Advertising

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **온라인 광고 입찰 (Bidding)**을 더 똑똑하고 효율적으로 만드는 새로운 방법인 KBD를 소개합니다.

기존의 인공지능 (AI) 광고 시스템은 마치 "과거의 데이터만 보고 기계적으로 입찰하는 로봇"처럼 행동했습니다. 하지만 이 로봇은 예상치 못한 상황 (예: 갑자기 신제품이 출시되거나 대형 세일이 열릴 때) 에 당황하거나, 장기적인 이익보다는 당장의 이익만 쫓는 실수를 저지르곤 했습니다.

이 문제를 해결하기 위해 제안된 KBD는 인간의 사고 방식을 모방한 두 가지 시스템을 함께 작동시킵니다. 이를 이해하기 쉽게 **'유능한 마케팅 팀장'과 '신속한 현장 관리자'**의 협업으로 비유해 보겠습니다.

1. 문제: 왜 기존 AI 는 부족할까요?

기존 AI 는 과거 데이터를 기반으로 "어떤 광고를 얼마나 비싸게 사야 할까?"를 계산합니다. 하지만 두 가지 큰 약점이 있습니다.

데이터가 부족할 때: 새로운 제품이나 예상치 못한 상황에서는 과거 데이터가 없으니 AI 는 막막해집니다.
눈앞의 이익만 쫓음: 오늘 광고를 많이 보여줘서 당장 매출을 올리는 데만 집중하다 보니, 내일 예산이 바닥나서 광고가 멈추는 실수를 합니다.

2. 해결책: KBD (지식 기반의 이중 시스템)

KBD 는 하루를 두 단계로 나누어 광고를 관리합니다.

1 단계: 거시적 전략 (Macro Stage) - "유능한 마케팅 팀장 (IEFormer)"

역할: 하루 전체의 큰 그림을 그립니다. "오늘은 총 100 만 원의 예산을 써야 하는데, 이걸 어떻게 하루 종일 고르게 쓸까?"를 결정합니다.
특이점 (지식 기반): 이 팀장은 단순히 데이터만 보는 게 아니라, **사람 전문가의 경험 (지식)**을 학습에 직접 섞어 넣습니다.
- 비유: "광고 비용이 늘어날수록 효율은 점점 떨어진다"는 상식 (한계효용 체감 법칙) 을 AI 에게 가르쳐서, AI 가 엉뚱한 방향으로 나가는 것을 막습니다.
- 결과: 데이터가 부족한 상황에서도 전문가의 경험 덕분에 안정적인 '기본 입찰 가격'을 설정합니다.

2 단계: 미시적 조절 (Micro Stage) - "신속한 현장 관리자 (Dual-Process Control)"

역할: 팀장이 정한 기본 계획을 바탕으로, **매 시간 (Hourly)**마다 실시간으로 입찰 금액을 미세하게 조정합니다.
두 명의 조력자 (이중 시스템):
1. 시스템 1 (PID 제어기 - '경험 많은 베테랑'):
  - 매우 빠르고 단순한 규칙을 따릅니다. "지금 예산을 너무 빨리 쓰면? → 입찰을 줄여라!" "예산이 너무 안 쓰이면? → 입찰을 늘려라!"
  - 비유: 마치 운전할 때 브레이크와 액셀을 발로 즉각적으로 조절하는 반사 신경과 같습니다.
2. 시스템 2 (Decision Transformer - '고려 깊은 전략가'):
  - 복잡한 AI 모델로, "지금 입찰을 어떻게 해야 24 시간 뒤까지 가장 많은 매출을 낼까?"를 계산합니다.
  - 비유: 미래의 교통 상황을 예측하고 최적의 경로를 찾는 내비게이션과 같습니다.
협업 방식:
- 평상시에는 **전략가 (시스템 2)**가 주도하여 복잡한 상황을 분석하고 최적의 입찰을 결정합니다.
- 하지만 **예상치 못한 상황 (데이터가 급변할 때)**이나 전략가가 혼란스러울 때, **베테랑 (시스템 1)**이 개입하여 "안전하게" 입찰을 조절합니다.
- 비유: 운전 중 갑자기 눈이 쏟아지면 (예상치 못한 상황), 내비게이션 (전략가) 이 길을 잃을 수 있으니, 운전자의 **반사 신경 (베테랑)**이 브레이크를 잡는 것과 같습니다.

3. 실제 효과

이 방법을 실제 광고 플랫폼 (알리바바 헬스 등) 에서 테스트한 결과:

더 많은 매출 (GMV): 기존 방법보다 광고 예산을 더 효율적으로 써서 매출을 늘렸습니다.
예산 준수: 예산을 너무 일찍 다 써버리거나, 아예 안 쓰는 실수를 줄였습니다.
강인함: 신제품 출시나 대형 세일 같은 급변하는 상황에서도 시스템이 무너지지 않고 안정적으로 작동했습니다.

요약

이 논문은 **"AI 가 과거 데이터만 맹신하지 않고, 인간의 전문가 지식을 배우고 (팀장), 상황에 따라 빠른 반사 신경과 깊은 사고력을 오가며 (이중 시스템) 입찰을 조절한다"**는 아이디어입니다.

마치 유능한 팀장이 장기 계획을 세우고, 현장 관리자가 실시간으로 상황에 맞춰 유연하게 대응하는 팀처럼 작동하여, 광고 입찰을 더 똑똑하고 안전하게 만드는 것입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

온라인 광고 자동 입찰 (Auto-bidding) 은 현재 디지털 광고 시장의 핵심을 차지하고 있으며, 광고주는 목표 수익률 (tROI), 목표 전환 비용 (tCPA) 등 고수준의 목표를 설정하면 플랫폼이 이를 자동으로 수행합니다. 그러나 기존 접근 방식에는 다음과 같은 한계가 존재합니다.

블랙박스 모델의 한계: 기존 방법론은 과거 데이터에서 학습된 블랙박스 머신러닝 (ML) 모델에 의존합니다. 이는 데이터가 부족한 경우 (Data-sparse) 에 인간의 전문가 지식을 반영하지 못해 일반화 성능이 떨어집니다.
단기적 최적화 (Myopic Optimization): 대부분의 모델은 단일 결정 단계에서의 최적화에만 집중하여, 장기적인 상호의존성 (Inter-temporal dependencies) 을 무시합니다.
분포 변화 (Distribution Shift) 에 대한 취약성: 세일 프로모션이나 신제품 출시와 같은 급격한 데이터 분포 변화가 발생했을 때, 과거 데이터에 기반한 모델은 성능이 급격히 저하되지만, 인간 전문가는 이를 유연하게 대처합니다.

이러한 문제를 해결하기 위해 인간 전문가의 직관과 경험을 시스템에 통합하고, 장기적인 보상을 최적화하며, 급격한 환경 변화에 강건한 입찰 전략이 필요합니다.

2. 제안 방법론: KBD (Knowledge-informed Bidding with Dual-process Control)

저자들은 KBD라는 2 단계 입찰 최적화 프레임워크를 제안합니다. 이 방법은 지식 기반 머신러닝 (Informed Machine Learning, IML) 패러다임과 이중 프로세스 이론 (Dual-process Theory) 을 결합합니다.

2.1. 전체 아키텍처

KBD 는 매크로 (일 단위) 단계와 마이크로 (시간 단위) 단계로 구성됩니다.

목표: 일별 기본 tCPA 를 설정하고, 시간별 조정 계수를 통해 장기적인 GMV (총 거래액) 를 극대화합니다.
수식: $C = C_{ma} \cdot C_{mi}$ $C = C_{ma} \cdot C_{mi}$
- $C_{ma}$ : 매크로 단계 모델 (IEFormer) 이 산출한 일별 기본 tCPA.
- $C_{mi}$ : 마이크로 단계 (Dual-process Control) 가 산출한 시간별 조정 계수.

2.2. 매크로 단계: IEFormer (Informed Machine Learning)

일별 입찰 기준을 설정하기 위해 제안된 모델로, 인간의 전문성을 가설 (Hypothesis), 알고리즘 (Algorithm), 데이터 (Data) 세 수준에서 통합합니다.

가설 수준 (Hybrid Cognitive Architecture):
- 연결주의 모듈 (Connectionist): Transformer 인코더를 사용하여 과거 입찰 데이터를 밀집된 임베딩으로 추출합니다.
- 상징주의 모듈 (Symbolic): 단조로운 (Monotonic) 조각별 선형 추론을 기반으로 한 '가격 - 부피 해석기 (Price-volume interpreter)'를 사용합니다. 이는 비용 (Cost) 을 tCPA 로 매핑하며, 해석 가능한 가중치 행렬 $W$ 를 학습합니다.
- 적응형 분할: 데이터 희소성을 해결하기 위해 엔트로피 기반의 적응형 구간 분할 (GLA 알고리즘 활용) 을 도입하여 샘플이 균일하게 분포되도록 합니다.
알고리즘 수준 (Inductive Biases):
- 단조성 (Monotonicity): 비용이 증가함에 따라 tCPA 는 감소하지 않아야 함 (SoftPlus 활성화 함수 적용).
- 부드러움 (Smoothness): 인접 구간 간의 급격한 변화를 억제 (Smoothness Regularizer).
- 한계 효용 체감 (Diminishing Marginal Returns): 비용이 증가할수록 tCPA 증가율이 둔화되어야 함 (새로운 정규화 항 $L_{margin}$ 도입).
데이터 수준:
- 다양한 입찰 전략 (tROI, tCPC 등) 에서 생성된 데이터를 eCPM 공식을 통해 tCPA 로 변환하여 학습 데이터를 증강 (Data Augmentation) 합니다.

2.3. 마이크로 단계: 이중 프로세스 제어 (Dual-process Control)

시간 단위의 입찰 조정을 위해 시스템 1 (PID 제어기) 과 시스템 2 (Decision Transformer, DT) 를 결합합니다.

시스템 2 (Decision Transformer): 오프라인 강화학습을 기반으로 24 시간 (하루) 의 시퀀스를 고려하여 장기적인 GMV 를 최적화합니다. 하지만 분포 변화 시 성능이 불안정할 수 있습니다.
시스템 1 (PID Controller): 전문가의 휴리스틱에 기반한 규칙 기반 제어기입니다. 지출률 편차 (Spending rate deviation) 를 기반으로 빠르고 강건한 결정을 내립니다.
융합 전략 (Fusion):
1. 학습 단계: MDL (Minimum Description Length) 원리를 적용하여 DT 가 PID 의 행동을 모방하도록 정규화합니다 ( $L_{DT}$ 에 PID 오차 항 추가).
2. 추론 단계: DT 의 예측 불확실성 (최근 3 시간의 MAPE) 에 따라 두 시스템의 출력을 동적으로 가중치 합산합니다. DT 의 불확실성이 높을수록 PID 의 결정에 더 의존하여 강건성을 확보합니다.

3. 주요 기여 (Key Contributions)

KBD 프레임워크 제안: 전문가 주도 일별 보정 (IEFormer) 과 순차적 시간별 제어 (DT+PID) 를 결합한 2 단계 입찰 최적화 방법론을 제시했습니다.
지식 기반 강화 및 이중 프로세스 제어:
- IML 패러다임을 통해 모델의 해석 가능성과 데이터 희소성 문제를 해결했습니다.
- PID(시스템 1) 와 DT(시스템 2) 를 융합하여 데이터 분포 변화 (Distribution Shift) 에 대한 강건성을 크게 향상시켰습니다.
실험적 검증: 공개 데이터셋 (iPinYou) 과 실제 이커머스 플랫폼 데이터 (ECA) 를 통한 광범위한 실험을 통해 기존 최첨단 (SOTA) 방법론 대비 성능 우위를 입증했습니다.

4. 실험 결과 (Results)

iPinYou 데이터셋 (클릭 최대화):
- KBD 는 기존 SOTA 방법 (PUROS, GCB-safe 등) 보다 정규화된 수익 ( $R/R^*$ ) 과 제약 조건 준수율 (Constraint Satisfaction) 모두에서 가장 높은 성능을 기록했습니다.
- 특히 DT 와 PID 를 모두 제거한 경우보다 성능이 약 1% 이상 향상되었으며, 이는 두 시스템의 상호 보완적 효과를 입증합니다.
ECA 데이터셋 (실제 플랫폼, GMV 최적화):
- 온라인 A/B 테스트 결과:
  - IEFormer 만 적용 시 비용 소진률 (Cost-exhaust ratio) 8.44% 향상.
  - DT 추가 시 GMV 6.14% 추가 향상.
  - 전체 KBD 적용 시 GMV 13.01% 향상 및 캠페인 기간 연장 효과 확인.
- 모델 비교: 제안된 IEFormer 는 기존 회귀 모델 (GP, XGBoost 등) 및 다른 단조 모델 (IGCM, DIPN) 보다 wMAPE(가중 평균 절대 백분율 오차) 에서 압도적으로 낮은 오차율 (0.2187) 을 보였습니다.
강건성 분석:
- 구간 수 (N) 를 변화시켜도 IEFormer 의 성능이 안정적으로 유지됨을 확인했습니다.
- $L_{margin}$ (한계 효용 체감 정규화) 을 적용하지 않을 경우 노이즈 데이터에 과적합되는 경향이 있음을 시각적으로 확인했습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 온라인 광고 입찰 분야에서 인간의 전문가 지식 (Expert Knowledge) 과 최신 딥러닝 (Deep Learning) 을 효과적으로 통합한 새로운 패러다임을 제시합니다.

실무적 가치: 블랙박스 모델의 단점인 '데이터 부족 시 취약성'과 '단기적 시야'를 해결하여, 실제 비즈니스 환경 (세일, 신제품 출시 등) 에서 발생하는 급격한 변화에 유연하게 대응할 수 있는 시스템을 구축했습니다.
이론적 기여: 이중 프로세스 이론을 산업 응용 (입찰 최적화) 에 성공적으로 적용하여, 규칙 기반의 빠른 반응 (System 1) 과 학습 기반의 심층 계획 (System 2) 의 조화가 어떻게 최적의 의사결정을 이끌어내는지 입증했습니다.
미래 전망: 향후 대규모 언어 모델 (LLM) 을 활용하여 인간의 인지 메커니즘을 모방하고, 입찰 결정의 원인과 목적을 자연어로 설명 가능한 (Explainable) 에이전트 개발로 확장할 수 있는 기반을 마련했습니다.

결론적으로 KBD 는 데이터 중심의 자동화 시스템에 인간 중심의 지혜를 더함으로써, 온라인 광고 입찰의 효율성과 안정성을 동시에 극대화한 획기적인 솔루션입니다.