Enhancing Generative Auto-bidding with Offline Reward Evaluation and Policy Search

이 논문은 오프라인 데이터의 한계를 극복하고 안전하고 효율적인 탐색을 보장하기 위해 생성적 계획과 정책 최적화를 통합한 새로운 오토입찰 방법인 AIGB-Pearl 을 제안하며, 시뮬레이션 및 실제 광고 시스템 실험을 통해 기존 기법 대비 최첨단 성능을 입증합니다.

Zhiyu Mou, Yiqin Lv, Miao Xu, Qi Wang, Yixiu Mao, Jinghao Chen, Qichen Ye, Chao Li, Rongquan Bai, Chuan Yu, Jian Xu, Bo Zheng

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🎯 핵심 비유: "경험 많은 요리사 vs. 새로운 레시피 개발자"

광고 입찰 시스템은 마치 거대한 식당과 같습니다.

  • 광고주 (고객): "오늘 예산 10 만 원으로 최대한 많은 손님을 모으고 싶어!"라고 말합니다.
  • 경매 (식당): 매일 수천 명의 손님이 오고, 메뉴 가격도 실시간으로 변합니다.
  • AI 입찰자 (요리사): "어떤 메뉴를 몇 원에 팔아야 예산을 다 쓰지 않고 손님을 가장 많이 모을지" 결정해야 합니다.

1. 기존 방법들의 문제점

  • 기존 RL(강화학습) 방법: "요리사"가 실패를 반복하며 배우는 방식입니다. 하지만 광고처럼 실패하면 돈이 바로 날아가는 곳에서는 실수를 할 수 없습니다. 그래서 과거의 성공 기록 (데이터) 만 보고 배우는데, 이 방식은 학습이 불안정하고 자주 망가집니다.
  • 기존 AIGB(생성형) 방법: "요리사"가 과거의 성공 레시피 (데이터) 를 그대로 베껴서 요리하는 방식입니다. 매우 안정적이지만, 새로운 상황이 오면 "이건 과거에 없던 메뉴인데 어떻게 하지?"라고 고민하다가 실패하거나, 너무 보수적으로만 행동합니다. 즉, 과거 데이터 밖으로 나가는 탐험을 못 합니다.

2. 이 논문이 제안한 해결책: "AIGB-Pearl"

이 논문은 **"과거의 레시피를 베끼되, 새로운 맛을 시도할 때는 안전장치를 갖춘 요리사"**를 만듭니다.

이 시스템은 두 가지 핵심 도구를 사용합니다:

🔍 도구 1: "맛 평가자 (Trajectory Evaluator)"

  • 역할: AI 가 만들어낸 새로운 레시피 (입찰 전략) 가 실제로 얼마나 맛있는지 (성과가 좋은지) 미리 점수를 매겨주는 심사위원입니다.
  • 비유: 과거의 성공 레시피를 분석해서 "이 조합은 100 점, 저 조합은 50 점"이라고 점수를 매기는 미식가입니다.
  • 특징: 이 미식가는 과거 데이터를 바탕으로 훈련되었지만, AI 가 새로운 시도를 할 때 "이건 위험해, 점수가 떨어질 거야"라고 경고해 줍니다.

🛡️ 도구 2: "안전한 탐험 규칙 (KL-Lipschitz 제약)"

  • 문제: AI 가 너무 과감하게 새로운 레시피를 만들면, 미식가의 점수 예측이 빗나갈 수 있습니다. (예: "이건 내가 본 적 없는 이상한 재료라 점수를 잘 매길 수 없어"라고 함)
  • 해결: AI 가 과거의 성공 레시피와 너무 멀어지지 않도록 묶어둡니다.
    • KL 제약: 과거의 성공적인 레시피 패턴을 완전히 잊지 않도록 합니다.
    • Lipschitz 제약: 레시피를 조금씩만 변형하도록 합니다. 갑자기 "초콜릿을 넣은 김치찌개" 같은 기괴한 조합을 만들지 못하게 막는 것입니다.
  • 효과: AI 는 과거 데이터 밖으로 조금만 나가서 (Safe Exploration) 더 좋은 레시피를 찾아낼 수 있지만, 절대 위험한 실수를 하지 않습니다.

🚀 이 방법이 왜 특별한가요?

  1. 안정적인 학습: 기존 방식처럼 "시행착오"를 반복하며 불안정하게 학습하지 않습니다. 과거 데이터를 기반으로 점수를 매기고, 그 점수를 따라가며 안정적으로 발전합니다.
  2. 안전한 혁신: "과거 데이터 밖"으로 나가서 더 좋은 성과를 낼 수 있지만, 안전장치가 있기 때문에 광고 예산을 낭비하는 위험한 실수를 막아줍니다.
  3. 실제 성과: 알리바바 (Taobao/Tmall) 의 실제 광고 시스템에서 테스트한 결과, 기존 최고의 방법들보다 매출 (GMV) 이 약 3~5% 더 증가했습니다.
    • 상상해 보세요: 매일 수천억 원이 오가는 광고 시장에서 3% 만 더 늘어도 그 금액은 어마어마합니다.

💡 한 줄 요약

**"과거의 성공 경험을 바탕으로, AI 가 새로운 입찰 전략을 만들 때 '맛 평가자'가 점수를 매기고, '안전장치'가 위험한 실수를 막아주어 더 많은 수익을 내는 똑똑한 시스템"**입니다.

이 방법은 AI 가 단순히 과거를 모방하는 것을 넘어, 안전하게 미래를 예측하고 최적의 결정을 내릴 수 있게 해주는 획기적인 기술입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →