Each language version is independently generated for its own context, not a direct translation.

🚀 광고 입찰의 새로운 혁명: "생각하는 AI"와 "행동하는 AI"의 팀워크

이 논문은 온라인 광고 시장에서 광고주가 얼마나 효과적으로 입찰 (Bidding) 을 해야 할지 결정하는 새로운 인공지능 (AI) 모델을 소개합니다. 이 모델의 이름은 **LBM(Hierarchical Large Auto-Bidding Model)**입니다.

기존의 방법들이 가진 문제점과 이 새로운 모델이 어떻게 해결책을 제시하는지, 쉬운 비유로 설명해 드릴게요.

1. 왜 새로운 것이 필요한가요? (기존의 문제점)

과거에는 광고 입찰을 사람이 직접 조정했습니다. 하지만 광고 경매가 너무 빨라지고 경쟁이 치열해져서 사람이 따라가기 힘들어졌습니다. 그래서 자동 입찰 (Auto-bidding) 시스템이 등장했습니다.

하지만 기존 자동 입찰 시스템 (강화학습 등) 은 두 가지 큰 약점이 있었습니다.

블랙박스 (Black-box) 문제: "왜 이렇게 입찰했지?"라고 물어봐도 시스템이 이유를 설명해주지 못합니다. 마치 운이 좋은 기계처럼 행동하다가, 갑자기 예산을 다 써버리거나 반대로 광고를 전혀 못 띄우는 이상한 행동을 하기도 합니다.
데이터의 한계: 과거 데이터만 보고 학습하기 때문에,从未 겪어본 새로운 상황 (예: 갑자기 경쟁자가 등장하거나 시장이 변할 때) 에는 제대로 대응하지 못합니다.

2. LBM 의 핵심 아이디어: "생각하는 팀"과 "행동하는 팀"

이 논문은 거대 언어 모델 (LLM, 우리가 ChatGPT 같은 AI 를 생각하면 됩니다) 을 활용하되, 두 명의 전문가로 팀을 구성했습니다. 마치 명예로운 전략가와 신속한 실행자가 함께 일하는 것과 같습니다.

👨‍💼 1 단계: LBM-Think (전략가)

역할: 과거의 입찰 기록, 예산使用情况, 경쟁 상황을 꼼꼼히 분석합니다.
행동: "지금 예산이 너무 많이 남았네?", "CPA(광고 단가) 가 너무 비싸진 것 같아?"라고 **생각 (Reasoning)**하고, **"다음에는 입찰가를 살짝 올려야겠다"**거나 **"내려야겠다"**는 **방향성 (Chain-of-Thought)**을 언어로 작성합니다.
특징: 이 과정은 실시간으로 즉각적으로 할 필요 없이, 다음 단계가 시작되기 전에 미리 ** asynchronously(비동기적으로)** 수행할 수 있습니다. 즉, "생각할 시간"을 충분히 가집니다.

🏃‍♂️ 2 단계: LBM-Act (실행자)

역할: 전략가 (Think) 가 작성한 "방향성"과 현재의 숫자 데이터 (실시간 입찰가, 예산 등) 를 받아서 정확한 입찰 금액을 결정합니다.
행동: "전략가가 입찰가를 올리라고 했고, 현재 예산이 충분하니, 입찰가를 10.5 원으로 설정하자"라고 즉각적인 행동을 취합니다.
특징: 숫자 데이터와 언어 지시를 동시에 이해할 수 있도록 특별히 설계되었습니다.

💡 비유:
마치 **선장 (Think)**이 바다의 날씨와 항로를 보며 "앞으로 동쪽으로 항해하자"라고 지시하고, **선원 (Act)**이 그 지시를 받아 실제로 돛을 올리는 각도와 속도를 조절하는 것과 같습니다. 선장은 복잡한 상황을 분석하고, 선원은 그 분석을 바탕으로 정밀한 조작을 합니다.

3. 어떻게 훈련시키나요? (두 가지 혁신 기술)

이 모델을 어떻게 가르쳤을까요? 두 가지 독특한 기술을 사용했습니다.

🔗 기술 1: "이중 임베딩" (Dual Embedding)

문제: AI 가 숫자 (예: 12.34) 를 언어로 바꾸면 토큰 (문자 단위) 이 너무 많이 필요해서 처리가 느리고 비효율적입니다.
해결: 언어 (전략가의 지시) 와 숫자 (현실 데이터) 를 서로 다른 방식으로 처리하되, AI 가 이 두 가지를 자연스럽게 섞어서 이해할 수 있게 만들었습니다.
비유: 요리사가 **레시피 (언어)**와 **재료의 무게 (숫자)**를 동시에 보고 요리를 할 때, 레시피는 눈으로 읽고 무게는 저울로 재되, 두 정보를 뇌에서 하나로 통합하여 요리를 완성하는 것과 같습니다.

🎓 기술 2: "GQPO" (실전 연습 없이 실력 향상)

문제: AI 가 "생각"을 할 때 엉뚱한 소리 (할루시네이션) 를 하거나 잘못된 전략을 세울 수 있습니다. 보통은 실제 광고 시장에 나가서 실험해보며 학습시키는데, 광고 시장에서 실수하면 돈이 날아가는 위험이 있습니다.
해결: 실제 시장에 나가지 않고, **과거 데이터 (오프라인)**만으로 AI 의 "생각 (CoT)"이 좋은 결과를 낼지 시뮬레이션하여 점수를 매겨 가르쳤습니다.
비유: 비행 조종사를 훈련할 때, 실제 하늘을 날게 하지 않고 비행 시뮬레이터에서 "이런 상황에서 이렇게 생각하면 안전하다"라고 가르쳐서, 실제 비행 시 실수를 줄이는 것과 같습니다.

4. 결과는 어떨까요?

실험 결과, 이 LBM 모델은 기존 방법들보다 훨씬 뛰어난 성능을 보였습니다.

더 많은 전환 (Conversion): 예산을 더 효율적으로 써서 더 많은 광고 효과를 얻었습니다.
더 안전한 행동: 예산을 너무 일찍 다 써버리거나, 반대로 아껴서 광고를 못 띄우는 등의 실수가 줄었습니다.
유연한 대응: 새로운 상황에서도 과거의 지식을 바탕으로 잘 대처했습니다.

📝 요약

이 논문은 "생각하는 AI(전략가)"와 "행동하는 AI(실행자)"를 분리해서 팀을 구성함으로써, 광고 입찰이라는 복잡한 게임을 훨씬 더 똑똑하고 안전하게 플레이하게 만들었습니다.

기존: 블랙박스처럼 막연하게 행동.
새로운 LBM: 먼저 생각해서 방향을 잡고, 그 다음 행동해서 정밀하게 실행.

이처럼 **이성 (Reasoning)**과 **행동 (Acting)**을 분리하고 협력하게 한 것이, 광고 시장의 새로운 표준이 될 수 있는 혁신적인 접근법입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

온라인 광고 플랫폼의 경매 규모가 급격히 커지면서, 수동 입찰은 비현실적이 되었고 자동 입찰 (Auto-bidding) 이 필수적이 되었습니다. 기존 자동 입찰 방법들은 주로 **오프라인 강화학습 (Offline RL)**이나 **생성적 모델 (Generative Models, 예: Decision Transformer)**을 사용했습니다. 그러나 이러한 방법들은 다음과 같은 한계가 있었습니다:

블랙박스 성격: 보상 설계에 의존하여 모델이 작업 상태를 이해하지 못하고 직관에 반하는 행동 (예: CPA 제약 초과 시에도 입찰가를 높이는 등) 을 할 수 있음.
일반화 부족: 오프라인 데이터셋의 모드 커버리지에 제한을 받아 동적인 광고 환경에서 예상치 못한 상황에 대처하지 못함.
LLM 적용의 어려움: 대규모 언어 모델 (LLM) 은 추론 능력이 뛰어나지만, 경매 환경에서 **정밀한 수치적 행동 (Continuous Action)**이 필요하고 입찰 데이터에 대한 전문 지식이 부족하여 할루시네이션 (Hallucination) 이나 최적하지 않은 결정을 초래할 수 있음.

2. 제안 방법론 (Methodology)

저자들은 LLM 의 추론 능력을 활용하면서도 정밀한 입찰 제어를 가능하게 하기 위해 **계층적 대규모 자동 입찰 모델 (LBM, Hierarchical Large Auto-Bidding Model)**을 제안했습니다. 이 모델은 **LBM-Think(고수준 추론)**와 **LBM-Act(저수준 행동 생성)**의 두 단계로 구성됩니다.

2.1 모델 구조

LBM-Think (추론 모듈):
- 과거 입찰 성과와 행동을 언어 (Language) 로 요약하고, 향후 입찰 파라미터 조정 방향 (예: 증가/감소) 에 대한 **생각의 사슬 (Chain-of-Thought, CoT)**을 생성합니다.
- 더 큰 규모의 LLM 을 사용하여 비동기적으로 추론을 수행하며, 실제 입찰 시점 전에 미리 생성될 수 있어 산업 적용에 적합합니다.
LBM-Act (행동 생성 모듈):
- LBM-Think 에서 생성된 CoT(언어) 와 현재 상태의 수치적 시퀀스 (Numerical Sequence) 를 입력받아 구체적인 입찰 파라미터 (행동) 를 생성합니다.
- 상대적으로 작은 규모의 LLM 을 사용하여 실시간 의사결정을 수행합니다.

2.2 핵심 기술

이중 임베딩 메커니즘 (Dual Embedding Mechanism):
- LBM-Act 는 언어 (CoT) 와 수치 (상태, 행동, 반환치) 라는 두 가지 모달리티를 효율적으로 융합해야 합니다.
- 언어 토큰 임베딩과 별도로, 수치 데이터를 처리하기 위한 의사결정 임베딩 (Decision Embedding) 레이어를 도입하여 수치 시퀀스를 토큰 임베딩 크기에 맞춘 벡터로 변환합니다. 이를 통해 어텐션 메커니즘이 긴 시퀀스를 처리할 때 발생하는 비효율성을 해결하고 두 모달리티를 효과적으로 결합합니다.
GQPO (Group relative-Q Policy Optimization):
- LLM-Think 의 할루시네이션을 줄이고 추론 성능을 향상시키기 위해 제안된 오프라인 강화 학습 미세 조정 (Offline RL Fine-tuning) 기법입니다.
- 기존 RLVR(Reinforcement Learning with Verifiable Rewards) 방식은 시뮬레이션이나 실제 환경에서의 롤아웃 (Rollout) 이 필요하지만, 광고 입찰에서는 위험하고 비현실적입니다.
- GQPO 는 오프라인 Q-값 (Offline Q-value) 을 활용하여 CoT 의 효과를 평가합니다. 여러 개의 CoT 를 생성한 후, 이를 통해 도출된 행동의 Q-값 차이 (Relative-Q, $\Delta Q$ ) 를 계산하여, 가장 긍정적인 영향을 미치는 CoT 를 선택하고 이를 기반으로 정책을 미세 조정합니다. 이는 실제 환경 노출 없이 안정적으로 추론 능력을 학습하게 합니다.

2.3 학습 과정 (Two-Stage Training)

1 단계 (LBM-Act 학습): 언어 가이드 의사결정 훈련 (Language-guided Decision Training) 을 통해 이중 임베딩 메커니즘을 사용하여 LBM-Act 를 학습시킵니다.
2 단계 (LBM-Think 학습): 학습된 LBM-Act 를 활용하여 GQPO 를 통해 LBM-Think 를 미세 조정합니다.

3. 주요 기여 (Key Contributions)

계층적 LBM 아키텍처: 추론 (Think) 과 행동 (Act) 을 분리하여 LLM 의 추론 능력을 자동 입찰 전략에 효과적으로 통합했습니다.
효율적인 모달리티 융합: 언어와 수치 입력을 동시에 처리하는 이중 임베딩 메커니즘을 제안하여 LLM-Act 의 학습 효율성과 정밀도를 높였습니다.
안정적인 오프라인 미세 조정 (GQPO): 실제 환경 롤아웃 없이 오프라인 Q-값을 기반으로 LLM-Think 의 할루시네이션을 억제하고 추론 능력을 향상시키는 새로운 기법을 제시했습니다.
성능 및 일반화 입증: 대규모 광고 경매 벤치마크에서 기존 RL 및 생성 모델 대비 우수한 성능과 일반화 능력을 입증했습니다.

4. 실험 결과 (Results)

데이터셋: 알리바바에서 제공한 대규모 광고 경매 벤치마크인 AuctionNet (Dense 및 Sparse 버전) 을 사용했습니다.
비교 대상: 기존 오프라인 RL 방법 (USCB, CQL, IQL, BCQ), 생성적 모델 (Decision Transformer, DiffBid), 그리고 다양한 LLM 기반 방법 (Prompting, SFT, GRPO, LLM-DT) 과 비교했습니다.
주요 성과:
- 변환 수 (Conversions) 및 점수 (Score): 제안된 LBM(GQPO) 모델이 모든 베이스라인보다 높은 변환 수와 점수를 기록했습니다. 특히 CPA 제약 조건을 준수하면서 전환을 극대화하는 데 탁월했습니다.
- 일반화 능력: 다양한 예산 설정 (Budget Ratio) 에서도 DT(Decision Transformer) 보다 일관되게 우수한 성능을 보였습니다.
- 추론의 유효성: CPA 비율이 1 을 초과할 때 입찰가를 낮추고, 1 미만일 때 높이는 등, 인간 전문가의 직관과 일치하는 논리적 행동을 LBM-Think 를 통해 잘 수행함을 시각화 (Fig. 2) 를 통해 확인했습니다.
- 학습 효율성: LBM-Act 는 LLM-DT 보다 더 빠른 수렴 속도를 보였으며, 3B 파라미터 규모의 LLM 만으로도 7B, 32B 모델과 유사한 성능을 내어 계산 효율성이 높음을 입증했습니다.

5. 의의 및 결론 (Significance)

이 논문은 자동 입찰 분야에서 LLM 의 추론 능력을 실제 산업 적용에 성공적으로 통합한 선구적인 연구입니다.

블랙박스 문제 해결: LLM 의 언어적 추론을 통해 모델이 "왜" 그 행동을 했는지 (CoT) 를 설명 가능하게 하여 광고주들의 신뢰를 높일 수 있습니다.
실용성: 오프라인 학습과 GQPO 기법을 통해 실제 경매 환경에서의 위험 없이 안전하게 LLM 을 미세 조정할 수 있는 방법을 제시했습니다.
미래 방향: 추론과 행동을 분리한 계층적 구조는 복잡한 의사결정 작업에 LLM 을 적용하는 새로운 패러다임을 제시하며, 향후 더 정교한 자동 입찰 시스템 및 다른 실시간 의사결정 분야로의 확장이 기대됩니다.

요약하자면, LBM 은 **LLM 의 지능 (추론)**과 **전통적 제어 시스템의 정밀도 (행동)**를 결합하여, 기존 자동 입찰 시스템의 한계를 극복하고 더 효율적이고 신뢰할 수 있는 광고 입찰 전략을 가능하게 합니다.

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting