LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

이 논문은 자동 입찰의 복잡성과 기존 방법의 한계를 해결하기 위해 추론과 행동을 계층적으로 분리하고, 언어와 수치 데이터를 융합하는 이중 임베딩 메커니즘과 환각을 줄이는 GQPO 오프라인 강화 미세조정 기법을 도입한 'LBM'을 제안하여 동적 광고 환경에서 뛰어난 일반화 성능과 효율적인 학습을 달성함을 보여줍니다.

Yewen Li, Zhiyi Lyu, Peng Jiang, Qingpeng Cai, Fei Pan, Bo An, Peng Jiang

게시일 2026-03-06
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🚀 광고 입찰의 새로운 혁명: "생각하는 AI"와 "행동하는 AI"의 팀워크

이 논문은 온라인 광고 시장에서 광고주가 얼마나 효과적으로 입찰 (Bidding) 을 해야 할지 결정하는 새로운 인공지능 (AI) 모델을 소개합니다. 이 모델의 이름은 **LBM(Hierarchical Large Auto-Bidding Model)**입니다.

기존의 방법들이 가진 문제점과 이 새로운 모델이 어떻게 해결책을 제시하는지, 쉬운 비유로 설명해 드릴게요.


1. 왜 새로운 것이 필요한가요? (기존의 문제점)

과거에는 광고 입찰을 사람이 직접 조정했습니다. 하지만 광고 경매가 너무 빨라지고 경쟁이 치열해져서 사람이 따라가기 힘들어졌습니다. 그래서 자동 입찰 (Auto-bidding) 시스템이 등장했습니다.

하지만 기존 자동 입찰 시스템 (강화학습 등) 은 두 가지 큰 약점이 있었습니다.

  • 블랙박스 (Black-box) 문제: "왜 이렇게 입찰했지?"라고 물어봐도 시스템이 이유를 설명해주지 못합니다. 마치 운이 좋은 기계처럼 행동하다가, 갑자기 예산을 다 써버리거나 반대로 광고를 전혀 못 띄우는 이상한 행동을 하기도 합니다.
  • 데이터의 한계: 과거 데이터만 보고 학습하기 때문에,从未 겪어본 새로운 상황 (예: 갑자기 경쟁자가 등장하거나 시장이 변할 때) 에는 제대로 대응하지 못합니다.

2. LBM 의 핵심 아이디어: "생각하는 팀"과 "행동하는 팀"

이 논문은 거대 언어 모델 (LLM, 우리가 ChatGPT 같은 AI 를 생각하면 됩니다) 을 활용하되, 두 명의 전문가로 팀을 구성했습니다. 마치 명예로운 전략가신속한 실행자가 함께 일하는 것과 같습니다.

👨‍💼 1 단계: LBM-Think (전략가)

  • 역할: 과거의 입찰 기록, 예산使用情况, 경쟁 상황을 꼼꼼히 분석합니다.
  • 행동: "지금 예산이 너무 많이 남았네?", "CPA(광고 단가) 가 너무 비싸진 것 같아?"라고 **생각 (Reasoning)**하고, **"다음에는 입찰가를 살짝 올려야겠다"**거나 **"내려야겠다"**는 **방향성 (Chain-of-Thought)**을 언어로 작성합니다.
  • 특징: 이 과정은 실시간으로 즉각적으로 할 필요 없이, 다음 단계가 시작되기 전에 미리 ** asynchronously(비동기적으로)** 수행할 수 있습니다. 즉, "생각할 시간"을 충분히 가집니다.

🏃‍♂️ 2 단계: LBM-Act (실행자)

  • 역할: 전략가 (Think) 가 작성한 "방향성"과 현재의 숫자 데이터 (실시간 입찰가, 예산 등) 를 받아서 정확한 입찰 금액을 결정합니다.
  • 행동: "전략가가 입찰가를 올리라고 했고, 현재 예산이 충분하니, 입찰가를 10.5 원으로 설정하자"라고 즉각적인 행동을 취합니다.
  • 특징: 숫자 데이터와 언어 지시를 동시에 이해할 수 있도록 특별히 설계되었습니다.

💡 비유:
마치 **선장 (Think)**이 바다의 날씨와 항로를 보며 "앞으로 동쪽으로 항해하자"라고 지시하고, **선원 (Act)**이 그 지시를 받아 실제로 돛을 올리는 각도와 속도를 조절하는 것과 같습니다. 선장은 복잡한 상황을 분석하고, 선원은 그 분석을 바탕으로 정밀한 조작을 합니다.

3. 어떻게 훈련시키나요? (두 가지 혁신 기술)

이 모델을 어떻게 가르쳤을까요? 두 가지 독특한 기술을 사용했습니다.

🔗 기술 1: "이중 임베딩" (Dual Embedding)

  • 문제: AI 가 숫자 (예: 12.34) 를 언어로 바꾸면 토큰 (문자 단위) 이 너무 많이 필요해서 처리가 느리고 비효율적입니다.
  • 해결: 언어 (전략가의 지시) 와 숫자 (현실 데이터) 를 서로 다른 방식으로 처리하되, AI 가 이 두 가지를 자연스럽게 섞어서 이해할 수 있게 만들었습니다.
  • 비유: 요리사가 **레시피 (언어)**와 **재료의 무게 (숫자)**를 동시에 보고 요리를 할 때, 레시피는 눈으로 읽고 무게는 저울로 재되, 두 정보를 뇌에서 하나로 통합하여 요리를 완성하는 것과 같습니다.

🎓 기술 2: "GQPO" (실전 연습 없이 실력 향상)

  • 문제: AI 가 "생각"을 할 때 엉뚱한 소리 (할루시네이션) 를 하거나 잘못된 전략을 세울 수 있습니다. 보통은 실제 광고 시장에 나가서 실험해보며 학습시키는데, 광고 시장에서 실수하면 돈이 날아가는 위험이 있습니다.
  • 해결: 실제 시장에 나가지 않고, **과거 데이터 (오프라인)**만으로 AI 의 "생각 (CoT)"이 좋은 결과를 낼지 시뮬레이션하여 점수를 매겨 가르쳤습니다.
  • 비유: 비행 조종사를 훈련할 때, 실제 하늘을 날게 하지 않고 비행 시뮬레이터에서 "이런 상황에서 이렇게 생각하면 안전하다"라고 가르쳐서, 실제 비행 시 실수를 줄이는 것과 같습니다.

4. 결과는 어떨까요?

실험 결과, 이 LBM 모델은 기존 방법들보다 훨씬 뛰어난 성능을 보였습니다.

  • 더 많은 전환 (Conversion): 예산을 더 효율적으로 써서 더 많은 광고 효과를 얻었습니다.
  • 더 안전한 행동: 예산을 너무 일찍 다 써버리거나, 반대로 아껴서 광고를 못 띄우는 등의 실수가 줄었습니다.
  • 유연한 대응: 새로운 상황에서도 과거의 지식을 바탕으로 잘 대처했습니다.

📝 요약

이 논문은 "생각하는 AI(전략가)"와 "행동하는 AI(실행자)"를 분리해서 팀을 구성함으로써, 광고 입찰이라는 복잡한 게임을 훨씬 더 똑똑하고 안전하게 플레이하게 만들었습니다.

  • 기존: 블랙박스처럼 막연하게 행동.
  • 새로운 LBM: 먼저 생각해서 방향을 잡고, 그 다음 행동해서 정밀하게 실행.

이처럼 **이성 (Reasoning)**과 **행동 (Acting)**을 분리하고 협력하게 한 것이, 광고 시장의 새로운 표준이 될 수 있는 혁신적인 접근법입니다.