Each language version is independently generated for its own context, not a direct translation.

快手（Kuaishou）の「広告生成 AI」がどうやって大成功を収めたか

～「GR4AD」という新しい魔法のレシピ～

この論文は、中国の巨大動画プラットフォーム「快手（Kuaishou）」が、「生成 AI」を使って広告をより賢く、速く、そして儲かるようにするための新しいシステム「GR4AD」を開発したというお話しです。

従来のシステムが「過去のデータから似たものを探す」ような働きだったのに対し、この新しいシステムは**「ゼロから新しいアイデアを創造する」**ような働きをします。

専門用語を抜きにして、3 つの重要な工夫（魔法）を使って、どんな仕組みなのかを解説します。

1. 広告の「名前」を新しくつけた（UA-SID）

【比喩：本屋の整理法】

従来のシステムは、広告を「ID 番号（1 番、2 番、3 番…）」で管理していました。これだと、同じ商品でも名前が違うと別物になってしまい、新しい商品（コールドスタート）がおすすめされにくくなります。

GR4AD は、**「意味のある名前（Semantic ID）」**を付けました。

どんな名前？ 「夏場のビーチで飲む冷たいコーラ」や「子供向けのおもちゃ」のように、広告の内容や特徴を言葉で理解した上で、短いコード（ID）に変換します。
魔法のテクニック：
- AI 先生に教える（Instruction Tuning）： AI に「この動画の主人公は誰？」「どんな商品が売りたいの？」と質問して、広告の本当の姿を理解させました。
- 衝突防止（MGMR）： 同じような商品が大量に存在すると、名前が被ってしまいます。そこで、「大きな箱（上位）」と「小さな箱（下位）」を組み合わせるような工夫をして、どの箱も無駄なく使えるようにしました。

結果： 広告の「顔」がはっきりし、ユーザーにぴったり合う広告を見つけやすくなりました。

2. 考えるスピードを劇的にアップ（LazyAR）

【比喩：料理の工程】

生成 AI は通常、**「1 文字ずつ順番に考えて」**文章（ここでは広告のリスト）を作ります。これを「自動回帰」と言いますが、1 文字ずつ考えるのは時間がかかります。

GR4AD は、**「LazyAR（怠け者自動回帰）」**という新しい考え方を導入しました。

どうやって？
- 最初の数文字（最初の 2〜3 行）は、慎重に丁寧に考えます。ここが一番重要だからです。
- しかし、その後の部分は**「最初の数文字の考え方をベースに、並行して一気に考えます」**。
- 例えるなら： 料理の「下準備（野菜を切る）」は丁寧にしますが、メインの「炒める」工程は、複数の鍋を同時に使って一気に済ませるようなものです。
効果： 品質を落とさずに、処理速度を 2 倍にしました。これにより、1 秒間に 500 人以上のユーザーに瞬時に広告を提示できるようになりました。

3. 「儲かる順」に並び替える学習（VSL & RSPO）

【比喩：優秀な店員のトレーニング】

AI に「広告を出せ」と言っても、ただランダムに出すだけでは意味がありません。「クリックされやすい順」や「お金になる順」に並べる必要があります。

GR4AD は、2 つのトレーニング方法を組み合わせています。

VSL（価値を知る学習）： 「ユーザーが何を好むか」を過去のデータから学びます。
RSPO（ランキングの魔法）： 単に「正解」を教えるだけでなく、**「このリストの順番が、利益（eCPM）を最大化する順番か？」**という視点で、AI 自身に「もっと良い順番を考え直せ！」と指導します。

魔法の仕組み：

AI が「あ、この順番だと利益が出ないな」と気づいたら、すぐに修正します。
さらに、「混雑している時」と「暇な時」で、考える量（ビーム幅）を自動調整します。
- 混雑時： 速さを優先して、必要な分だけ考える。
- 暇な時： 時間をかけて、より良いアイデアをたくさん探して、リストの質を高める。

実際の成果：どれくらいすごいのか？

このシステムを実際の快手（Kuaishou）の広告システム（4 億人以上のユーザー）に導入したところ、驚くべき結果が出ました。

広告収入が最大 4.2% 増加： 既存のシステムと比べて、これだけ儲かるようになりました。
スピードも速い： 1 回の広告表示に 100 ミリ秒（0.1 秒）以下で応答。
すべての関係者がハッピー：
- ユーザー： 興味のある広告しか見なくなるので、ストレスが減りました。
- 広告主： 特に中小企業の広告が、より多くの人に見られるようになりました。
- プラットフォーム： 収益が上がり、システムも安定しました。

まとめ

GR4AD は、「広告の理解力（UA-SID）」、「思考のスピード（LazyAR）」、そして**「利益を最大化する判断力（RSPO）」**をすべて組み合わせた、実用性の高い AI です。

「生成 AI」が単なるチャットボットや絵描きだけでなく、**「大規模なビジネスの現場で、リアルタイムに価値を生み出す」**ことができることを証明した、画期的な研究と言えます。

Each language version is independently generated for its own context, not a direct translation.

大規模広告向け生成推薦システム「GR4AD」の技術的サマリー

本論文は、快手（Kuaishou）技術社によって提案された、大規模かつリアルタイムな広告推薦システム向けに設計された生成型推薦モデル**「GR4AD (Generative Recommendation for ADdvertising)」**について詳述したものです。従来の深層学習推薦モデル（DLRM）から生成型モデルへの移行において、広告特有の課題（複雑なビジネス情報、厳格なレイテンシ制約、リスト全体の最適化など）を解決するための、アーキテクチャ・学習・サービングを横断的に共設計（co-design）したプロダクション向けシステムを提案しています。

以下に、問題定義、手法、主要な貢献、結果、および意義について詳細をまとめます。

1. 背景と問題定義

生成型推薦（Generative Recommendation）は、スケーラビリティとモデル能力の観点から注目されていますが、大規模広告システムへのリアルタイム導入には以下の課題が存在します。

広告トークナイズの難易度: 広告コンテンツは動画、商品詳細、広告主メタデータ（B2B 情報）が融合しており、単なる意味的 ID（Semantic ID）では捉えきれません。また、コンバージョンタイプや広告アカウント ID といった「意味を持たないビジネスシグナル」をどう統合するかが課題です。
学習パラダイムのミスマッチ: 広告推薦は、個々のアイテムの精度だけでなく、eCPM（広告主視点の収益）や NDCG（リスト全体のランキング品質）といったリストレベルのビジネス目標を最適化する必要があります。従来の LLM 風の逐次予測（Per-item supervision）ではこれを十分に捉えられません。
リアルタイムサービングの制約: 対話型 LLM と異なり、広告システムは高トラフィック下で厳格なレイテンシ制約（数十ミリ秒）の中で、複数の高品質な候補を生成する必要があります。既存の LLM 推論最適化だけでは対応が困難です。

2. 提案手法：GR4AD

GR4AD は、表現（Tokenization）、学習（Learning）、サービング（Serving）の 3 つの側面で広告システムに特化した設計を行っています。

2.1 表現層：統一広告意味 ID (UA-SID)

Unified Advertisement Embedding (UAE):
- 実世界の広告クリエイティブに基づき、指示微調整（Instruction Tuning）と共起学習（Co-occurrence Learning）を施したマルチモーダル LLM（MLLM）を基盤に使用します。
- ライブ配信者のプロフィール、地理情報、商品カテゴリー、ブランド情報など、多様なコンテキストを統合的に理解させます。
Multi-Granularity-Multi-Resolution (MGMR) RQ-Kmeans:
- 意味情報と、意味を持たないビジネス情報（変換タイプ、アカウント ID など）を分離して処理します。
- 下位レベルでは大きなコードブックで主要な意味因子を捉え、上位レベルでは残差をモデル化します。
- 最終層ではベクトル量子化の代わりに、ハッシュベースの数値マッピングを採用し、広告システム特有の「同じコンテンツでも広告主や変換タイプで配信軌道が異なる」ケースにおける ID 衝突（Collision）を大幅に低減し、コードブックの利用率を向上させます。

2.2 学習層：価値意識型オンライン学習

Value-Aware Supervised Learning (VSL):
- 従来のクロスエントロピー損失に加え、eCPM を離散化してトークンとして予測させることで、ビジネス価値を直接モデルに組み込みます。
- ユーザーの長期的価値や行動の深さ（クリック vs 購入）に基づいた重み付けを行い、高価値なサンプルへの学習を強化します。
Ranking-Guided Softmax Preference Optimization (RSPO):
- 個々のアイテムではなく、**リスト全体のランキング（NDCG）**を最適化する強化学習アルゴリズムです。
- Lambda 枠組みを参考に、生成された候補リスト内の相対的な順序に基づいて損失を計算します。
- オンライン学習環境において、VSL（ユーザー興味分布の模倣）と RSPO（高価値アイテムへの探索）を動的にバランスさせる統合学習フレームワークを構築しました。

2.3 推論・サービング層：効率最適化

Lazy Autoregressive Decoder (LazyAR):
- 従来の自己回帰（Autoregressive）では、各ステップで前のトークンに依存するため計算コストが高いですが、広告では最初のトークン（最も重要）と後続のトークン（比較的容易）で難易度が異なります。
- LazyARは、最初の $K$ 層をすべての候補（ビーム）に対して並列計算し、その後に前のトークンの埋め込みを注入（Late-Inject）する方式を採用します。
- これにより、モデルサイズを増やすことなく、推論スループットを大幅に向上させつつ、精度を維持します。
Dynamic Beam Serving (DBS):
- Dynamic Beam Width (DBW): 生成の段階に応じてビーム幅を動的に変更（例：初期は狭く、後期は広く）し、計算リソースを効率的に配分します。
- Traffic-Aware Adaptive Beam Search (TABS): トラフィックのピーク時とオフピーク時に応じてビーム幅を調整し、オフピーク時には探索範囲を広げて収益を最大化します。
- 結果キャッシュ: 短時間内の重複リクエストに対してキャッシュを適用し、推論負荷を削減します。

3. 主要な貢献

広告特化の生成型推薦アーキテクチャ: 広告の複雑なビジネスロジック（意味的・非意味的情報の融合）を扱うための UA-SID と MGMR 量子化手法を提案。
リストレベル最適化の RL アルゴリズム: 従来の DPO や GRPO を超え、広告のリスト全体（eCPM/NDCG）を直接最適化する RSPO と、それを VSL と統合するオンライン学習フレームワークを確立。
推薦システム向けの推論効率化: 広告の「短く多候補」生成という特性に特化した LazyAR デコーダと、動的ビームサービング手法により、厳格なレイテンシ制約下での高スループットを実現。
大規模実証: 4 億人以上のユーザーを抱える快手の広告システムに完全デプロイされ、実環境での効果を検証。

4. 実験結果

快手の広告システムにおける大規模なオンライン A/B テストにより、以下の成果が確認されました。

収益向上: 既存の DLRM ベースのシステムと比較して、広告収益が最大 4.2% 向上しました。
スケーラビリティ:
- モデルスケール: パラメータ数を 0.03B から 0.32B に増やすと、収益向上率が 2.13% から 4.43% へと単調に増加しました。
- 推論スケール: ビーム幅を 128 から 1024 に広げると、収益がさらに向上し、推論時の探索がビジネス価値に直結することが示されました。
効率性:
- LazyAR の採用により、QPS（1 秒あたりのクエリ数）が約 2 倍（+117%）向上し、レイテンシは 100ms 未満を維持しました。
- 1 台の L20 GPU あたり 500 以上の QPS を達成し、高トラフィック下でも安定したサービングを実現しています。
生態系への貢献: 中小広告主の配信量が 17.5% 増加し、ユーザーの広告コンバージョン率は 10.17% 向上しました（アクティブでないユーザーでも 7.28% 増加）。

5. 意義と結論

GR4AD は、生成型 AI を広告推薦に応用する際の「LLM 的なトレーニング/サービングレシピの単純な移植」ではなく、広告ドメイン固有の制約と目標に合わせた共設計の重要性を示しました。

ビジネス価値との整合性: 単なる精度向上ではなく、eCPM やリスト全体のランキング品質を直接最適化する学習手法（VSL + RSPO）により、生成モデルを実際の収益向上に結びつけました。
実用性の確保: 厳格なレイテンシ制約下でも高品質な生成を実現するための推論最適化（LazyAR, DBS）により、大規模実環境でのデプロイを可能にしました。

本論文は、大規模広告システムにおける生成型推薦の実用化における新たな基準を示し、継続的な学習、コスト意識のある推論制御、および実世界での制約最適化に関する将来の研究の方向性を示唆しています。

Generative Recommendation for Large-Scale Advertising