Each language version is independently generated for its own context, not a direct translation.

この論文は、**「AgentServe（エージェントサーブ）」**という新しいシステムについて書かれています。

一言で言うと、**「安価な家庭用パソコンのグラフィックボード（GPU）でも、複数の AI アージェントが同時に働いても、カクつかずにスムーズに動くようにする技術」**です。

これを、誰でもわかるような「レストランの厨房」や「交通渋滞」の例えを使って説明しますね。

1. 背景：なぜ今、問題が起きているのか？

最近、AI はただ「チャット」をするだけでなく、**「AI アージェント」**として、自分で考えて道具を使ったり、検索したりするようになっています。
例えば、「天気予報を調べて、傘が必要なら傘屋さんに注文して」といったタスクです。

従来のチャットボット： 長い文章を入力して、長い文章を返す。
新しい AI アージェント： 「考える（長い入力）」→「道具を使う（短い出力）」→「また考える」→「また道具を使う」という短いサイクルを高速で繰り返します。

【問題点：厨房の混乱】
これを家庭用の小さなキッチン（1 枚の GPU）で、複数の料理人（複数の AI アージェント）が同時に働こうとすると、大変なことになります。

重い作業（Cold Prefill）： 新しい注文が入ると、レシピ（システム指示）を読み込んで準備する作業が必要です。これは**「大きな鍋でスープを煮込む」**ような作業で、時間がかかります。
軽い作業（Decode）： 一度準備ができると、次は「お皿に盛り付ける」作業です。これは**「スプーンで一口分ずつ出す」ような作業で、短くて速いですが、「一定のリズムで出さないと客が怒る」**という性質があります。

【何が起きるか？】
「スープを煮込む（重い作業）」をしている間に、「盛り付け（軽い作業）」を待っている料理人が大勢いると、**「先頭行列の渋滞（Head-of-Line Blocking）」**が起きます。
スープ鍋が占領されている間、盛り付けが止まり、客（ユーザー）は「なぜ出てこないんだ！」とイライラします。これが、AI の応答が遅くなったり、止まったりする原因です。

2. AgentServe の解決策：3 つの工夫

この論文の「AgentServe」は、この混乱を解決するために、3 つの賢い工夫を考案しました。

① 作業の「仕切り」と「優先権」

厨房を大きく分けます。

「スープ鍋エリア（Cold Prefill）」： 重い準備作業をここで集中させます。
「盛り付けエリア（Decode）」： 客に届ける作業をここで守ります。

【工夫】
「盛り付けエリア」には、**「絶対に邪魔されない優先席」**を確保します。たとえスープ鍋が忙しくても、盛り付けの作業だけは止まらないようにします。これにより、ユーザーは「AI が反応している」という感覚（トークンの流れ）を失いません。

② 「中くらいの作業」の制限（Resume Prefill）

「スープの味付けを少し足す（ツールの結果を追加する）」ような、中くらいの作業もあります。

工夫： これを無制限に許すと、盛り付けエリアが圧迫されます。そこで、**「今、盛り付けが忙しければ、中くらいの作業は少し待て」という「予算（制限）」を設けます。忙しければ制限を厳しくし、余裕があれば少し許すという、「状況に合わせて自動調整する」**仕組みです。

③ 厨房の「専用コンテナ」の使い分け（CUDA Green Contexts）

これが技術的なキモです。
通常、厨房のスペース（GPU の計算能力）を分けると、切り替えに時間がかかり、効率が落ちます。

工夫： AgentServe は、**「最初から 10 個の専用コンテナ（Green Context）」**を用意しておきます。
- 「10% 分だけ使うコンテナ」
- 「40% 分だけ使うコンテナ」
- 「100% 使うコンテナ」
  など、サイズが決まったコンテナを事前に作っておき、状況に合わせて**「瞬時にコンテナを差し替える」ことができます。
  これにより、重い作業と軽い作業を、「コンテナを交換するだけで」**スムーズに切り替え、待ち時間をほぼゼロにします。

3. 結果：どれくらい速くなった？

実験の結果、このシステムを使うと：

最初の反応（TTFT）： 最大で2.8 倍速くなりました。
その後の流れ（TPOT）： 最大で2.7 倍スムーズになりました。

つまり、**「家庭用の安価な GPU でも、複数の AI が同時に働いても、カクつかずに快適に使える」**ことを証明しました。

まとめ

この論文は、**「AI が賢くなりすぎて、厨房がパンクしそうになる」という問題を、「作業を分ける」「優先席を作る」「事前に準備されたコンテナを素早く使い分ける」**という、とても合理的な方法で解決したという話です。

これにより、高いサーバーを買わなくても、個人のパソコンやロボットの頭脳の中で、複数の AI が安定して働ける未来が近づいたと言えます。

Each language version is independently generated for its own context, not a direct translation.

AgentServe: 消費者向け GPU における効率的なエージェント型 AI 推論サービングのためのアルゴリズム・システム共設計

本論文は、大規模言語モデル（LLM）を AI エージェントとして展開する際の課題、特に単一の消費者向け GPU上で複数のエージェントを同時に実行する際の遅延安定性とスループットの両立を解決するシステム「AgentServe」を提案しています。

以下に、問題定義、手法、主要な貢献、評価結果、および意義について詳細にまとめます。

1. 背景と問題定義

エージェントワークロードの特性

従来のチャットボットとは異なり、AI エージェントは「推論 - 行動」の短いループで動作し、モデル計算と外部ツール呼び出しを交互に実行します。このワークロードには以下の特徴があります。

コールドプリフィル（Cold Prefill）: 長いシステムプロンプトやツール定義を含む最初の推論フェーズ。計算集約的で、KV キャッシュが未構築のためリソースを独占します。
リザームプリフィル（Resume Prefill）: ツールの出力や追加指示をキャッシュされたコンテキストに付加するフェーズ。
ショートデコード（Short Decode）: 構造化された出力（関数呼び出しやルーティングトークンなど）を生成するフェーズ。トークン数は少ないが、低遅延かつ安定したトークン生成が不可欠です。

課題：ヘッド・オブ・ライン（HoL）ブロッキング

単一 GPU 上でこれらの異なるフェーズが混在すると、重い「コールドプリフィル」が GPU 計算リソース（SM: Streaming Multiprocessors）とメモリ帯域幅を独占し、遅延に敏感な「ショートデコード」をブロックします。

これにより、新しいリクエストの初回トークン到達時間（TTFT）が悪化し、進行中のストリームのトークン生成間隔（TPOT）が不安定になります。
エージェントの場合、デコードの遅延は次のツール呼び出しを遅らせ、結果としてエンドツーエンドのタスク遅延が累積して増幅されるため、この問題は特に深刻です。

既存の分散推論システム（PD 分離など）やチャンク化プリフィルは、単一 GPU 環境や消費者向けハードウェアの制約下では、オーバーヘッドが大きすぎたり、短デコードの保護が不十分だったりする問題がありました。

2. 提案手法：AgentServe

AgentServe は、アルゴリズムとシステムの共設計により、単一エンジン内でプリフィルとデコードを分離・制御するシステムです。

3.1 システムアーキテクチャ

システムは 3 つのレイヤーで構成されます。

アプリケーションレイヤー: LangChain や AutoGen などのエージェントフレームワークからリクエストを受け付けます。
オーケストレーションレイヤー（CPU 側）:
- リクエスト管理: 入力リクエストを「コールドプリフィル」「リザームプリフィル」「デコード」に分類します。
- リソース感知スケジューラ（TPOT 駆動）: デコードの遅延（TPOT）を監視し、動的にリソース配分を調整します。
実行レイヤー（GPU 側）:
- CUDA Green Context による分離: 事前に作成された CUDA Green Context を使用し、プリフィルとデコードを異なる SM 領域で実行します。これにより、デコードがプリフィルによってスターブ（飢餓）されるのを防ぎます。
- メモリ管理: 両スレッドが同じ KV キャッシュを共有し、不要な転送オーバーヘッドを排除します。

3.2 アルゴリズム：リソース感知スケジューリング

スケジューラは、デコードの安定性を維持しつつ、プリフィルの処理を進めるために以下の 2 つの制御変数を動的に調整します。

リザームプリフィルのトークン予算 ( $B_{prefill}$ ): デコードと並行して実行可能なリザームプリフィルの最大長を制限します。
デコード用 SM 予約数 ( $R_{min}$ ): デコードに保証する最小の SM 数を設定します。

制御ロジック:

測定された TPOT が閾値を超えた場合（遅延が発生している）、 $B_{prefill}$ を縮小し、 $R_{min}$ を増やしてデコードを保護します。
TPOT が余裕がある場合は、 $B_{prefill}$ を拡大し、 $R_{min}$ を減らしてプリフィルの処理量を増やします。
これにより、デコードの SLO（サービスレベル目標）を満たしつつ、可能な限りプリフィルのスループットを最大化します。

3.3 理論的保証

論文では、AgentServe のスケジューリングアルゴリズムが、デコード SLO を満たす制約下でのオフライン最適解に対する**競争比（Competitive Ratio）**を保証することを示しています。具体的には、SM 割り当ての離散性や制御オーバーヘッドによる損失が限定されており、AgentServe は最適なプリフィルスループットの一定割合を維持できることが証明されています。

3. 主要な貢献

リソース感知スケジューリングアルゴリズムの提案:
- リクエストの隔離と TPOT 駆動の適応制御を組み合わせ、プリフィルの干渉を抑制しつつ、遅延クリティカルなデコードを保護します。
- デコード SLO 制約下でのプリフィルスループット損失の理論的上限（競争比分析）を提供しました。
軽量なリソース管理メカニズムの設計:
- 事前確立された CUDA Green Context スロットと共有メモリ協調を用いて、単一エンジン内での効率的なリソース分離を実現しました。これにより、プロセス間通信や KV 転送のオーバーヘッドを回避しています。
AgentServe システムの実装と評価:
- 消費者向け GPU 上で複数のツール拡張型 SLM エージェントを同時に実行するための単一 GPU 推論システムを構築しました。
- 複数のモデル（Qwen2.5, LLaMA-3）とハードウェア（RTX A5000, RTX 5090）での包括的な評価を行いました。

4. 評価結果

実験は、Qwen2.5-3B/7B および LLaMA-3-8B を、RTX A5000（ミドルレンジ）と RTX 5090（ハイエンド）上で実行し、3〜6 個の同時エージェントを想定したワークロードで評価しました。

TTFT（初回トークン到達時間）の改善:
- 最先端のベースライン（SGLang, vLLM, llama.cpp）と比較して、最大 2.8 倍 の改善を達成しました。特に重いプリフィルが発生する条件下で顕著です。
TPOT（出力トークンあたりの時間）の改善:
- トークン生成の安定性が向上し、最大 2.7 倍 の改善を達成しました。これにより、エージェントの「推論 - 行動」ループがスムーズに実行されます。
スループットの維持:
- 遅延を改善しながらも、競合ベースラインと比較して同等かそれ以上のスループットを維持しました（vLLM 比で 1.2〜1.5 倍、llama.cpp 比で 2.0〜2.2 倍）。
SLO 達成率:
- TTFT と TPOT の両方の要件を満たすセッションの割合（SLO 達成率）が、高同時実行数（6 エージェント）においても AgentServe が最も高く、他のシステムが急激に劣化する状況でも安定していました。
アブレーション研究:
- 「動的スケジューリング（No-Alg）」や「Green Context 分離（No-Green）」を無効化した場合、遅延が大幅に悪化することが確認され、両方の要素が不可欠であることが示されました。

5. 意義と結論

AgentServe は、プライバシーやコストの制約からローカル環境（消費者向け GPU）で AI エージェントを実行する際の重要なボトルネックを解決します。

技術的意義: 単一 GPU 上で、計算集約的なプリフィルと遅延敏感なデコードを、高度なオーバーヘッドなしに分離・制御する新しいパラダイムを示しました。
実用性: 企業、ロボティクス、車両システムなど、データ主権や低コストが求められる場面で、安定したエージェント型 AI の展開を可能にします。
将来展望: 本アプローチは、単一デバイスでのエッジ AI 推論の効率化だけでなく、リソース制約のある環境におけるエージェントワークロードのシステム設計指針としても重要です。

要約すると、AgentServe は「アルゴリズム的な動的制御」と「システムレベルの GPU リソース分離」を組み合わせることで、単一消費者向け GPU 上でも、複数の AI エージェントが安定して、低遅延で動作することを可能にした画期的なシステムです。

AgentServe: Algorithm-System Co-Design for Efficient Agentic AI Serving on a Consumer-Grade GPU