Each language version is independently generated for its own context, not a direct translation.

この論文は、**「ThunderAgent（サンダーエージェント）」**という新しいシステムについて紹介しています。

一言で言うと、**「AI 助手が複雑な作業をするとき、従来のシステムは『混乱して遅くなる』のを防ぎ、爆速で動かすための『優秀な司令塔』」**です。

難しい専門用語を使わず、日常の例え話で解説しますね。

🏠 従来のシステム：「混乱するレストラン」

まず、今の一般的な AI システムがどう動いているか想像してみてください。

あるレストラン（AI システム）で、料理人（AI モデル）が料理を作っているとします。

注文が入る（AI が考える）。
材料を取りに行く（AI が外部ツールを使う）。
材料が来るのを待つ（AI が待機する）。

【今のシステムの悪いところ】

メモリの浪費（KV キャッシュの無駄）：
料理人が材料を取りに行っている間、テーブルに置かれていた「レシピのメモ（思考の履歴）」が、他の客の注文のために捨てられてしまいます。材料が戻ってきたとき、料理人は「あ、メモがない！最初から全部書き直さなきゃ！」と、ゼロからやり直しを余儀なくされます。これが「スループット（処理速度）の低下」の原因です。
厨房の偏り：
厨房（GPU）が複数あっても、「同じ客の注文は必ず同じ料理人に」というルールが厳しすぎます。ある料理人は忙しすぎてパンクするのに、隣の料理人は暇でボーッとしています。
道具の放置：
料理が終わった後、使った鍋や包丁（ツール環境）が片付けられず、厨房に積み重なっていきます。最終的には厨房がゴミで埋め尽くされ、新しい料理が作れなくなります。

⚡ ThunderAgent：「完璧な司令塔」

ThunderAgent は、この混乱を解決する**「プログラム（作業）全体を見通せる司令塔」**として登場します。

1. 「作業」をひとまとめにする（プログラム抽象化）

従来のシステムは「1 つの注文」しか見ていませんでしたが、ThunderAgent は**「1 つのプロジェクト（例：『このコードを直して』という一連の作業）」全体を 1 つの「プログラム」**として扱います。

例え： 料理人が「材料取り中」でも、そのプロジェクトのメモ（思考の履歴）は**「安全な冷蔵庫」**に保管され、捨てられません。戻ってきたとき、メモはそのまま使えます。

2. 賢い待機室（プログラム意識型スケジューラ）

状況判断： 「材料取り中」の料理人が長い間戻ってこない場合、その料理人のメモを一旦「一時停止」して、他の「今すぐ料理できる」料理人に優先的にメモリを回します。
バランス調整： 厨房が混雑しているときは、作業を別の厨房（GPU）に移動させます。「同じ客は同じ料理人」という古いルールを捨て、**「空いている厨房ならどこでも OK」**とすることで、厨房全体のムラをなくします。
結果： 無駄な「ゼロからのやり直し」がなくなり、処理速度が1.5 倍〜3.6 倍にアップします。

3. 自動片付けと事前準備（ツール資源管理）

自動片付け： 作業が終わった瞬間、使った道具（Docker コンテナやネットワーク）を即座に片付けます。厨房がゴミで埋もれるのを防ぎます。
事前準備： 次の料理人が「材料取り」をする前に、**「材料を事前に用意しておく」**仕組みを作りました。料理人が待っている間に準備が完了しているので、待ち時間が激減します。

🚀 どれくらいすごい？

実験結果によると、ThunderAgent は以下のような成果を上げました。

処理速度の向上： 従来のシステムより最大 3.6 倍速い。
メモリ節約： 必要なメモリ容量を最大 4.2 倍節約できる（＝同じハードウェアでより多くの作業をこなせる）。
安定性： 作業が急増しても、システムがパンクせず、安定して動き続ける。

💡 まとめ

ThunderAgent は、AI に「複雑な仕事」をさせる際、**「メモリの無駄遣い」「厨房の偏り」「道具の放置」という 3 つの悩みを解決する、「超効率的な司令塔」**です。

これにより、AI がコードを書いたり、科学の発見をしたりする際、「待たされる時間」が激減し、より安く、より速く、より賢く仕事をこなせるようになります。まるで、混乱していたレストランが、完璧なシェフとマネージャーによって、爆速で最高級の料理を提供するようになるようなものです。

Each language version is independently generated for its own context, not a direct translation.

ThunderAgent: シンプルで高速、かつプログラム認識型のエージェント推論システム

技術的サマリー（日本語）

本論文は、大規模言語モデル（LLM）を活用した複雑なマルチターンエージェントワークフローを効率的に実行するための新しい推論システム「ThunderAgent」を提案しています。既存のシステムが抱える課題を解決し、推論スループットとリソース管理の大幅な改善を実現しています。

1. 背景と問題点

近年、LLM はチャットボットを超え、コード生成やコンピュータ操作など、外部ツール（コンパイラ、検索器など）を呼び出しながら自律的に多段階のタスクを実行する「エージェント」として活用されています。しかし、現在の推論システムは以下の理由から、エージェントワークフローの処理において非効率であり、スループットが低下する傾向にあります。

既存のシステムは、LLM 推論エンジン（例：vLLM）とツールオーケストレーター（例：Kubernetes）を個別に組み合わせる「疎結合」のアプローチを取っています。これにより、以下の 3 つの主要な課題が発生します。

KV キャッシュのスラッシング（Thrashing）:
- エージェントは「推論（Reasoning）」と「行動（Acting/ツール実行）」を交互に行います。
- 既存の「リクエスト単位」のスケジューラは、ツール実行中に LLM 推論が一時停止している間、メモリ圧迫を避けるために KV キャッシュを早期に破棄（エビクト）してしまいます。
- ツール実行が完了し、次の推論ステップに戻る際、履歴全体を再計算（リプリフィル）する必要が生じ、エンドツーエンドのレイテンシが最大で 7.14 倍に増加し、スループットが低下します。
ノード間メモリ不均衡:
- 既存の分散推論システムは、同じエージェントワークフローのリクエストを特定のノードに固定して配置する傾向があります。
- エージェントのコンテキスト長は予測不能に変動するため、一部のノードがメモリ容量限界に達してスラッシングを起こす一方、他のノードは遊休状態になる「メモリ不均衡」が発生し、クラスター全体の効率が低下します。
ツールライフサイクルの無視:
- ツール実行環境（Docker コンテナ、ネットワークポートなど）のライフサイクル管理が LLM 推論と同期していません。
- 完了したタスクの環境が解放されず、ディスク容量やネットワークリソースが枯渇し、システムが不安定化します。また、次の推論開始までの環境準備時間が長引き、レイテンシが増大します。

2. 提案手法：ThunderAgent

ThunderAgent は、エージェントワークフロー全体を「プログラム」として抽象化し、エンドツーエンドの視点からリソースを管理する「プログラム認識型（Program-Aware）」のシステムです。

2.1 プログラム抽象化

エージェントワークフローを「エージェントプログラム」として第一級オブジェクトとして扱います。各プログラムは以下のメタデータを保持し、推論エンジンやツールオーケストレーターから独立して管理されます。

ID: 一意のグローバル識別子
コンテキストトークン数 ( $c$ ): KV キャッシュのメモリフットプリント
ツール環境 ( $T$ ): 必要な外部リソース
配置 ( $L$ ): GPU ノードへの配置情報
実行フェーズ ( $\tau$ ): 「推論中（Reasoning）」か「行動中（Acting）」か
スケジューリング状態 ( $s$ ): 実行中、一時停止、終了

2.2 コストモデルと最適化目標

システムは、GPU リソース消費を「有効な作業（デコード、プリフィル）」と「無駄なオーバーヘッド（再計算、未使用容量、アイドルキャッシュ）」に分解するコストモデルを定義します。

最適化目標: 再計算コスト（ $Cost_{recompute}$ ）、未使用容量コスト（ $Cost_{unused}$ ）、アイドルキャッシュコスト（ $Cost_{caching}$ ）を最小化し、スループットを最大化すること。

2.3 主要なメカニズム

A. プログラム認識型スケジューリング

状態感知の一時停止（State-aware Pausing）:
- GPU メモリ圧迫を検知した際、現在「行動中（ツール実行待ち）」のプログラムを優先的に一時停止（Pause）させます。
- これにより、「推論中」のプログラムの KV キャッシュを保持し、不要なエビクトと再計算を防ぎます。
最短優先エビクト（Shortest-First Eviction）:
- メモリ解放が必要な場合、コンテキスト長（ $c$ ）が短いプログラムからエビクトします。
- 再計算コストはコンテキスト長の二乗に比例するため、短いプログラムをエビクトすることで総コストを最小化します。
グローバル待機キューと動的マイグレーション:
- 全バックエンドノードで共有される「グローバル待機キュー」を導入します。
- 一時停止されたプログラムは、メモリに余裕のある任意のノードに再配置（Restore）され、ノード間のメモリ不均衡を解消します。

B. プログラム認識型ツールリソース管理

ライフサイクル感知ガベージコレクション:
- プログラムが終了（Terminated）した信号を受け取ると、即座に Docker サンドボックスやネットワークポートなどのリソースを解放します。これにより、リソースリークを防ぎます。
非同期環境準備:
- 高優先度のプログラムが実行待機状態にある場合、GPU メモリ割り当て前にツール環境の準備（Docker 起動など）を非同期で行います。これにより、推論開始までの待機時間を隠蔽し、レイテンシを削減します。

3. 評価結果

ThunderAgent は、コーディングエージェント（SWE-Agent, OpenHands）、ルーティングエージェント（ToolOrchestra）、科学発見エージェントなど、多様なワークロードで vLLM や Continuum（既存の SOTA システム）と比較評価されました。

推論スループット:
- 並列ワークフロー数が増大する状況において、1.5 倍〜3.6 倍のスループット向上を実現しました。
- KV キャッシュヒット率は、ツール呼び出し時間が予測可能なタスクではほぼ 100% を維持し、スラッシングを劇的に減少させました。
強化学習（RL）ロールアウト:
- 分散 RL 環境において、1.8 倍〜3.9 倍のロールアウトスループット向上を達成しました。これにより、ポリシーの遅延（Policy Lag）が軽減され、学習の収束が改善されます。
リソース効率:
- ディスクメモリ使用量を最大4.2 倍削減しました（リソースリークの防止による）。
- 環境準備時間の削減により、エンドツーエンドのレイテンシも大幅に改善されました。

4. 貢献と意義

ThunderAgent の主な貢献は以下の通りです。

プログラム抽象化の導入: エージェントワークフローを「リクエスト」ではなく「プログラム」として扱うことで、異種リソース（KV キャッシュ、システム状態、外部ツール）を統一的に管理する基盤を提供しました。
プログラム認識型スケジューラ: KV キャッシュのスラッシングとメモリ不均衡を同時に解決する、状態とコンテキスト長を考慮した最適化アルゴリズムを提案しました。
ツールライフサイクルの統合管理: 推論エンジンとツール環境のライフサイクルを同期させ、リソースリークと準備オーバーヘッドを解消しました。

意義:
本システムは、エージェント推論が「人間との対話」から「自律的な大規模タスク実行」へと移行する中で、スループットとコスト効率を決定づける重要な基盤技術です。特に、RL 学習におけるロールアウト効率の向上は、エージェントの学習速度と最終的な性能向上に直結します。また、オープンソース化（GitHub）により、将来のエージェントシステム開発の標準的なアプローチとして貢献することが期待されます。

ThunderAgent: A Simple, Fast and Program-Aware Agentic Inference System