Prism: Cost-Efficient Multi-LLM Serving via GPU Memory Ballooning

Prismは、kvcachedと呼ばれる新しいメモリバルーニング技術を利用して、複数のモデル間でGPUメモリを動的に回収および再割り当てすることで、空間的および時間的な共有を統合し、プロダクション環境におけるコスト効率とSLO遵守を向上させる、メモリ中心のLLM共同サービングフレームワークである。

原著者: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Har
公開日 2026-06-12
📖 1 分で読めます☕ さくっと読める

原著者: Shan Yu, Yifan Qiao, Mingyuan Ma, Yangmin Li, Shuo Yang, Xinyuan Tong, Yang Wang, Zhiqiang Xie, Yuwei An, Shiyi Cao, Ke Bao, Deepak Vij, Xiaoning Ding, Yichen Wang, Qingda Lu, Zhong Wang, Gao Gao, Harry Xu, Junyi Shu, Jiarong Xing, Ying Sheng

原論文は CC BY 4.0 (http://creativecommons.org/licenses/by/4.0/) でライセンスされています。 これは以下の論文のAI生成解説です。著者が執筆または承認したものではありません。技術的な正確性については原論文を参照してください。 免責事項の全文を読む

あなたは、数千もの客室(GPU)と数千もの異なるゲスト(AIモデル)を抱える、巨大なホテルの支配人だと想像してください。中には、24時間年中無休で部屋を欲しがるセレブリティもいれば、一日に一度、10分間のチェックインをするだけの観光客もいます。

問題は、このホテルを運営するコストが非常に高いことです。もし、観光客がいつ現れるかに備えて全員に専用の個室を与えてしまうと、ホテルの90%が空室のままになり、無駄が発生します。しかし、全員を一つの部屋に押し込めようとすると、混乱が生じます。セレブリティたちは待たされることになり、怒り出してしまうでしょう。

Prismは、「メモリ・バルーニング(Memory Ballooning)」というトリックを用いることで、この問題を解決する新しいスマートなホテルマネージャーです。

その仕組みを、シンプルな概念に分解して説明します。

1. 問題点:「固定された部屋」の罠

従来のAIの運用方法では、モデル(ゲスト)に部屋が割り当てられると、そのモデルが眠っている(アイドル状態の)間であっても、その部屋は永久にそのモデル専用のものでした。

  • スペース共有(従来の方法): 複数のゲストを一つの部屋に入れようとする試みです。全員が起きている状態で会話をしているときは非常にうまく機能します。しかし、もし一人のゲストが1週間外出した場合、そのゲストの部屋の半分は空いたままになり、他のゲストがそこを使うことはできません。
  • タイムシェアリング(もう一つの従来の方法): 他のゲストを入れるために、一人のゲストを追い出す方法です。これはゲストが異なる時間にやってくる場合には有効です。しかし、もし二人のゲストが全く同じ瞬間に到着した場合、常にゲストを出し入れしなければならなくなります。この「出し入れ」は時間がかかるため、待ち時間(ラグ)が発生し、ゲストは期限を守れなくなってしまいます。

現実世界のAIトラフィックは混沌としています。ある時はグループのモデルが一斉に忙しくなり、またある時は全員が静かになります。従来の一つの戦略だけでは、この切り替えに対応することはできませんでした。

2. 解決策:「バルーニング」のトリック

Prismは、kvcached(バルーン・ドライバー)と呼ばれる新しいマネージャーを導入しています。GPUメモリを、固定された部屋ではなく、**膨らむ風船(バルーン)**だと考えてください。

  • 弾力性のあるバル風船: モデルが忙しくなり、より多くの思考スペースを必要とすると、マネージャーはそのモデルの風船を膨らませ、現在眠っている他のモデルから空気を奪って膨らませます。
  • 他者のための縮小: モデルが眠りにつくと、その風船は縮み、スペースを解放します。これにより、目を覚ました新しいモデルが即座に自分の風船を膨らませることができます。
  • 家具の移動は不要: 最も素晴らしい点は、モデル側はこの現象に気づかないことです。彼らはただ、魔法のように広がり、縮む部屋を見ているだけです。裏側での重労働はすべてマネージャーが引き受けます。

3. 二段階の戦略

Prismは、誰に「空気(スペース)」を与えるかを決めるために、2つのスマートなルールを使用しています。

  • ルール1:グローバル・スケジューラ(ホテル・マネージャー): ホテル全体を見渡します。「現在、どのグループのゲストが活動中か?」を問いかけます。そして、それらのアクティブなゲストを同じフロア(GPU)に配置し、スペースを簡単に共有できるようにします。もしゲストが眠っている場合は、スペースを空けるために彼らを収納庫(CPU)へと移動させます。ホテルが空いているフロアがある一方で、特定のフロアが過密状態にならないよう、常にホテル内を再編成しています。
  • ルール2:ローカル・スケジューラ(コンシェルジュ): 今まさに来ている具体的なリクエストに注目します。もし二人のゲストが最後のわずかなスペースを奪い合っている場合、コンシェルジュはどちらの期限がより差し迫っているかをチェックします。緊急性の高いゲストを優先的に通し、緊急性の低い方には少し待つように伝えます。これにより、最も重要なタスクが確実に期限内に完了するようにします。

4. 結果

論文では、主要なAIプロバイダーからの現実世界のデータを用いてPrismをテストしました。その結果、以下のことが判明しました。

  • より速いサービス: 従来のメソッドよりも最大3.3倍優れた速度の約束(SLO)を達成しました。
  • コストの削減: 同じレベルのパフォーマンスを得るために、Prismは半分の数のGPUしか必要としませんでした(あるいは、同じハードウェアで2倍のリクエストを処理できました)。
  • 実社会での証明: すでに10,000基以上のGPUを運用するプロダクション環境に導入されており、無駄な「アイドル」時間を課金可能な業務に変えることで、企業がGPUあたりの収益を大幅に向上させることに貢献しています。

まとめ

Prismは、スマートで弾力性のあるホテルのマネージャーのようなものです。ゲストを固定された部屋に閉じ込めたり、絶えず追い出したりする代わりに、膨らむ風船を使ってダイナミックにスペースを共有します。忙しいモデルのためにスペースを広げ、眠っているモデルのためにスペースを縮めることで、誰も待たせることなく、ホテルを常に満席にし、効率的かつ高速に運営します。

自分の分野の論文に埋もれていませんか?

研究キーワードに一致する最新の論文のダイジェストを毎日受け取りましょう——技術要約付き、あなたの言語で。

Digest を試す →