Each language version is independently generated for its own context, not a direct translation.

🚀 Zipage: 巨大な AI の「記憶」を圧縮して、何百人もの人と同時に会話させる技術

この論文は、最近話題の「推論（Reasoning）」ができる巨大な AI（大規模言語モデル）が、**「何百人ものユーザーと同時に会話しても、遅くなったり止まったりしないようにする」**ための新しい技術「Zipage」を紹介しています。

まるで、**「狭い部屋に何百人もの人を入れて、全員が同時に長話をしても、部屋がパンクしないようにする」**ような話です。

🧠 問題：AI の「記憶」が部屋を埋め尽くす

AI が会話をするとき、過去の文脈（何と言ったか）を覚えておく必要があります。これを専門用語で**「KV キャッシュ（メモリの断片）」**と呼びます。

普通の AI（Full KV）： 会話が進むたびに、過去のすべての記憶を「新しいメモ帳」に書き足していきます。
問題点： 会話（推論）が長くなると、メモ帳の数が爆発的に増えます。
- 想像してください。1 人のユーザーと 1 時間会話するだけで、メモ帳が 100 冊も必要になったらどうなるでしょう？
- GPU（AI の頭脳）のメモリという「部屋」は限られています。メモ帳が増えすぎると、部屋がいっぱいになり、**新しいユーザーを受け入れられなくなります。**これが「高同時接続」の壁です。

✂️ 解決策：Zipage と「圧縮されたページ Attention」

この論文の著者たちは、**「Zipage」という新しいシステムを開発しました。その核心は「Compressed PagedAttention（圧縮されたページ Attention）」**という技術です。

🏠 アナロジー：「図書館の整理術」

Zipage の仕組みを、**「限られたスペースの図書館」**に例えてみましょう。

ページ管理（PagedAttention）：
昔のシステムは、1 人の利用者が本を読むたびに、新しい棚を 1 つずつ用意していました。
Zipage は、**「本を小さなブロック（ページ）に分けて、空いている棚に自由に配置する」**方式を使います。これにより、メモリの無駄がなくなります。
賢い捨て方（Token-wise Eviction）：
ここが最大の工夫です。
- 従来の方法： 「古いページごと全部捨てる」か、「最初から全部残す」のどちらかでした。
- Zipage の方法： 「1 行 1 行（トークンごと）の重要度をチェックして、不要な部分だけを捨てます。」
  - 例：「昨日の天気は雨でした」という文脈で、「昨日」や「雨」は重要ですが、「でした」の部分は少し前の話なら捨てても大丈夫かもしれません。
  - Zipage は、「今、ユーザーが注目している部分（直近の会話）」は絶対に残しつつ、それ以外の「あまり重要でない過去の記憶」だけを細かく削ぎ落として圧縮します。
結果：
- 1 人のユーザーが使うメモリの上限が決まります（例：最大 4 冊のメモ帳まで）。
- いくら会話が続いても、メモリの量は一定に保たれます。
- そのおかげで、同じ部屋（GPU）に、これまでより 2 倍以上のユーザーを同時に招き入れることができます。

⚡ さらに速くする 3 つの魔法

Zipage は単に捨てるだけでなく、以下の 3 つの工夫でスピードを最大化しています。

1. 🏃‍♂️ 並走する「圧縮」と「会話」（非同期処理）

昔：圧縮作業（不要な記憶を捨てる）をしている間、AI は会話（トークンの生成）を止めて待っていました。
Zipage： **「圧縮は裏で、会話はお前！」**と並行して行います。
- 例：料理人が「野菜を切る（圧縮）」作業をしている間、別の人が「炒める（会話）」作業を続けるイメージです。待ち時間がなくなり、全体が劇的に速くなります。

2. 🤝 共有された「共通の知識」（プレフィックスキャッシュ）

シチュエーション： 100 人のユーザーが、同じ「こんにちは、数学の問題を解いて」という言葉で始まる質問をします。
Zipage： 「こんにちは、数学の…」という最初の部分は、全員で 1 つのメモ帳を共有します。
- 100 人分作らずに済むので、メモリが節約され、さらに多くの人が同時に利用できます。

3. 🎛️ 賢い「待ち行列の管理」（ハイブリッドスケジューリング）

問題： 短い質問をする人が混じっていると、長い質問をしている人が邪魔をして、短い質問の人が待たされることがありました。
Zipage： 「短い質問なら、メモリの制限を少し緩めて優先的に通す」「長い質問は、圧縮をしながら順番に処理する」という柔軟なルールで、待ち時間を最小化します。

📊 どれくらいすごいのか？

実験結果は驚異的です。

速度： 数学やプログラミングの難しい問題を解くタスクで、従来のシステムより 2.1 倍速く処理できました。
精度： 速度を上げても、答えの正解率は 95% 以上を維持しました（ほぼ劣化なし）。
同時接続： 限られた GPU 資源で、2 倍以上のユーザーを同時に受け入れることができました。

🎯 まとめ

Zipageは、AI が「長くて複雑な思考」をするときでも、「記憶（メモリ）」を賢く圧縮・整理する技術です。

昔：記憶が増えると部屋がいっぱいになり、新しい人を断らざるを得なかった。
今（Zipage）： 不要な記憶をこまめに捨てて、常に部屋を整理整頓しながら、何百人もの人を同時に快適に接待できるようになった。

この技術があれば、将来、私たちが AI と複雑な議論やプログラミングをしながらも、「AI が重くて遅い」という悩みがなくなるかもしれません。

Each language version is independently generated for its own context, not a direct translation.

論文「Zipage: Compressed PagedAttention による LLM 推論における高並列性維持」の技術的サマリー

本論文は、大規模言語モデル（LLM）の推論、特に「推論（Reasoning）」タスクにおいて生じるメモリボトルネックを解決し、高並列性を維持するための新しいアプローチ「Zipage」を提案しています。

1. 背景と問題提起

近年、LLM はコード生成や数学的推論など、回答を生成する前に extensive な推論を行う「推論モデル」へと進化しています。しかし、この推論プロセスは非常に長いシーケンス長を伴うため、デコーディング段階におけるKV キャッシュ（Key-Value Cache）のメモリ消費が爆発的に増加します。

既存の KV キャッシュ解放（Eviction）手法には以下の課題がありました：

システムレベルでの非互換性: 一部の手法はメモリ使用量を一定に保ちますが、連続バッチング（Continuous Batching）やプレフィックスキャッシング（Prefix Caching）といった現代の推論エンジン（vLLM, SGLang など）の必須機能と統合されておらず、実用的なスループットが得られない。
粗粒度な削除: ページ単位での解放を行う手法は、重要な情報を失うリスクがあり、性能劣化を招く。
プレフィックスキャッシュの破壊: トークン単位の圧縮を行う既存手法（KV-Compress など）は、入力のみを圧縮し、プレフィックスキャッシュを破壊してプレフィリングコストを増大させる。

2. 提案手法：Compressed PagedAttention

著者らは、PagedAttention（vLLM の基盤技術）と、柔軟なトークン単位の KV キャッシュ解放を組み合わせる「Compressed PagedAttention」を提案しました。これに基づき、高並列 LLM 推論エンジン「Zipage」を開発しました。

2.1 主要な技術的要素

Compressed PagedAttention の仕組み:
- 各リクエストが占有するブロック数を $N_{max}$ に制限します（プレフィリング時は一時的に超過可能）。
- デコーディング中にブロック数が $N_{max}$ に達し、かつ最後のブロックが埋まった場合、圧縮トリガーが発動します。
- 重要度の低い KV キャッシュエントリを解放し、残ったエントリを最初の $N_{max}-1$ 個のブロックに再配置（コンパクト化）します。 $N_{max}$ 番目のブロックは次のデコーディング用に確保され、余分なブロックは解放されます。
- これにより、デコーディング中のメモリ使用量を固定上限に抑え、高並列性を維持します。
ハイブリッドスケジューリング戦略:
- 単純な制約スケジューリング（最大並列度 $M$ に制限）では、短いリクエストがブロックを無駄に占有する可能性があります。
- Zipage は、クエリスロット（圧縮用）の割り当てを必要とするリクエストと、そうでないリクエストを区別し、ブロックの空き状況に応じて柔軟にスケジューリングします。
- これにより、プリエンプション（中断）を最小化しつつ、ブロックの利用率を最大化し、高い並列性を維持します。
共有プレフィックスキャッシュの維持:
- 通常、圧縮プロセスはプレフィックス構造を破壊します。Zipage は、圧縮先を「ターゲットブロック」として新規に割り当てることで、共有ブロック（プレフィックス）を破壊せずに圧縮を実行します。
- これにより、同じプレフィックスを持つ複数のリクエスト間での KV キャッシュ共有を維持し、メモリ効率と計算コストを削減します。
非同期デコーディングと圧縮:
- 圧縮処理はデコーディング時間の約 40-70% を要しますが、圧縮が必要なリクエストは全体の 1% 未満です。
- Zipage は、圧縮が必要なリクエストと不要なリクエストを並行して処理する非同期実行を導入しました。これにより、GPU の計算リソースを最大限活用し、スループットを向上させています。
圧縮アルゴリズムの最適化:
- 重要度スコアリング: 観察ウィンドウ（最後の $w$ トークン）のクエリ状態に基づき、アテンションスコア、冗長性スコア（Redundancy Score）、グローバルスコアを統合して重要度を評価します。
- Lightning Redundancy Score: 既存の冗長性スコア計算（ $O(N^2 \times b^2)$ ）は計算コストが高すぎました。Zipage は、ブロック内の類似性のみを計算し、メモリ使用量を $O(N \times b)$ に削減する「Lightning Redundancy Score」を提案し、圧縮処理を大幅に高速化しました。

3. 実験結果

数学的推論（AMC 23, AIME 24）やコード生成（LiveCodeBench）などのタスクにおいて、Qwen3 シリーズや DeepSeek-R1 などのモデルで評価を行いました。

スループット向上: 数学的推論タスクにおいて、フル KV キャッシュ（Full KV）ベースのエンジンと比較して**2.1 倍以上の高速化（Speedup）**を達成しました。
性能維持: 高スループットを維持しつつ、モデルの精度（Pass@1）はフル KV キャッシュ推論の約 95% を維持しています（KV キャッシュ予算 2048 の場合）。
比較: Nano-vLLM や既存の KV 解放手法（MorphKV, R-KV など）と比較しても、Zipage は連続バッチングやプレフィックスキャッシングを有効に活用しているため、圧倒的な TPS（Tokens Per Second）の優位性を示しました。
非同期処理の効果: 非同期圧縮を無効化した場合、スループットが顕著に低下することが確認されました。

4. 主な貢献

Compressed PagedAttention の提案: PagedAttention とトークン単位の KV キャッシュ解放を統合し、メモリ制約下でも高品質な推論を可能にする新しい管理手法。
Zipage エンジンの実装: 上記手法を実装し、プレフィックスキャッシング、非同期処理、高度なスケジューリングを統合した高並列推論エンジン。
効率的な圧縮アルゴリズム: 計算コストを劇的に削減する「Lightning Redundancy Score」の提案と、GPU カーネルレベルでの最適化。
実用的な評価: 産業レベルの推論エンジン（vLLM）との互換性を保ちつつ、長シーケンス推論タスクにおいて実用的なスループット向上と精度維持を両立した実証。

5. 意義と将来展望

本論文は、LLM の「推論能力」が高度化する中で、メモリ制約がボトルネックとなっている問題を解決する重要なステップです。Zipage は、リソース制約のある環境（エッジデバイスやコスト敏感なクラウド環境）でも、長文脈・複雑な推論タスクを効率的に実行することを可能にします。

今後の課題として、オンライン推論エンジンへの実装（TTFT の最適化）、リクエストごとの動的な予算調整、およびマルチテナント環境でのセキュリティ対策などが挙げられています。

総じて、Zipage は LLM 推論の効率化において、メモリ管理とスケジューリングの観点から画期的な進展をもたらす技術と言えます。

Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention