CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

Each language version is independently generated for its own context, not a direct translation.

1. 背景：なぜ「速さ」と「安全」は対立するの？

AI を使うとき、システムは「前もって計算した答え（キャッシュ）」を再利用することで、爆速で応答します。これを「自動プレフィックスキャッシング（APC）」と呼びます。

例え話：
100 人の人が同じ「ラーメンの作り方」を聞いているとします。
1 人目が「作り方」を詳しく説明（計算）すると、そのメモ（キャッシュ）を誰かが持っておきます。
2 人目以降が同じ「作り方」を聞けば、最初から説明し直す必要はなく、メモを見せるだけで済みます。これなら超高速です。

しかし、ここに「危険な隙間（サイドチャネル）」が生まれます。

攻撃者の手口：
悪意のある人が、「メモを見せるか、最初から説明し直すか」を**「かかる時間」**で察知できます。
- 「メモを見せたら、0.1 秒で返ってきた！」→「あ、この言葉はメモにあったな（ヒット）」
- 「最初から説明し直したら、1 秒かかった！」→「あ、この言葉はメモになかったな（ミス）」
この**「時間の差」**を細かく計測することで、悪意のある人は「他の人が入力した秘密の情報（名前やパスワードなど）」を、一文字ずつ推測して盗み取ることができます。

これまでの対策：
「じゃあ、メモの共有を全部やめよう！」という**「大げさな対策」**が取られていました。

結果： 安全にはなりましたが、みんなが「最初から説明し直し」になるため、システムが極端に遅くなり、無駄な計算が増えました。

2. 新しい解決策：CacheSolidarity（キャッシュ・ソリダリティ）

この論文が提案するのは、**「全員を隔離するのではなく、危険な部分だけ隔離する」**という賢いシステムです。

核心となるアイデア：「共助（ソリダリティ）」

「普通のユーザーは、安全な共通部分（プレフィックス）を共有して速くしよう。でも、『誰かが秘密を隠しているかもしれない』と疑わしい部分だけ、その先を分けて計算しよう」という考え方です。

システムの仕組み（3 つの役割）

監視員（Detector）：
- 「このメモ（キャッシュ）は、誰が最初に作ったの？」とチェックします。
- もし「A さんが作ったメモ」を「B さん」が使い始めたら、それは**「危険な共有」**です。
- その瞬間、そのメモの先（秘密が含まれるかもしれない部分）に**「立ち入り禁止（フラグ）」**を立てます。
分岐点（Isolation）：
- A さん（元の持ち主）： 「立ち入り禁止」があっても、自分のメモなので、そのまま使い続けて OK。速いままです。
- B さん（他の人）： 「立ち入り禁止」の先からは、新しいメモ（新しい計算）を始めてください。
- 結果： 共通部分は共有されて速いままですが、秘密の部分はそれぞれ独立して計算されるので、時間が同じになり、盗聴されなくなります。
調整役（Activator）：
- 「今、システムが混雑しているから、時間の差は測れないよね？」という状況では、無理に防御しなくていいと判断します。
- 逆に、「今、時間が測りやすいから危険だ！」と判断したら、自動的に防御モードに入ります。
- これにより、必要な時だけ防御し、不要な時は性能を最大化します。

3. このシステムのすごいところ

これまでの「全員隔離」方式と比べて、以下のようなメリットがあります。

速さが戻った：
実験によると、従来の対策に比べて**「キャッシュの再利用率が 70% 向上」し、「応答速度が 30% 速くなりました」**。
- 例え話： 全員を別々の道路に走らせるのではなく、安全な共通道路を共有しつつ、危険な交差点だけ迂回させるようなものです。
コストが低い：
特別な重い計算や、AI が意味を理解してチェックする必要はありません。メモの所有者を記録するだけで動きます。
安全：
悪意のある人が「秘密を推測しようとしても、時間が一定になるように操作されるため、何もわかりません。」

まとめ

この論文は、**「速くしたいからといってセキュリティを犠牲にする必要はない」**と証明しました。

悪い対策： 「全員を別々の部屋に入れて、会話させない」（遅い、非効率）
新しい対策（CacheSolidarity）： 「共通の部屋で会話するけど、秘密の話をするときは、その人だけ別の部屋に移動させる」（速い、安全）

このように、**「必要な部分だけ守る」**という賢いアプローチで、AI 社会のセキュリティと快適さを両立させようという画期的な提案です。

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

1. 背景：なぜ「速さ」と「安全」は対立するの？

2. 新しい解決策：CacheSolidarity（キャッシュ・ソリダリティ）

核心となるアイデア：「共助（ソリダリティ）」

システムの仕組み（3 つの役割）

3. このシステムのすごいところ

まとめ

CacheSolidarity: マルチテナント LLM サービングシステムにおけるプレフィックスキャッシングのサイドチャネル攻撃を防止する

1. 問題定義：APC によるタイミングサイドチャネル

2. 手法：CacheSolidarity の設計

2.1 KV キャッシュの拡張とメタデータ管理

2.2 デテクター（Detector）：疑わしい再利用の検知と隔離

2.3 アクティベーター（Activator）：条件付き防御の最適化

3. 主な貢献

4. 評価結果

5. 意義

CacheSolidarity: Preventing Prefix Caching Side Channels in Multi-tenant LLM Serving Systems

1. 背景：なぜ「速さ」と「安全」は対立するの？

2. 新しい解決策：CacheSolidarity（キャッシュ・ソリダリティ）

核心となるアイデア：「共助（ソリダリティ）」

システムの仕組み（3 つの役割）

3. このシステムのすごいところ

まとめ

CacheSolidarity: マルチテナント LLM サービングシステムにおけるプレフィックスキャッシングのサイドチャネル攻撃を防止する

1. 問題定義：APC によるタイミングサイドチャネル

2. 手法：CacheSolidarity の設計

2.1 KV キャッシュの拡張とメタデータ管理

2.2 デテクター（Detector）：疑わしい再利用の検知と隔離

2.3 アクティベーター（Activator）：条件付き防御の最適化

3. 主な貢献

4. 評価結果

5. 意義

関連論文

Equitable Multi-Task Learning for AI-RANs

SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning

The Temporal Markov Transition Field

SoftJAX & SoftTorch: Empowering Automatic Differentiation Libraries with Informative Gradients

Expressivity-Efficiency Tradeoffs for Hybrid Sequence Models