SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

🍽️ 背景：今の AI 世界の「非効率なレストラン」

まず、今の AI サービス（チャットボットや翻訳など）がどう動いているか想像してみてください。

AI モデル = 料理人
ユーザーの質問 = 注文
GPU（高性能な計算機） = 厨房のコンロ

今のシステムでは、**「料理人ごとに、専用のコンロと助手を割り当てている」**状態です。
例えば、「数学が得意な AI」「プログラミングが得意な AI」「法律が得意な AI」がそれぞれ別々の厨房にいます。

ここには 2 つの大きな問題があります。

混雑と空転（偏り）
- 人気のある「数学 AI」の厨房は注文が殺到してパンクしますが、マイナーな「法律 AI」の厨房は暇すぎて、コンロが空回りしています。
- 結果として、**「忙しい人はもっと忙しく、暇な人はもっと暇」**という無駄が生まれます。
作業の邪魔（プレフィルとデコードの干渉）
- AI は「質問を読んで理解する（プレフィル）」と「答えを 1 文字ずつ書く（デコード）」の 2 つの作業をします。
- これらを同じコンロでやると、理解中に書く作業が入り込んでしまい、**「料理の完成が遅くなる」**という問題があります。

☀️ 解決策：SUN（サン）のアイデア

この論文が提案する**「SUN（Shared Use of Next-token Prediction）」**は、この非効率を解決する魔法のようなシステムです。

1. 「料理人」を 2 人に分ける（モジュールの分解）

SUN は、1 人の料理人を 2 人の役割に分けます。

A さん（プレフィル担当）： 注文（質問）を読んで、**「何を作るかのレシピ（メモ）」**を書く人。
- 特徴： 料理によってレシピが変わるので、「数学用」「法律用」など、それぞれの専門家に特化させます。
B さん（デコード担当）： レシピを見て、**「実際に料理（答え）を 1 文字ずつ作る」**人。
- 特徴： どの料理でも「包丁の使い方」や「火加減」は同じです。だから、「1 人の万能な B さん」を全員で共有します。

2. 共有された「B さん」を効率よく使う（デコードの共有）

これが SUN の最大の特徴です。

従来の方法： 数学 AI には数学用の B さん、法律 AI には法律用の B さんが付いています。数学 AI が忙しくても、法律 AI の B さんは手伝えません。
SUN の方法： 数学 AI の A さんが作った「レシピ」を、共有されている「B さん」に渡します。
- 結果、「数学が得意な A さん」と「法律が得意な A さん」が、同じ「B さん」のチームで働けるようになります。
- 注文が偏っても、B さんたちは「今、誰の料理が必要か」を気にせず、**「空いている B さんが次の料理を作る」**というように、全員で力を合わせて作業できます。

🚕 アナロジー：タクシーの相乗り

今：数学の先生と法律の先生が、それぞれ**「専用タクシー」**を 1 台ずつチャーターしています。先生が 1 人しか乗っていなくても、タクシーは 1 台丸ごと使われます（無駄！）。
SUN： 先生たちはそれぞれ**「専用バス停（A さん）」で待ちますが、「共有されたタクシー（B さん）」**が来るまで待ちます。
- 数学の先生が乗るべきタクシーが空いていなくても、法律の先生のタクシーが空いていれば、そのタクシーに乗せてもらえます。
- タクシー（GPU）の稼働率が上がり、必要なタクシーの台数（コスト）を減らせるのです。

🎯 SUN が実現した 3 つのすごいこと

精度は落ちない（「レシピ」を調整する）
- 「B さん（共有部分）」を固定したまま、「A さん（専門部分）」だけを勉強させます。
- これにより、A さんは「B さんが読めるように、完璧なレシピ」を書くようになります。
- 結果、**「全員で共有しても、個別に勉強したのと同じくらい上手に料理ができる」**ことが証明されました。
コストが半分以下に（GPU 節約）
- 従来のシステムでは、モデルごとに GPU を用意していましたが、SUN では**「共有プール」**にまとめられます。
- 実験では、必要な GPU の数を 50% 減らしても、同じくらいの処理能力を維持できました。つまり、電気代や設備費が激安になります。
さらに高速化（QSUN：量子化 SUN）
- さらに、共有する「B さん」の道具（重み）を、少し簡易なもの（低精度）に置き換える実験もしました。
- これでも「A さん」が少しだけ練習（再学習）すれば、**「道具を簡易化しても、味はほとんど変わらない」どころか、「調理スピードが 45% 向上」**しました。

🌟 まとめ

SUNは、「専門家の頭脳（A さん）」と「作業の手（B さん）」を分けて、作業の手を全員で共有するというアイデアです。

今までの問題： 忙しすぎる人と暇な人がいて、機械（GPU）がもったいない。
SUN の解決： 作業の手を共有して、**「忙しくても、みんなで助け合いながら効率よく」**動かす。

これにより、**「AI をもっと安く、もっと速く、もっと多くの人に使わせる」ことが可能になります。まるで、「高級レストランが、同じ厨房で何種類もの料理を、無駄なく大量に作れるようになった」**ようなものです。

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

🍽️ 背景：今の AI 世界の「非効率なレストラン」

☀️ 解決策：SUN（サン）のアイデア

1. 「料理人」を 2 人に分ける（モジュールの分解）

2. 共有された「B さん」を効率よく使う（デコードの共有）

🎯 SUN が実現した 3 つのすごいこと

🌟 まとめ

SUN: 分散型マルチ LLM サービングにおける効率的な次トークン予測の共有

1. 背景と問題定義

2. 提案手法：SUN (Shared Use of Next-token Prediction)

2.1. 基本的なアプローチ

2.2. プリフィルのみによる微調整 (Prefill-Only Tuning)

2.3. モデル非依存のデコードルーティング

2.4. 量子化版 SUN (QSUN)

3. 主要な貢献

4. 実験結果

5. 意義と結論

SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

🍽️ 背景：今の AI 世界の「非効率なレストラン」

☀️ 解決策：SUN（サン）のアイデア

1. 「料理人」を 2 人に分ける（モジュールの分解）

2. 共有された「B さん」を効率よく使う（デコードの共有）

🎯 SUN が実現した 3 つのすごいこと

🌟 まとめ

SUN: 分散型マルチ LLM サービングにおける効率的な次トークン予測の共有

1. 背景と問題定義

2. 提案手法：SUN (Shared Use of Next-token Prediction)

2.1. 基本的なアプローチ

2.2. プリフィルのみによる微調整 (Prefill-Only Tuning)

2.3. モデル非依存のデコードルーティング

2.4. 量子化版 SUN (QSUN)

3. 主要な貢献

4. 実験結果

5. 意義と結論

関連論文

Holos: A Web-Scale LLM-Based Multi-Agent System for the Agentic Web

Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

Compositional Neuro-Symbolic Reasoning

Understanding the Nature of Generative AI as Threshold Logic in High-Dimensional Space

AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems