SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

この論文は、マルチモデル LLM 推論におけるデコード実行の非効率性を解消するため、タスク固有のプレフィルモジュールのみを微調整し、デコードモジュールをモデル間で共有する「SUN」という手法を提案し、GPU 利用率とスループットを大幅に向上させることを示しています。

Sunghyeon Woo, Ahreum Seo, Jaegwang Lee, Jaeeun Kil, Hanbae Seo, Joonghoon Kim, Baeseong Park, Se Jung Kwon, Dongsoo Lee

公開日 2026-03-04
📖 2 分で読めます☕ さくっと読める

Each language version is independently generated for its own context, not a direct translation.

🍽️ 背景:今の AI 世界の「非効率なレストラン」

まず、今の AI サービス(チャットボットや翻訳など)がどう動いているか想像してみてください。

  • AI モデル = 料理人
  • ユーザーの質問 = 注文
  • GPU(高性能な計算機) = 厨房のコンロ

今のシステムでは、**「料理人ごとに、専用のコンロと助手を割り当てている」**状態です。
例えば、「数学が得意な AI」「プログラミングが得意な AI」「法律が得意な AI」がそれぞれ別々の厨房にいます。

ここには 2 つの大きな問題があります。

  1. 混雑と空転(偏り)
    • 人気のある「数学 AI」の厨房は注文が殺到してパンクしますが、マイナーな「法律 AI」の厨房は暇すぎて、コンロが空回りしています。
    • 結果として、**「忙しい人はもっと忙しく、暇な人はもっと暇」**という無駄が生まれます。
  2. 作業の邪魔(プレフィルとデコードの干渉)
    • AI は「質問を読んで理解する(プレフィル)」と「答えを 1 文字ずつ書く(デコード)」の 2 つの作業をします。
    • これらを同じコンロでやると、理解中に書く作業が入り込んでしまい、**「料理の完成が遅くなる」**という問題があります。

☀️ 解決策:SUN(サン)のアイデア

この論文が提案する**「SUN(Shared Use of Next-token Prediction)」**は、この非効率を解決する魔法のようなシステムです。

1. 「料理人」を 2 人に分ける(モジュールの分解)

SUN は、1 人の料理人を 2 人の役割に分けます。

  • A さん(プレフィル担当): 注文(質問)を読んで、**「何を作るかのレシピ(メモ)」**を書く人。
    • 特徴: 料理によってレシピが変わるので、「数学用」「法律用」など、それぞれの専門家に特化させます。
  • B さん(デコード担当): レシピを見て、**「実際に料理(答え)を 1 文字ずつ作る」**人。
    • 特徴: どの料理でも「包丁の使い方」や「火加減」は同じです。だから、「1 人の万能な B さん」を全員で共有します。

2. 共有された「B さん」を効率よく使う(デコードの共有)

これが SUN の最大の特徴です。

  • 従来の方法: 数学 AI には数学用の B さん、法律 AI には法律用の B さんが付いています。数学 AI が忙しくても、法律 AI の B さんは手伝えません。
  • SUN の方法: 数学 AI の A さんが作った「レシピ」を、共有されている「B さん」に渡します
    • 結果、「数学が得意な A さん」と「法律が得意な A さん」が、同じ「B さん」のチームで働けるようになります。
    • 注文が偏っても、B さんたちは「今、誰の料理が必要か」を気にせず、**「空いている B さんが次の料理を作る」**というように、全員で力を合わせて作業できます。

🚕 アナロジー:タクシーの相乗り

  • 今: 数学の先生と法律の先生が、それぞれ**「専用タクシー」**を 1 台ずつチャーターしています。先生が 1 人しか乗っていなくても、タクシーは 1 台丸ごと使われます(無駄!)。
  • SUN: 先生たちはそれぞれ**「専用バス停(A さん)」で待ちますが、「共有されたタクシー(B さん)」**が来るまで待ちます。
    • 数学の先生が乗るべきタクシーが空いていなくても、法律の先生のタクシーが空いていれば、そのタクシーに乗せてもらえます。
    • タクシー(GPU)の稼働率が上がり、必要なタクシーの台数(コスト)を減らせるのです。

🎯 SUN が実現した 3 つのすごいこと

  1. 精度は落ちない(「レシピ」を調整する)

    • 「B さん(共有部分)」を固定したまま、「A さん(専門部分)」だけを勉強させます。
    • これにより、A さんは「B さんが読めるように、完璧なレシピ」を書くようになります。
    • 結果、**「全員で共有しても、個別に勉強したのと同じくらい上手に料理ができる」**ことが証明されました。
  2. コストが半分以下に(GPU 節約)

    • 従来のシステムでは、モデルごとに GPU を用意していましたが、SUN では**「共有プール」**にまとめられます。
    • 実験では、必要な GPU の数を 50% 減らしても、同じくらいの処理能力を維持できました。つまり、電気代や設備費が激安になります。
  3. さらに高速化(QSUN:量子化 SUN)

    • さらに、共有する「B さん」の道具(重み)を、少し簡易なもの(低精度)に置き換える実験もしました。
    • これでも「A さん」が少しだけ練習(再学習)すれば、**「道具を簡易化しても、味はほとんど変わらない」どころか、「調理スピードが 45% 向上」**しました。

🌟 まとめ

SUNは、「専門家の頭脳(A さん)」と「作業の手(B さん)」を分けて、作業の手を全員で共有するというアイデアです。

  • 今までの問題: 忙しすぎる人と暇な人がいて、機械(GPU)がもったいない。
  • SUN の解決: 作業の手を共有して、**「忙しくても、みんなで助け合いながら効率よく」**動かす。

これにより、**「AI をもっと安く、もっと速く、もっと多くの人に使わせる」ことが可能になります。まるで、「高級レストランが、同じ厨房で何種類もの料理を、無駄なく大量に作れるようになった」**ようなものです。

このような論文をメールで受け取る

あなたの興味に合わせた毎日または毎週のダイジェスト。Gistまたは技術要約を、あなたの言語で。

Digest を試す →