SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 SUN（Shared Use of Next-token Prediction，即“下一个词预测的共享使用”）的新方法，旨在解决大语言模型（LLM）在同时服务多个不同任务时遇到的“资源浪费”问题。

为了让你更容易理解，我们可以把大语言模型的服务过程想象成一家繁忙的餐厅。

1. 现在的困境：每家店都只开一个厨房

想象一下，你开了一家大型餐饮集团，里面有几十家分店，有的卖川菜，有的卖粤菜，有的卖甜点（这就像不同的 AI 模型，有的擅长写代码，有的擅长数学，有的擅长聊天）。

传统做法（Disaggregated Serving）： 以前，为了不让做菜的（Prefill，预填充阶段）和上菜的（Decode，解码阶段）互相打架，餐厅把这两个环节分开了。但是，每家分店都拥有自己专属的“上菜员”（解码 GPU）。
问题所在：
- 当川菜馆生意火爆时，它的专属上菜员累得半死，排长队。
- 而旁边的甜点店生意冷清，它的专属上菜员却只能坐在旁边发呆，GPU 资源严重闲置。
- 因为每个上菜员只认识自己分店的菜，不能去帮隔壁川菜馆上菜，导致整体效率很低，成本很高。

2. SUN 的解决方案：组建“共享上菜团队”

SUN 的核心思想就是：打破分店之间的壁垒，让所有分店共用同一批“上菜员”。

为了实现这一点，SUN 把 AI 模型分成了两个部分：

点单员（Prefill Module）： 负责看顾客的菜单（输入提示词），把菜单整理好，生成一张“厨房订单卡”（KV Cache）。
- SUN 的做法： 每个分店（任务）保留自己专属的点单员。川菜馆的点单员专门学川菜，甜点店的专门学甜点。
上菜员（Decode Module）： 负责根据“订单卡”把菜（生成的文字）一个个端出来。
- SUN 的做法： 所有分店共用同一批“通用上菜员”。这批上菜员是“冻结”的（不再训练），他们不关心菜是什么，只关心怎么高效地把菜端出去。

关键创新点：如何兼容？
你可能会问：“川菜馆的订单卡，通用上菜员能看懂吗？”

以前的尝试： 直接拿川菜馆的订单给通用上菜员，结果上菜员看不懂，上错了菜（准确率暴跌）。
SUN 的妙招（Prefill-Only Tuning）： SUN 训练那些专属的“点单员”，让他们学会用通用上菜员能看懂的格式来写订单卡。
- 这就好比：川菜馆的点单员虽然懂川菜，但他学会了用一种“通用语言”写菜单，这样通用的上菜员就能完美执行，既保证了菜的味道（准确率），又实现了人手共享。

3. 带来的好处

不再有人摸鱼： 无论哪个分店生意好，通用的上菜团队都能灵活调配人手去帮忙。生意好的时候人多，生意差的时候人少，但团队始终在高效运转。
省钱又高效： 论文数据显示，SUN 可以用更少的 GPU（上菜员） 达到甚至超过原来的总吞吐量。在流量分布不均（有的模型很火，有的很冷）的情况下，效率提升最高可达 2 倍。
响应速度不变： 虽然人手共享了，但顾客点菜到第一道菜上桌的时间（首字延迟）并没有变慢。

4. 进阶版：QSUN（量化版 SUN）

为了进一步提速，作者还提出了 QSUN。

比喻： 想象给“上菜员”戴上了轻量级手套（量化，Quantization）。
原理： 上菜过程（解码）主要是搬运东西（内存密集型），戴手套可以让他们拿得更快、更省力。但是，如果直接戴手套，可能会影响对“订单卡”的精细阅读。
SUN 的对策： 再次微调“点单员”，让他们学会写一种即使戴着手套也能看清的订单。
结果： 速度提升了 45%，而且准确率几乎没有损失。

总结

SUN 就像是一个聪明的餐厅经理：
他不再让每个分店都养一个全职厨师和全职服务员，而是让每个分店保留自己的特色点单员，然后组建一个强大的共享服务团队。通过培训点单员用“通用语言”写单，他让所有服务员都能无缝协作。

最终效果：

更省钱： 不需要买那么多昂贵的显卡（GPU）。
更快： 即使有的模型很火、有的很冷，系统也能自动平衡负载，不会出现有的累死、有的闲死的情况。
更准： 服务质量（准确率）和单独训练每个模型一样好。

这项技术对于未来需要同时运行成百上千个不同 AI 模型（比如同时处理医疗、法律、编程、聊天等多种任务）的云服务来说，是一个巨大的效率飞跃。

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 SUN (Shared Use of Next-token Prediction) 的新方法，旨在解决多模型大语言模型（Multi-LLM）分离式服务（Disaggregated Serving）中的资源隔离和利用率低下问题。

以下是该论文的详细技术总结：

1. 研究背景与问题 (Problem)

随着大语言模型（LLM）在特定领域（如数学、代码、工具调用）的广泛应用，服务提供者需要同时部署数十甚至上百个专用模型。然而，现有的多模型服务架构面临两个核心挑战：

模型内干扰 (Intra-model Interference)： 传统的推理系统中，Prefill（预填充/提示词处理）和 Decode（解码/生成）阶段在同一 GPU 上运行。Prefill 是计算密集型（Compute-bound），而 Decode 是显存带宽密集型（Memory-bound）。两者耦合会导致资源争用，增加尾部延迟。
模型间隔离 (Inter-model Isolation)： 为了解决上述干扰，现有的分离式服务（如 DistServe）将 Prefill 和 Decode 拆分到不同设备上。然而，在多模型场景下，Decode 资源仍然是按模型隔离的。
- 痛点： 由于不同模型的流量分布极度不均（Skewed Workloads，遵循 Zipf 分布），热门模型的 Decode 队列拥堵，而冷门模型的专用 Decode GPU 却处于闲置状态。
- 后果： 无法跨模型进行 Batch 合并（Cross-model batching），导致显存受限的 Decode 阶段 GPU 利用率严重不足，增加了总拥有成本（TCO）。

2. 方法论 (Methodology)

SUN 的核心思想是打破模型间的 Decode 隔离，实现共享解码。

2.1 核心架构：Prefill-Decode 分解

SUN 将 Decoder-only Transformer 模型在逻辑上分解为两个模块：

Prefill 模块： 处理输入提示词（Prompt），生成 KV Cache。
Decode 模块： 基于 KV Cache 和上一个 Token 生成下一个 Token。

2.2 关键技术：仅 Prefill 微调 (Prefill-Only Tuning)

为了实现跨模型共享 Decode 模块，SUN 提出了一种特殊的微调策略：

冻结 Decode 模块： 所有任务共享同一个冻结的（Frozen）基础 Decode 模块参数 ( $\theta_d^{base}$ )。
微调 Prefill 模块： 针对每个特定任务（如数学、代码），仅微调其对应的 Prefill 模块参数 ( $\theta_p^{task}$ )。
原理： 通过微调 Prefill 模块，使其生成的 KV Cache 能够被共享的 Decode 模块正确解读。这消除了训练与推理之间的不匹配（Train-Inference Mismatch），使得不同任务的 KV Cache 可以兼容同一个解码器。

2.3 路由策略：模型无关的 Decode 路由

Prefill 路由： 根据任务类型（如数学题、代码生成）将请求路由到对应的专用 Prefill 模块。
Decode 路由： 一旦生成 KV Cache，解码请求被模型无关地分发到共享的 Decode 工作池（Worker Pool）中。
优势： 无论请求来自哪个模型，都可以被合并到同一个 Batch 中处理，从而最大化 GPU 利用率，实现负载均衡。

2.4 扩展方案：量化 SUN (QSUN)

为了进一步提升效率，论文提出了 QSUN：

策略： 仅对共享的 Decode 模块进行权重量化（Weight-only Quantization，如 4-bit），而 Prefill 模块保持高精度（16-bit）。
重微调 (Re-tuning)： 量化后，Decode 模块与 Prefill 模块的表示分布可能不匹配。QSUN 在量化后仅对 Prefill 模块进行重微调，使其生成的 KV Cache 适应低精度的 Decode 模块。
收益： 既保留了 Decode 共享带来的高吞吐，又利用量化降低了显存带宽压力，同时避免了 Prefill 阶段的量化开销（保持低 TTFT）。

3. 主要贡献 (Key Contributions)

首个跨模型解码共享算法： SUN 是第一个通过仅微调 Prefill 模块来消除多模型分离式服务中模型间隔离的算法，实现了单一冻结解码器在多个任务模型间的共享。
模型无关的高利用率路由： 提出了一种解耦的路由策略，在 vLLM 架构下实现了跨模型的负载均衡，显著减少了所需的 Decode GPU 数量（在保持系统吞吐量的前提下减少了 50% 的 Decode GPU）。
精度保持的量化解码 (QSUN)： 提出了结合权重量化和 Prefill 重微调的方案，在实现 4-bit 解码效率的同时，恢复了接近全精度模型的准确率。

4. 实验结果 (Results)

实验基于 LLaMA3.1-8B 和 Qwen3 系列模型，在 vLLM 分离式服务架构上进行评估：

准确率 (Accuracy)：
- SUN 在数学（GSM8K）、代码（HumanEval）和工具调用（BFCL）等任务上的准确率与全量微调（Full Fine-Tuning）相当，甚至在某些指标上略优。
- 证明了仅微调 Prefill 模块足以生成与共享解码器兼容的 KV Cache。
系统性能 (System Performance)：
- 吞吐量提升： 在倾斜负载（Skewed Workloads）下，SUN 相比传统分离式服务，单 GPU 吞吐量提升高达 2.0 倍。
- 资源节省： 在保持系统总吞吐量不变的情况下，SUN 可以将 Decode 节点数量从 4 个减少到 2 个或 3 个，显著降低 TCO。
- 延迟控制： 在减少 Decode 节点时，SUN 能将每输出 Token 时间（TPOT）的退化控制在 5% 以内。
QSUN 表现：
- 速度提升： 相比全精度 SUN，QSUN 实现了 45% 的 TPOT 加速。
- 精度恢复： QSUN 的准确率显著优于直接量化的基线（如 AWQ），恢复了接近 SUN 的精度。
- TTFT 优势： 由于 Prefill 保持全精度，QSUN 的首 Token 延迟（TTFT）优于全量化方案（AWQ）。

5. 意义与影响 (Significance)

降低多模型服务成本： SUN 解决了多模型场景下资源碎片化的问题，通过共享昂贵的 HBM 显存资源，大幅降低了部署多个专用 LLM 的硬件成本。
适应真实世界负载： 针对现实世界中请求分布极度不均（长尾分布）的特点，SUN 的动态负载均衡能力使其比传统静态分配方案更具鲁棒性。
推动量化与分离式服务结合： QSUN 展示了如何在分离式架构中有效结合量化技术，为未来的高效推理系统提供了新的设计范式。

总结： SUN 通过“解耦训练与推理”（仅微调 Prefill，共享 Decode）的创新思路，成功打破了多模型服务中的资源壁垒，在保持高准确率的同时，显著提升了 GPU 利用率和系统吞吐量，是构建高效、低成本多模型 AI 服务的关键技术。