SUN: Shared Use of Next-token Prediction for Efficient Multi-LLM Disaggregated Serving

本文提出了 SUN(共享下一词预测),这是一种在解耦式多模型 LLM 服务中实现跨模型解码执行共享的创新方法,它通过仅微调任务特定的预填充模块并共享冻结的解码模块,在保持精度和延迟的同时显著提升了 GPU 利用率和系统吞吐量。

Sunghyeon Woo, Ahreum Seo, Jaegwang Lee, Jaeeun Kil, Hanbae Seo, Joonghoon Kim, Baeseong Park, Se Jung Kwon, Dongsoo Lee

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 SUN(Shared Use of Next-token Prediction,即“下一个词预测的共享使用”)的新方法,旨在解决大语言模型(LLM)在同时服务多个不同任务时遇到的“资源浪费”问题。

为了让你更容易理解,我们可以把大语言模型的服务过程想象成一家繁忙的餐厅

1. 现在的困境:每家店都只开一个厨房

想象一下,你开了一家大型餐饮集团,里面有几十家分店,有的卖川菜,有的卖粤菜,有的卖甜点(这就像不同的 AI 模型,有的擅长写代码,有的擅长数学,有的擅长聊天)。

  • 传统做法(Disaggregated Serving): 以前,为了不让做菜的(Prefill,预填充阶段)和上菜的(Decode,解码阶段)互相打架,餐厅把这两个环节分开了。但是,每家分店都拥有自己专属的“上菜员”(解码 GPU)
  • 问题所在:
    • 当川菜馆生意火爆时,它的专属上菜员累得半死,排长队。
    • 而旁边的甜点店生意冷清,它的专属上菜员却只能坐在旁边发呆,GPU 资源严重闲置
    • 因为每个上菜员只认识自己分店的菜,不能去帮隔壁川菜馆上菜,导致整体效率很低,成本很高。

2. SUN 的解决方案:组建“共享上菜团队”

SUN 的核心思想就是:打破分店之间的壁垒,让所有分店共用同一批“上菜员”。

为了实现这一点,SUN 把 AI 模型分成了两个部分:

  1. 点单员(Prefill Module): 负责看顾客的菜单(输入提示词),把菜单整理好,生成一张“厨房订单卡”(KV Cache)。
    • SUN 的做法: 每个分店(任务)保留自己专属的点单员。川菜馆的点单员专门学川菜,甜点店的专门学甜点。
  2. 上菜员(Decode Module): 负责根据“订单卡”把菜(生成的文字)一个个端出来。
    • SUN 的做法: 所有分店共用同一批“通用上菜员”。这批上菜员是“冻结”的(不再训练),他们不关心菜是什么,只关心怎么高效地把菜端出去。

关键创新点:如何兼容?
你可能会问:“川菜馆的订单卡,通用上菜员能看懂吗?”

  • 以前的尝试: 直接拿川菜馆的订单给通用上菜员,结果上菜员看不懂,上错了菜(准确率暴跌)。
  • SUN 的妙招(Prefill-Only Tuning): SUN 训练那些专属的“点单员”,让他们学会用通用上菜员能看懂的格式来写订单卡。
    • 这就好比:川菜馆的点单员虽然懂川菜,但他学会了用一种“通用语言”写菜单,这样通用的上菜员就能完美执行,既保证了菜的味道(准确率),又实现了人手共享。

3. 带来的好处

  • 不再有人摸鱼: 无论哪个分店生意好,通用的上菜团队都能灵活调配人手去帮忙。生意好的时候人多,生意差的时候人少,但团队始终在高效运转。
  • 省钱又高效: 论文数据显示,SUN 可以用更少的 GPU(上菜员) 达到甚至超过原来的总吞吐量。在流量分布不均(有的模型很火,有的很冷)的情况下,效率提升最高可达 2 倍
  • 响应速度不变: 虽然人手共享了,但顾客点菜到第一道菜上桌的时间(首字延迟)并没有变慢。

4. 进阶版:QSUN(量化版 SUN)

为了进一步提速,作者还提出了 QSUN

  • 比喻: 想象给“上菜员”戴上了轻量级手套(量化,Quantization)。
  • 原理: 上菜过程(解码)主要是搬运东西(内存密集型),戴手套可以让他们拿得更快、更省力。但是,如果直接戴手套,可能会影响对“订单卡”的精细阅读。
  • SUN 的对策: 再次微调“点单员”,让他们学会写一种即使戴着手套也能看清的订单
  • 结果: 速度提升了 45%,而且准确率几乎没有损失。

总结

SUN 就像是一个聪明的餐厅经理:
他不再让每个分店都养一个全职厨师和全职服务员,而是让每个分店保留自己的特色点单员,然后组建一个强大的共享服务团队。通过培训点单员用“通用语言”写单,他让所有服务员都能无缝协作。

最终效果:

  • 更省钱: 不需要买那么多昂贵的显卡(GPU)。
  • 更快: 即使有的模型很火、有的很冷,系统也能自动平衡负载,不会出现有的累死、有的闲死的情况。
  • 更准: 服务质量(准确率)和单独训练每个模型一样好。

这项技术对于未来需要同时运行成百上千个不同 AI 模型(比如同时处理医疗、法律、编程、聊天等多种任务)的云服务来说,是一个巨大的效率飞跃。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →