DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving

本文提出了 DOPD 系统,通过基于实时负载监控动态调整预填充与解码实例的比例,有效解决了 LLM 推理服务中的资源失衡问题,从而在显著降低延迟的同时将整体系统吞吐量提升了最高 1.5 倍。

Junhan Liao, Minxian Xu, Wanyi Zheng, Yan Wang, Kejiang Ye, Rajkumar Buyya, Chengzhong Xu

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DOPD 的新系统,它的目标是让大型人工智能模型(LLM,比如现在的聊天机器人)运行得更快、更省钱、更稳定。

为了让你轻松理解,我们可以把运行 AI 模型想象成经营一家超级繁忙的“智能餐厅”

1. 背景:餐厅里的两个关键岗位

在传统的 AI 餐厅里,厨师(GPU 显卡)既要负责点菜准备(Prefill,计算用户输入的问题),又要负责上菜(Decoding,一个字一个字地生成回答)。

  • 点菜准备(Prefill):就像厨师在切菜、洗菜、调酱汁。这步很费力气(计算密集型),但一旦准备好,速度很快。
  • 上菜(Decoding):就像厨师把做好的菜端给客人,一次端一个。这步很费手(内存密集型),因为要记住之前端过的菜(KV 缓存),但力气消耗不大。

问题出在哪?
以前的做法是把这两个岗位放在同一个厨师身上。结果就是:

  • 当客人问了一个很长的复杂问题(需要大量切菜)时,厨师忙着切菜,没空给其他客人上菜,导致大家排队等上菜(延迟高)。
  • 当客人问了一个很简单的问题(切菜很快)时,厨师切完菜闲着没事干,因为上菜太慢,导致切菜设备(算力)被浪费了。

现在的解决方案(PD-Disaggregation):
为了解决这个问题,现在的先进餐厅把“切菜区”(P 实例)和“上菜区”(D 实例)分开了。切菜的厨师专门切菜,上菜的厨师专门上菜。

  • 但是,新问题来了: 如果切菜区有 10 个厨师,上菜区只有 1 个厨师,切好的菜会堆成山,上菜区忙不过来;反之,如果上菜区有 10 个厨师,切菜区只有 1 个,上菜区的厨师就会没事干,饿得发慌。
  • 难点: 客人的需求是千变万化的。有时候全是长问题,有时候全是短问题。如果餐厅老板(系统)死板地规定“永远保持 5 个切菜工配 2 个上菜工”,一旦客人需求变了,要么浪费钱(人多没事干),要么服务差(人少忙不过来)。

2. DOPD 是什么?(动态最优调配大师)

DOPD 就是这位餐厅的超级智能管家。它的核心能力是**“动态调整”**。

它不像以前的系统那样死板,而是像一位经验丰富的老店长,时刻盯着门口的客流:

  1. 预测未来(ARIMA 预测):
    管家会看过去的客流记录,预测下一分钟是“长问题多”还是“短问题多”。

    • 比喻: 就像看天气预报,如果预测马上要下暴雨(流量激增),管家会提前把备用的厨师叫来,而不是等雨淋湿了再叫。
  2. 计算最佳比例(最优 P/D 比):
    管家会算一笔账:根据预测的客流,现在到底需要几个切菜工、几个上菜工,才能让两个区域都不闲置、不拥堵

    • 比喻: 如果预测全是长菜单,管家会立刻增加切菜工;如果预测全是短菜单,他会减少切菜工,把资源留给上菜工。
  3. 智能调度(长度感知):
    这是 DOPD 的独门绝技。它发现,有些问题太短了(比如只问“你好”),如果还要专门跑一趟去切菜区,再跑回来上菜,路上花的时间比切菜还长,太不划算了。

    • 比喻: 对于“你好”这种极短的问题,管家直接让上菜区的厨师顺手处理了,省去了在两个区域间来回跑腿(传输数据)的时间。对于长问题,则严格按照流程走。

3. 它带来了什么好处?

通过这种“动态调整 + 智能调度”,DOPD 实现了以下效果:

  • 效率翻倍(Goodput 提升 1.5 倍): 同样的厨师数量,能服务的客人多了 50%。
  • 等待时间大幅缩短:
    • 客人看到第一个字的速度(TTFT)快了 67.5%(就像点菜后马上就能闻到香味)。
    • 生成每个字的速度(TPOT)也快了 22.8%。
  • 省钱(SLO 达标率 99%): 以前为了怕忙不过来,餐厅可能要多雇 20% 的厨师备用。DOPD 算得准,不需要那么多备用厨师,就能保证 99% 的客人满意,大大降低了成本。

4. 总结

简单来说,DOPD 就是给 AI 推理系统装上了一个**“会看天气、会算账、会灵活排班”的超级大脑**。

它不再让 AI 系统“一刀切”地运行,而是根据每一刻的实际情况,动态地调整“切菜”和“上菜”的人力比例,并聪明地处理那些“太短”或“太长”的特殊订单。最终结果是:花更少的钱(GPU 资源),让 AI 跑得更快、更稳。

这就好比从“死板的流水线工厂”进化成了“灵活应变的敏捷团队”,让大模型服务真正变得高效且经济。