Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 DOPD 的新系统，它的目标是让大型人工智能模型（LLM，比如现在的聊天机器人）运行得更快、更省钱、更稳定。

为了让你轻松理解，我们可以把运行 AI 模型想象成经营一家超级繁忙的“智能餐厅”。

1. 背景：餐厅里的两个关键岗位

在传统的 AI 餐厅里，厨师（GPU 显卡）既要负责点菜准备（Prefill，计算用户输入的问题），又要负责上菜（Decoding，一个字一个字地生成回答）。

点菜准备（Prefill）：就像厨师在切菜、洗菜、调酱汁。这步很费力气（计算密集型），但一旦准备好，速度很快。
上菜（Decoding）：就像厨师把做好的菜端给客人，一次端一个。这步很费手（内存密集型），因为要记住之前端过的菜（KV 缓存），但力气消耗不大。

问题出在哪？
以前的做法是把这两个岗位放在同一个厨师身上。结果就是：

当客人问了一个很长的复杂问题（需要大量切菜）时，厨师忙着切菜，没空给其他客人上菜，导致大家排队等上菜（延迟高）。
当客人问了一个很简单的问题（切菜很快）时，厨师切完菜闲着没事干，因为上菜太慢，导致切菜设备（算力）被浪费了。

现在的解决方案（PD-Disaggregation）：
为了解决这个问题，现在的先进餐厅把“切菜区”（P 实例）和“上菜区”（D 实例）分开了。切菜的厨师专门切菜，上菜的厨师专门上菜。

但是，新问题来了： 如果切菜区有 10 个厨师，上菜区只有 1 个厨师，切好的菜会堆成山，上菜区忙不过来；反之，如果上菜区有 10 个厨师，切菜区只有 1 个，上菜区的厨师就会没事干，饿得发慌。
难点： 客人的需求是千变万化的。有时候全是长问题，有时候全是短问题。如果餐厅老板（系统）死板地规定“永远保持 5 个切菜工配 2 个上菜工”，一旦客人需求变了，要么浪费钱（人多没事干），要么服务差（人少忙不过来）。

2. DOPD 是什么？（动态最优调配大师）

DOPD 就是这位餐厅的超级智能管家。它的核心能力是**“动态调整”**。

它不像以前的系统那样死板，而是像一位经验丰富的老店长，时刻盯着门口的客流：

预测未来（ARIMA 预测）：
管家会看过去的客流记录，预测下一分钟是“长问题多”还是“短问题多”。
- 比喻： 就像看天气预报，如果预测马上要下暴雨（流量激增），管家会提前把备用的厨师叫来，而不是等雨淋湿了再叫。
计算最佳比例（最优 P/D 比）：
管家会算一笔账：根据预测的客流，现在到底需要几个切菜工、几个上菜工，才能让两个区域都不闲置、不拥堵？
- 比喻： 如果预测全是长菜单，管家会立刻增加切菜工；如果预测全是短菜单，他会减少切菜工，把资源留给上菜工。
智能调度（长度感知）：
这是 DOPD 的独门绝技。它发现，有些问题太短了（比如只问“你好”），如果还要专门跑一趟去切菜区，再跑回来上菜，路上花的时间比切菜还长，太不划算了。
- 比喻： 对于“你好”这种极短的问题，管家直接让上菜区的厨师顺手处理了，省去了在两个区域间来回跑腿（传输数据）的时间。对于长问题，则严格按照流程走。

3. 它带来了什么好处？

通过这种“动态调整 + 智能调度”，DOPD 实现了以下效果：

效率翻倍（Goodput 提升 1.5 倍）： 同样的厨师数量，能服务的客人多了 50%。
等待时间大幅缩短：
- 客人看到第一个字的速度（TTFT）快了 67.5%（就像点菜后马上就能闻到香味）。
- 生成每个字的速度（TPOT）也快了 22.8%。
省钱（SLO 达标率 99%）： 以前为了怕忙不过来，餐厅可能要多雇 20% 的厨师备用。DOPD 算得准，不需要那么多备用厨师，就能保证 99% 的客人满意，大大降低了成本。

4. 总结

简单来说，DOPD 就是给 AI 推理系统装上了一个**“会看天气、会算账、会灵活排班”的超级大脑**。

它不再让 AI 系统“一刀切”地运行，而是根据每一刻的实际情况，动态地调整“切菜”和“上菜”的人力比例，并聪明地处理那些“太短”或“太长”的特殊订单。最终结果是：花更少的钱（GPU 资源），让 AI 跑得更快、更稳。

这就好比从“死板的流水线工厂”进化成了“灵活应变的敏捷团队”，让大模型服务真正变得高效且经济。

Each language version is independently generated for its own context, not a direct translation.

DOPD 论文技术总结

1. 研究背景与问题定义 (Problem)

随着大语言模型（LLM）参数量的激增，推理服务的成本和延迟成为主要挑战。为了解决预填充（Prefill）和解码（Decoding）阶段在计算和内存需求上的显著差异，PD-Disaggregation（预填充 - 解码解耦）架构应运而生。该架构将 Prefill 任务（计算密集型）和 Decoding 任务（内存密集型）分离到不同的 GPU 实例（P-instance 和 D-instance）上运行。

然而，现有的 PD-Disaggregation 系统面临以下核心问题：

生产 - 消费失衡（Producer-Consumer Imbalance）： LLM 工作负载具有高度的异质性和非平稳性（输入/输出序列长度变化大、突发流量）。静态的 P/D 实例配比无法适应动态变化的负载，导致 P 实例或 D 实例闲置（资源浪费）或排队积压（SLO 违规）。
混合长度请求的干扰： 当短请求和长请求混合时，基于平均长度计算的静态 P/D 比例无法同时满足两者的最优资源需求。特别是对于极短请求，远程 Prefill 带来的 KV Cache 传输延迟可能超过计算时间，导致端到端延迟增加。
缺乏动态优化机制： 现有系统（如 DistServe, SplitWise）多为静态部署或仅支持简单的弹性伸缩，缺乏基于实时负载预测和理论推导的最优 P/D 比例计算能力，难以在满足 SLO 的同时最大化系统吞吐量（Goodput）。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 DOPD (Dynamic Optimal Prefill/Decoding)，一个动态 LLM 推理系统。其核心方法论包含以下三个部分：

2.1 最优 P/D 比例计算模型

DOPD 建立了一个数学模型来推导给定负载下的最优 P/D 实例比例：

约束条件： 考虑 GPU 显存容量（KV Cache 存储限制）和显存带宽（TPOT SLO 限制），计算单个 D-instance 能支持的最大并发度（ $c_{cd}$ ）。
平衡方程： 基于生产 - 消费平衡原理，推导公式 $n_p \times \frac{t_d \times OSL}{t_p} = n_d \times c_{cd}$ 。其中 $n_p, n_d$ 分别为 P 和 D 实例数量， $t_p, t_d$ 为单次预填充和单次解码步时间， $OSL$ 为输出长度。
目标： 在满足 SLO（TTFT, TPOT）的前提下，最小化 GPU 资源使用，使 P 和 D 实例在稳态下均无闲置。

2.2 基于负载预测的动态伸缩

负载预测： 利用 ARIMA 时间序列模型，基于历史遥测数据（请求长度、并发数）预测未来的平均输入/输出长度和并发量。
校正机制： 引入乘法缩放因子（Multiplicative scaling factor），通过对比预测值与实测值来修正预测偏差，提高短期预测的准确性。
弹性调整： 根据预测结果和计算出的最优 P/D 比例，动态调整 P-instance 和 D-instance 的数量。系统支持非破坏性（Zero-downtime）的实例扩缩容。

2.3 长度感知的请求调度策略 (Length-Aware Scheduling)

针对混合长度请求导致的资源错配，DOPD 设计了智能调度算法：

长请求： 立即分发到 P-instance 进行推理，避免排队。
短请求： 采用**批处理（Batching）**策略。将多个短请求累积到一定长度阈值或等待超时后统一处理，以匹配系统当前的 P/D 配置，提高 GPU 利用率。
超短请求（Ultra-short）： 采用 PD-聚合（PD-aggregation） 策略。将极短请求的 Prefill 直接合并到 D-instance 的解码过程中执行，避免不必要的 KV Cache 跨实例传输，显著降低 TTFT。

3. 系统架构 (System Architecture)

DOPD 系统包含五个核心组件：

Resource Monitor (资源监控器)： 收集集群级和实例级的性能指标（如显存利用率、KV Cache 占用、队列长度、TTFT/TPOT 等）。
Router (路由器)： 基于前缀缓存（Prefix Caching）和实例负载，将请求路由到最合适的 D-instance。
Connector (连接器)： 管理实例元数据，维护预填充队列，并基于 NIXL 库实现高性能的 GPU-to-GPU KV Cache 传输。
PD Manager (PD 管理器)： 核心控制单元。负责运行 ARIMA 预测、计算最优 P/D 比例、触发实例的弹性伸缩。
Request Scheduler (请求调度器)： 嵌入在 P/D 实例中，执行长度感知的批处理和路由逻辑。

4. 关键贡献 (Key Contributions)

DOPD 框架设计： 提出了首个结合动态 P/D 比例调整与长度感知调度的 LLM 推理系统，解决了 PD-Disaggregation 中的资源失衡问题。
理论推导与优化算法： 提出了基于显存带宽和容量约束的最优 P/D 比例解析计算方法，并设计了基于 ARIMA 的主动式负载预测与弹性伸缩机制。
混合负载调度策略： 设计了针对混合长度请求的调度算法，通过区分长、短、超短请求的处理路径，有效缓解了资源错配和传输开销。
广泛的实验验证： 在真实生产轨迹（Microsoft Azure, BurstGPT）和多种模型（LLaMa-3.3-70B, OPT-30B, QWen2.5-72B）上进行了全面评估。

5. 实验结果 (Results)

与现有的聚合式（vLLM）和解耦式（DistServe, Dynamo）基线相比，DOPD 取得了显著的性能提升：

吞吐量（Goodput）： 在真实生产负载下，整体系统吞吐量提升了 1.5 倍。
延迟优化：
- P90 TTFT（首字延迟）降低了高达 67.5%。
- P90 TPOT（每字延迟）降低了高达 22.8%。
SLO 达成率： 在动态负载下，DOPD 的 SLO 达成率从基线的 80.8% 提升至 99.4%（仅 0.6% 的违规率）。
资源效率： 在满足相同 SLO 的前提下，DOPD 能够使用更少的 GPU 资源（例如，在 6 张 GPU 上达到 8 张 GPU 聚合系统的吞吐量）。
动态适应性： 在突发流量（BurstGPT 负载）下，DOPD 能迅速感知负载变化并调整实例数量，而基线系统（DYN-LOAD, DYN-SLA）存在明显的滞后和 SLO 违规。

6. 意义与价值 (Significance)

工业级应用价值： DOPD 为 LLM 推理服务提供了一种低成本、高效率的部署方案。通过动态优化资源配比，显著降低了云服务商的 GPU 成本，同时保证了用户体验（低延迟、高可用性）。
理论指导意义： 论文从理论上量化了 PD-Disaggregation 架构中的生产 - 消费平衡问题，为后续研究提供了计算最优资源配置的数学模型。
解决核心痛点： 有效解决了当前解耦架构中因工作负载异质性导致的资源浪费和性能抖动问题，特别是通过长度感知调度解决了短请求在解耦架构下的性能退化问题。
开源贡献： 代码已开源，推动了社区在动态 LLM 推理调度领域的进一步发展。

综上所述，DOPD 通过“理论推导最优比例 + 实时负载预测 + 智能调度”的三位一体策略，成功实现了 LLM 推理服务在动态复杂环境下的性能最大化与资源最小化。

DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving