Serving Compound Inference Systems on Datacenter GPUs

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 JIGSAWSERVE（可以想象成“拼图服务”）的新系统，它的目标是让数据中心里的 GPU（图形处理器，AI 的大脑）干活更高效、更省钱。

为了让你轻松理解，我们把整个场景想象成一个繁忙的披萨店，而 JIGSAWSERVE 就是那个超级智能的店长。

1. 背景：以前的问题是什么？

想象一下，现在的 AI 应用（比如增强现实 AR、多智能体系统）不再只是做一道菜（比如只识别图片），而是做一套复杂的套餐。

以前的做法（单任务）： 顾客点一份披萨，厨房就只烤一个披萨。
现在的做法（复合推理系统）： 顾客点了一个“全家福套餐”。这个套餐包含：先识别图片里的物体（任务 A），然后给物体起个名字（任务 B），最后把名字念出来（任务 C）。这三个任务必须按顺序完成，才能把最终结果交给顾客。

痛点：

资源浪费： 以前，每个任务都独占一台大烤箱（GPU）。但任务 A 可能只需要烤 1 分钟，任务 C 需要 10 分钟。如果任务 A 烤完了，烤箱就空转了，太浪费！
预算难分： 顾客说：“我只要 5 分钟内拿到套餐，而且味道（准确率）不能太差。”店长很难决定：是花 3 分钟做 A、2 分钟做 B、0 分钟做 C？还是反过来？如果某个环节用了“速成版”（精度低但快），会不会影响整体味道？
硬件太贵： 数据中心的 GPU 非常昂贵，如果利用率低，老板就要亏钱。

2. JIGSAWSERVE 的三大绝招（拼图魔法）

JIGSAWSERVE 就像一位拼图大师，它把整个任务流程拆解，然后重新组合，用三种魔法来解决上述问题：

魔法一：灵活选料（模型变体选择 / Accuracy Scaling）

比喻： 就像做披萨，你可以选“顶级和牛”（高精度模型，慢但好吃），也可以选“普通牛肉”（低精度模型，快但普通）。
做法： 店长会根据情况灵活搭配。对于不重要的步骤（比如只是大概看看有没有人），就用“普通牛肉”（快模型）；对于关键步骤（比如最后念名字），就用“顶级和牛”（慢但准的模型）。
效果： 在保证整体套餐“味道”达标的前提下，大大加快了速度。

魔法二：切分烤箱（GPU 空间分区 / Spatial Partitioning）

比喻： 以前，一个大烤箱只能烤一个披萨，烤完一个才能烤下一个。现在，JIGSAWSERVE 把一个大烤箱切成了7 个小隔间（利用 NVIDIA 的 MIG 技术）。
做法： 任务 A 用 1 个小隔间，任务 B 用 2 个小隔间，任务 C 用 1 个小隔间。它们可以同时在同一个大烤箱里工作，互不干扰。
效果： 以前一个烤箱一小时只能烤 1 个披萨，现在切分后，一小时能烤 7 个（甚至更多，如果配合魔法三）。

魔法三：全局统筹（任务图感知预算 / Task-Graph-Informed Budgeting）

比喻： 这是一个超级计算器。它知道整个套餐的流程图（任务图）。
做法： 它不仅仅看单个任务，而是看整体。它知道：“哦，任务 A 如果慢一点，会卡住后面所有的任务，所以必须给 A 多分点资源；而任务 B 后面还有缓冲，可以稍微慢点。”它把“时间预算”和“精度预算”像切蛋糕一样，精准地分给每一个环节。
效果： 避免了“木桶效应”，确保整个套餐在 5 分钟内完美交付。

3. 它是怎么工作的？（店长的日常）

注册与画像（Profiler）： 在开业前，店长会先做实验。测试每种“牛肉”（模型）在不同大小的“烤箱隔间”（GPU 分区）里，烤一个披萨需要多久，味道如何。把这些数据记在小本本上。
智能排班（Controller）： 当顾客点单（请求）来了，店长拿出小本本，用数学公式（MILP，混合整数线性规划）快速计算：
- 今天人多，我要切几个隔间？
- 任务 A 用哪种牛肉？
- 怎么分配才能让所有顾客都在 5 分钟内拿到，且味道不缩水？
动态调整： 如果突然来了很多顾客，店长会立刻重新计算，把烤箱切得更细，或者换更快的牛肉，确保不超时。

4. 效果有多惊人？

论文通过实验发现，JIGSAWSERVE 简直是降维打击：

吞吐量暴增： 在同样的 GPU 数量下，它能处理的请求量是以前最先进系统的 11.3 倍！这意味着同样的硬件，能服务 10 倍多的用户。
极度省钱： 它平均只用了 43.3% 的 GPU 资源就能满足所有要求。换句话说，以前需要 100 台机器，现在可能 45 台就够了，省下的钱能买新设备。
几乎不违约： 它承诺的“准时送达”（延迟 SLO）和“味道达标”（准确率 SLO）几乎都能做到，违约率低于 0.6%。

5. 总结

JIGSAWSERVE 就像是一个懂数学、会切分、能变通的超级店长。

它不再让昂贵的 GPU 大材小用或闲置等待，而是通过把大任务拆成小拼图，灵活选择材料，并精细分配烤箱空间，让 AI 服务变得既快、又准、又便宜。

一句话总结： 以前是“一个萝卜一个坑，萝卜大了坑也空”，现在是“把萝卜切碎了填进坑里，还能同时种好几个萝卜”，让每一分算力都物尽其用。

Serving Compound Inference Systems on Datacenter GPUs

1. 背景：以前的问题是什么？

2. JIGSAWSERVE 的三大绝招（拼图魔法）

魔法一：灵活选料（模型变体选择 / Accuracy Scaling）

魔法二：切分烤箱（GPU 空间分区 / Spatial Partitioning）

魔法三：全局统筹（任务图感知预算 / Task-Graph-Informed Budgeting）

3. 它是怎么工作的？（店长的日常）

4. 效果有多惊人？

5. 总结

1. 研究背景与问题 (Problem)

2. 方法论：JIGSAWSERVE 框架 (Methodology)

核心组件

关键技术机制

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

Serving Compound Inference Systems on Datacenter GPUs

1. 背景：以前的问题是什么？

2. JIGSAWSERVE 的三大绝招（拼图魔法）

魔法一：灵活选料（模型变体选择 / Accuracy Scaling）

魔法二：切分烤箱（GPU 空间分区 / Spatial Partitioning）

魔法三：全局统筹（任务图感知预算 / Task-Graph-Informed Budgeting）

3. 它是怎么工作的？（店长的日常）

4. 效果有多惊人？

5. 总结

1. 研究背景与问题 (Problem)

2. 方法论：JIGSAWSERVE 框架 (Methodology)

核心组件

关键技术机制

3. 主要贡献 (Key Contributions)

4. 实验结果 (Results)

5. 意义与结论 (Significance)

类似论文

A Hybrid Residue Floating Numerical Architecture with Formal Error Bounds for High Throughput FPGA Computation

On the Multi-Commodity Flow with convex objective function: Column-Generation approaches

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

AnalogToBi: Device-Level Analog Circuit Topology Generation via Bipartite Graph and Grammar Guided Decoding

Artificial Intelligence (AI) Maturity in Small and Medium-Sized Enterprises: A Framework of Internalized and Ecosystem-Embedded Capabilities