Serving Compound Inference Systems on Datacenter GPUs

本文提出了 JigsawServe 框架,通过自适应选择模型变体、细粒度 GPU 空间分区以及任务图感知的资源预算分配,联合优化延迟、精度与成本,从而显著提升了复合推理系统在数据中心 GPU 上的服务效率与资源利用率。

Sriram Devata, Rahul Singh, Sarita Adve

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 JIGSAWSERVE(可以想象成“拼图服务”)的新系统,它的目标是让数据中心里的 GPU(图形处理器,AI 的大脑)干活更高效、更省钱。

为了让你轻松理解,我们把整个场景想象成一个繁忙的披萨店,而 JIGSAWSERVE 就是那个超级智能的店长

1. 背景:以前的问题是什么?

想象一下,现在的 AI 应用(比如增强现实 AR、多智能体系统)不再只是做一道菜(比如只识别图片),而是做一套复杂的套餐

  • 以前的做法(单任务): 顾客点一份披萨,厨房就只烤一个披萨。
  • 现在的做法(复合推理系统): 顾客点了一个“全家福套餐”。这个套餐包含:先识别图片里的物体(任务 A),然后给物体起个名字(任务 B),最后把名字念出来(任务 C)。这三个任务必须按顺序完成,才能把最终结果交给顾客。

痛点:

  1. 资源浪费: 以前,每个任务都独占一台大烤箱(GPU)。但任务 A 可能只需要烤 1 分钟,任务 C 需要 10 分钟。如果任务 A 烤完了,烤箱就空转了,太浪费!
  2. 预算难分: 顾客说:“我只要 5 分钟内拿到套餐,而且味道(准确率)不能太差。”店长很难决定:是花 3 分钟做 A、2 分钟做 B、0 分钟做 C?还是反过来?如果某个环节用了“速成版”(精度低但快),会不会影响整体味道?
  3. 硬件太贵: 数据中心的 GPU 非常昂贵,如果利用率低,老板就要亏钱。

2. JIGSAWSERVE 的三大绝招(拼图魔法)

JIGSAWSERVE 就像一位拼图大师,它把整个任务流程拆解,然后重新组合,用三种魔法来解决上述问题:

魔法一:灵活选料(模型变体选择 / Accuracy Scaling)

  • 比喻: 就像做披萨,你可以选“顶级和牛”(高精度模型,慢但好吃),也可以选“普通牛肉”(低精度模型,快但普通)。
  • 做法: 店长会根据情况灵活搭配。对于不重要的步骤(比如只是大概看看有没有人),就用“普通牛肉”(快模型);对于关键步骤(比如最后念名字),就用“顶级和牛”(慢但准的模型)。
  • 效果: 在保证整体套餐“味道”达标的前提下,大大加快了速度。

魔法二:切分烤箱(GPU 空间分区 / Spatial Partitioning)

  • 比喻: 以前,一个大烤箱只能烤一个披萨,烤完一个才能烤下一个。现在,JIGSAWSERVE 把一个大烤箱切成了7 个小隔间(利用 NVIDIA 的 MIG 技术)。
  • 做法: 任务 A 用 1 个小隔间,任务 B 用 2 个小隔间,任务 C 用 1 个小隔间。它们可以同时在同一个大烤箱里工作,互不干扰。
  • 效果: 以前一个烤箱一小时只能烤 1 个披萨,现在切分后,一小时能烤 7 个(甚至更多,如果配合魔法三)。

魔法三:全局统筹(任务图感知预算 / Task-Graph-Informed Budgeting)

  • 比喻: 这是一个超级计算器。它知道整个套餐的流程图(任务图)。
  • 做法: 它不仅仅看单个任务,而是看整体。它知道:“哦,任务 A 如果慢一点,会卡住后面所有的任务,所以必须给 A 多分点资源;而任务 B 后面还有缓冲,可以稍微慢点。”它把“时间预算”和“精度预算”像切蛋糕一样,精准地分给每一个环节。
  • 效果: 避免了“木桶效应”,确保整个套餐在 5 分钟内完美交付。

3. 它是怎么工作的?(店长的日常)

  1. 注册与画像(Profiler): 在开业前,店长会先做实验。测试每种“牛肉”(模型)在不同大小的“烤箱隔间”(GPU 分区)里,烤一个披萨需要多久,味道如何。把这些数据记在小本本上。
  2. 智能排班(Controller): 当顾客点单(请求)来了,店长拿出小本本,用数学公式(MILP,混合整数线性规划)快速计算:
    • 今天人多,我要切几个隔间?
    • 任务 A 用哪种牛肉?
    • 怎么分配才能让所有顾客都在 5 分钟内拿到,且味道不缩水?
  3. 动态调整: 如果突然来了很多顾客,店长会立刻重新计算,把烤箱切得更细,或者换更快的牛肉,确保不超时。

4. 效果有多惊人?

论文通过实验发现,JIGSAWSERVE 简直是降维打击

  • 吞吐量暴增: 在同样的 GPU 数量下,它能处理的请求量是以前最先进系统的 11.3 倍!这意味着同样的硬件,能服务 10 倍多的用户。
  • 极度省钱: 它平均只用了 43.3% 的 GPU 资源就能满足所有要求。换句话说,以前需要 100 台机器,现在可能 45 台就够了,省下的钱能买新设备。
  • 几乎不违约: 它承诺的“准时送达”(延迟 SLO)和“味道达标”(准确率 SLO)几乎都能做到,违约率低于 0.6%

5. 总结

JIGSAWSERVE 就像是一个懂数学、会切分、能变通的超级店长。

它不再让昂贵的 GPU 大材小用或闲置等待,而是通过把大任务拆成小拼图灵活选择材料,并精细分配烤箱空间,让 AI 服务变得既快、又准、又便宜。

一句话总结: 以前是“一个萝卜一个坑,萝卜大了坑也空”,现在是“把萝卜切碎了填进坑里,还能同时种好几个萝卜”,让每一分算力都物尽其用。