{\lambda}Scale: Enabling Fast Scaling for Serverless Large Language Model Inference

本文提出了名为λ\lambdaScale的高效无服务器大模型推理系统,其核心创新在于利用高速 RDMA 网络实现模型快速多播与“边加载边执行”的分布式推理机制,从而显著降低了模型启动开销并提升了应对突发负载的能力。

Minchen Yu, Rui Yang, Chaobo Jia, Zhaoyuan Su, Sheng Yao, Tingfeng Lan, Yuchen Yang, Zirui Wang, Yue Cheng, Wei Wang, Ao Wang, Ruichuan Chen

发布于 Mon, 09 Ma
📖 2 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 𝜆Scale 的新系统,它的目标是让无服务器(Serverless)的大语言模型(LLM)推理变得更快、更省钱。

为了让你更容易理解,我们可以把整个系统想象成一个**“超级外卖配送网络”,而大语言模型就是“巨大的披萨”**。

1. 背景:现在的痛点是什么?

场景: 想象你开了一家卖巨型披萨(大模型)的店。平时生意冷清,但突然有一波订单洪峰(比如大家突然都想用 AI 聊天),你需要立刻在几十家分店同时烤出披萨。

现在的困难(冷启动问题):

  • 传统做法(慢): 以前,分店接到订单后,得先去总仓库把整个巨大的披萨面团(模型文件)运过来,再开始烤。如果面团有 140GB 大,用普通快递(普通网络)运,可能需要十几分钟。等面团到了,客人早就饿晕了。
  • 另一种做法(贵): 为了不让客人等,有些店干脆24 小时备着面团(预加载模型)。但这就像为了偶尔的订单,让几十家分店都囤积着巨大的面团,既占地方(内存/显存),又浪费钱(GPU 资源闲置)。

核心矛盾: 要么等得久(冷启动慢),要么花钱多(资源浪费)。

2. 𝜆Scale 的解决方案:边运边烤(Execute-while-Load)

𝜆Scale 提出了一个天才的想法:“边运面团,边开始烤”

它利用了两个关键优势:

  1. 超级高速公路(RDMA 网络): 现在的服务器之间连接着像 400Gbps 这样的超高速专线,比快递快得多。
  2. 流水线作业: 不需要等整个面团运到,只要运到第一块,就可以开始切分、开始烤。

核心比喻:二项式流水线广播(Binomial Pipeline Multicast)

想象一下,你要把一张巨大的海报(模型)分发给 8 个朋友。

  • 旧方法(树状分发): 你先把海报给 A,A 再给 B 和 C,B 再给 D 和 E……像传声筒一样,一层层传,很慢。
  • 𝜆Scale 的方法(二项式流水线):
    • 你把海报撕成 4 块(分块)。
    • 你同时把第 1 块给 A,第 2 块给 B。
    • A 拿到第 1 块后,立刻把第 1 块传给 C,同时你给 A 第 3 块。
    • 关键点: 只要 A 拿到了第 1 块,他就可以立刻开始处理第 1 块的任务(比如开始推理),而不需要等第 2、3、4 块都到齐。
    • 这就是**“边运边烤”**。

3. 𝜆Scale 的三大绝招

为了让这个“边运边烤”完美运行,论文设计了三个核心机制:

① 智能分发策略(𝜆Pipe)

  • 比喻: 就像是一个聪明的物流调度员
  • 作用: 它不只是简单地把模型传过去,而是根据网络情况,把模型切成最合适的“小块”,并安排谁先传哪一块。它让所有收到部分模型的分店(节点),立刻组成一个**“流水线团队”**。
  • 效果: 哪怕模型还没传完,只要第一块到了,团队就能立刻开始干活(处理用户请求),大大减少了排队等待的时间。

② 动态切换模式(Mode Switching)

  • 比喻: 从“接力赛”切换到“个人赛”
  • 作用: 在模型传输过程中,大家是“接力”干活(分布式推理)。一旦模型完全传到了某个分店,这个分店就立刻变成“独立门店”,自己全权处理后续请求,不再需要和其他店接力。
  • 效果: 既利用了传输时的并行能力,又保证了传输完成后的本地高效运行,中间没有卡顿。

③ 灵活的记忆管理(Locality-driven Startup)

  • 比喻: 智能冰箱和冷库
  • 作用: 模型可以存在不同的地方:
    • 热启动(GPU 显存): 面团就在烤箱旁,秒级启动。
    • 温启动(内存): 面团在冰箱里,拿过来很快。
    • 冷启动(硬盘/云端): 面团在很远的冷库,需要时间。
  • 效果: 𝜆Scale 能根据面团在哪里,自动选择最快的“搬运 + 烹饪”方案,不管面团在哪,都能快速响应。

4. 结果如何?

论文在真实的阿里云和 Azure 数据上测试了这套系统,效果惊人:

  • 速度快: 相比现有的最先进方案,𝜆Scale 让90% 的用户等待时间(尾延迟)缩短了 5 倍。也就是说,以前要等 5 秒才能看到第一个字,现在只要 1 秒。
  • 省钱: 因为不需要为了应对高峰而囤积大量闲置的 GPU 资源,成本降低了约 31%
  • 抗爆发: 面对突然的流量洪峰(比如大家突然都在用 AI),它能像变形金刚一样,瞬间“变”出更多分身来干活,而不会让系统崩溃。

总结

𝜆Scale 就像是一个**“零等待、零浪费”的超级外卖系统**。它不再死板地等待所有材料到齐再开工,而是利用超高速网络,让材料在运输途中就开始被加工。

  • 以前: 等面团运到 -> 开始烤 -> 出餐(慢,且浪费资源)。
  • 现在(𝜆Scale): 面团运到第一块 -> 立刻开始烤第一块 -> 面团运到第二块 -> 立刻烤第二块(快,且省钱)。

这项技术让大模型在云端的使用体验更接近“即开即用”,让 AI 服务变得更便宜、更流畅。