Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve 是一个基于 Kubernetes 的分布式服务系统,旨在通过灵活的任务抽象、组件解耦及高效的记录与重放执行模型,解决 Any-to-Any 多模态模型在服务中因路径差异和扩展特性不同而面临的挑战,从而显著提升吞吐量并降低尾延迟。

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury

发布于 Fri, 13 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

想象一下,未来的 AI 不再只是只会“聊天”的机器人,也不只是只会“画画”的画家,而是一个全能型超级管家

这个管家不仅能听懂你的话(文本),还能看懂你的照片(图像)、视频,甚至听懂你的语音。更厉害的是,它不仅能用文字回答你,还能根据你的要求,直接生成一段视频、一段音频,或者一张新图片。

这种“输入任意格式,输出任意格式”的 AI 模型,论文里称之为 "Any-to-Any"(任意到任意)模型

但是,要同时伺候好这位“全能管家”非常困难。这就好比你要开一家超级餐厅,但客人们点的菜千奇百怪:

  • 有的客人只点“文字沙拉”(纯文本对话)。
  • 有的客人点“图文大餐”(看图说话)。
  • 有的客人点“视听盛宴”(看视频并生成语音)。

传统的 AI 服务器(Monolith) 就像是一个大锅炖。不管客人点什么,所有食材(数据)都要扔进同一个大锅里,由同一批厨师(GPU 显卡)按顺序处理。

  • 问题 1:效率低。 如果客人只想要“文字沙拉”,厨师却不得不先花时间去切“视频”和“音频”的备料,白白浪费时间和资源。
  • 问题 2:瓶颈。 如果“做视频”的环节特别慢,整个厨房就堵住了,后面排队做“文字沙拉”的客人也得跟着干等。
  • 问题 3:吃不消。 有些大模型太复杂,一个大锅根本装不下,直接撑爆了(显存溢出)。

🌽 Cornserve:AI 界的“乐高式”分布式厨房

这篇论文介绍了一个叫 Cornserve 的新系统,它彻底改变了这种“大锅炖”的模式。我们可以把它想象成一个高度灵活、模块化的“乐高式”分布式厨房

1. 核心魔法:把大模型“拆”开来(模型裂变)

Cornserve 不再把整个模型塞进一个黑盒子里。它像拆乐高积木一样,把 AI 模型拆成了一个个独立的功能模块

  • 眼睛模块(专门处理图片/视频)
  • 大脑模块(专门处理逻辑/文本,即 LLM)
  • 嘴巴模块(专门生成语音)
  • 画笔模块(专门生成图片)

比喻: 以前是“全能厨师”一个人从切菜到炒菜再到摆盘全包;现在是流水线作业。切菜的只管切菜,炒菜的只管炒菜,装盘的只管装盘。如果今天“切菜”的订单特别多,你就多招几个切菜工;如果“炒菜”很忙,就多加几个炒锅。大家互不干扰,各自发挥最大效率。

2. 聪明的调度员:记录与回放(Record-and-Replay)

这是 Cornserve 最聪明的地方。因为客人的需求千变万化(有的要图,有的要声),系统怎么知道该让哪些模块工作呢?

  • 记录阶段(试跑): 当客人下单时,系统先让模型“空跑”一遍。这时候不真的做菜,只是快速记下:“哦,这位客人点了图文,需要‘眼睛’和‘大脑’,不需要‘嘴巴’"。
  • 回放阶段(真做): 系统根据刚才记下的路线,精准地把任务派发给对应的模块。
  • 比喻: 就像餐厅经理先快速看一眼菜单,画出一条“最优上菜路线”,然后指挥后厨:“切菜组准备,切完直接传给炒菜组,跳过摆盘组,直接上菜!”这样就没有任何多余的步骤。

3. 极速传送带:Sidecar 数据搬运工

当模块被拆分到不同的电脑(GPU)上工作时,数据怎么传递?
Cornserve 在每个模块旁边都配了一个专属快递员(Sidecar)

  • 比喻: 以前数据传递像“寄快递”,要打包、填单、走流程,很慢。现在,快递员直接把数据从“切菜组”的案板,通过共享内存(就像在同一个房间递东西)或者高速光纤(RDMA),直接塞到“炒菜组”的手里。
  • 结果: 数据在模块间飞得飞快,几乎感觉不到延迟。

4. 资源共享:拼单更划算

如果两个不同的 AI 应用都需要用到同一个“眼睛模块”(比如都用来识别图片),Cornserve 不会重复造轮子。

  • 比喻: 就像大家拼单点外卖。两个餐厅如果都要用同一种高级食材,Cornserve 会只买一份,然后分给两家店用。这样省下了大量的显卡(GPU)资源。

🚀 效果如何?

论文通过实验证明,Cornserve 这套“乐高式”厨房比传统的“大锅炖”强太多了:

  1. 速度快了 3.8 倍: 同样的硬件,Cornserve 能处理的请求量是原来的近 4 倍。
  2. 等待时间短了 5.8 倍: 那些排队最久的“长尾”请求(比如复杂的视频生成),等待时间大幅缩短。
  3. 能跑更大的模型: 以前因为显存不够跑不起来的大模型(如 Qwen 3 Omni),现在可以拆分部署,顺利运行。

总结

Cornserve 就是为了解决未来 AI 越来越“全能”、越来越“复杂”而设计的超级调度系统

它不再强迫 AI 模型在一个固定的盒子里运行,而是允许开发者像搭积木一样自由组合,让每个部分都能独立伸缩、独立加速。这就好比把一家拥挤、低效的传统餐厅,升级成了一个自动化、模块化、按需分配的超级美食工厂,让未来的 AI 服务既快又稳,还能处理各种天马行空的需求。