xLLM Technical Report

本文介绍了 xLLM,这是一个专为大规模企业级服务设计的智能高效大语言模型推理框架,通过解耦的服务 - 引擎架构、多模态自适应调度、全局 KV 缓存管理及底层执行与算法协同优化,在多种主流模型上实现了显著优于 MindIE 和 vLLM-Ascend 的吞吐量与资源效率。

Tongxuan Liu, Tao Peng, Peijun Yang, Xiaoyang Zhao, Xiusheng Lu, Weizhe Huang, Zirui Liu, Xiaoyu Chen, Zhiwei Liang, Jun Xiong, Donghe Jin, Minchao Zhang, Jinrong Guo, Yingxu Deng, Xu Zhang, Xianzhe Dong, Siqi Wang, Siyu Wu, Yu Wu, Zihan Tang, Yuting Zeng, Yanshu Wang, Jinguang Liu, Meng Kang, Menxin Li, Yunlong Wang, Yiming Liu, Xiaolong Ma, Yifan Wang, Yichen Zhang, Jinrun Yin, Keyang Zheng, Jiawei Yin, Jun Zhang, Ziyue Wang, Xiaobo Lin, Liangyu Liu, Liwei Lan, Yang Liu, Chunhua Peng, Han Liu, Songcheng Ren, Xuezhu Wang, Yunheng Shen, Yi Wang, Guyue Liu, Yitao Hu, Hui Chen, Tong Yang, Hailong Yang, Jing Li, Guiguang Ding, Ke Zhang

发布于 2026-03-04
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇技术报告介绍了一个名为 xLLM 的“超级大脑管家”。它的任务是让大型人工智能模型(LLM,比如能写诗、聊天的 AI)在京东这样的超大规模企业环境中,跑得更快、更稳、更省钱。

为了让你更容易理解,我们可以把运行 AI 模型想象成经营一家繁忙的“智能餐厅”

1. 核心痛点:以前的餐厅为什么忙不过来?

在 xLLM 出现之前,主流的 AI 推理框架(比如 vLLM 或 MindIE)就像一家管理僵化的传统餐厅,面临四个大麻烦:

  • 潮汐效应难应对:餐厅在饭点(在线用户提问)人满为患,但在深夜(离线数据分析)却空无一人。以前的系统要么饭点排队太长,要么深夜机器闲置浪费。
  • 工序死板:以前做一道菜(AI 生成回答)必须严格按顺序:先备菜(Prefill,处理输入),再炒菜(Decode,生成输出)。如果备菜的人忙不过来,炒菜的人就得干等着;反之亦然。
  • 多任务处理笨拙:现在的 AI 不仅能看文字,还能看图、听声音(多模态)。以前的系统处理图文混合任务时,像是一个厨师既要切菜又要画画,手忙脚乱,效率极低。
  • 故障恢复慢:如果某个厨师(服务器节点)突然晕倒,以前的系统得把整道菜重新做一遍(重新加载模型),导致所有客人都要等很久。

2. xLLM 的解决方案:双核驱动的“智能餐厅”

xLLM 把整个系统拆成了两个核心部门:前台调度部 (xLLM-Service)后厨引擎部 (xLLM-Engine)

A. 前台调度部 (xLLM-Service):聪明的“大堂经理”

这位经理拥有“读心术”和“变形金刚”般的能力:

  • 在线/离线混坐策略

    • 比喻:就像餐厅在饭点时,优先服务点急菜的客人(在线聊天);但在客人少的间隙,立刻安排空闲的厨师去处理“预制菜”(离线数据分析)。一旦饭点高峰来临,立刻把预制菜的任务暂停,让厨师全力服务急客。
    • 效果:既保证了急客不用等,又让机器在空闲时没闲着,资源利用率拉满。
  • 动态工序分离 (PD/EPD 解耦)

    • 比喻:以前是“一人包办”(备菜和炒菜都在一个灶台)。xLLM 把“备菜”和“炒菜”分给不同的专业团队。
    • 动态调整:如果今天“备菜”的人手不够(输入很长),经理就立刻把几个“炒菜”的厨师调过来帮忙备菜;反之亦然。
    • 多模态特化:对于图文混合任务,它引入了“绘图师”(编码模块),让绘图、备菜、炒菜三个环节可以并行或灵活组合,互不干扰。
  • 全球库存管理 (KV Cache)

    • 比喻:AI 聊天需要记住之前的对话(KV Cache)。以前每个厨师只能记自己手里的笔记,记多了就记不住。xLLM 建立了一个云端共享笔记库。如果 A 厨师记满了,可以把笔记瞬间传给 B 厨师,或者存在高速硬盘里,确保大家都能随时调取上下文,不会“失忆”。
  • 极速故障恢复

    • 比喻:如果某个厨师晕倒了,系统不会重新培训他,而是立刻把他的手头工作(笔记)无缝移交给旁边的厨师,就像接力赛一样,客人甚至感觉不到换人了。

B. 后厨引擎部 (xLLM-Engine):硬核的“超级灶台”

这是真正干活的部门,它通过软硬结合,让硬件跑得飞快:

  • 流水线作业 (多层流水线)

    • 比喻:以前是“等菜做完再切下一盘”。xLLM 让 CPU(切菜工)和 AI 加速器(炒菜锅)同时工作。当锅在炒第 1 道菜时,切菜工已经在准备第 2 道菜的食材了。两者完美重叠,没有等待时间。
  • 自适应“预编译”模式 (Adaptive Graph Mode)

    • 比喻:以前每做一道新菜,厨师都要先问一遍“用什么火?放多少盐?”,这很浪费时间。xLLM 把常用的菜谱提前印成“标准操作卡”(计算图),厨师直接照着做,省去了反复沟通的时间。而且,它很灵活,能根据菜量大小自动调整操作卡。
  • 智能内存管理 (xTensor)

    • 比喻:以前的内存管理像“固定大小的储物柜”,不管菜多菜少,都要占满整个柜子,浪费空间。xLLM 像“乐高积木”,需要多少空间就拼多少块,而且逻辑上是连在一起的,物理上是分散的,既省空间又存取快。
  • 算法优化 (投机解码 & 负载均衡)

    • 比喻
      • 投机解码:厨师在炒菜时,先“猜”客人可能要什么菜,提前把料备好。如果猜对了,直接上菜;猜错了再重做。这大大加快了上菜速度。
      • 负载均衡:如果某个厨师太忙,系统会自动把一部分任务分给旁边空闲的厨师,避免有人累死、有人闲死。

3. 实际效果:京东的“实战”表现

xLLM 已经在京东的“京言”AI 客服、营销推荐等核心业务中上线了。

  • 速度提升:在同样的硬件条件下,xLLM 的吞吐量(上菜速度)比现有的主流方案(MindIE)快了 1.7 倍,比另一个方案(vLLM-Ascend)快了 2.2 倍
  • 更稳:无论流量怎么波动,都能保证用户(在线请求)不卡顿,同时还能利用空闲时间处理更多后台任务。
  • 更省:因为效率高,企业可以用更少的机器跑更多的业务,节省了大量成本。

总结

xLLM 就像给 AI 模型装上了一套“智能交通系统”和“超级引擎”。

它不再让 AI 像一辆笨重的卡车在拥堵的公路上走走停停,而是把它变成了一列高铁

  1. 调度灵活:根据客流自动调整车厢(动态资源分配)。
  2. 并行高效:乘客上下车和列车行驶同时进行(流水线重叠)。
  3. 故障自愈:哪怕一节车厢坏了,也能瞬间切换,列车不停。

这套系统不仅让京东的 AI 服务更流畅,也开源给了全世界,希望能让所有的 AI 应用都跑得更快、更聪明。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →