CRAFT: Cost-aware Expert Replica Allocation with Fine-Grained Layerwise Estimations

本文提出了 CRAFT 框架,通过基于细粒度层间收益估计的专家副本分配策略,在给定显存预算下最大化负载平衡,从而在无需额外训练或模型修改的情况下,显著提升大规模 MoE 模型的服务吞吐量。

Adrian Zhao, Zhenkun Cai, Zhenyu Song, Lingfan Yu, Haozheng Fan, Jun Wu, Yida Wang, Nandita Vijaykumar

发布于 2026-04-01
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 CRAFT 的新系统,它的任务是让运行超大型人工智能(AI)模型时变得更省钱、更快速。

为了让你轻松理解,我们可以把运行一个超大的 AI 模型(比如 Kimi 或 DeepSeek)想象成经营一家超级繁忙的“专家餐厅”

1. 背景:什么是“专家餐厅”?(MoE 架构)

现在的顶级 AI 模型(称为 MoE,混合专家模型)不像以前的模型那样只有一个大脑。它们像是一个拥有成百上千个不同领域专家(比如有的擅长数学,有的擅长写诗,有的懂法律)的餐厅。

  • 工作原理:当顾客(用户)点菜(输入问题)时,餐厅经理(路由器)会根据问题内容,只叫几个最合适的专家来服务,而不是让所有专家都围过来。
  • 好处:这样既聪明又高效,因为不需要每次都动用所有人。
  • 问题:但是,有些专家(比如“写诗专家”)太受欢迎了,几乎每道菜都要找他;而有些专家(比如“冷门历史专家”)却没人理。这就导致了忙闲不均

2. 痛点:现有的解决方案太“浪费”了

为了解决“忙闲不均”,现有的系统(比如论文里提到的 EPLB)采取了一个简单粗暴的办法:复制专家

  • 旧方法(EPLB):不管这位专家有多忙,系统给每一层每一台服务器都复制一份这位专家的“分身”。
    • 比喻:就像餐厅里,不管“写诗专家”忙不忙,老板都强行给每个厨房都配了一个“写诗专家”的复印版。
    • 后果
      1. 内存爆炸:这些分身占用了大量的 GPU 内存(就像餐厅里塞满了多余的桌椅,导致没地方放食材)。
      2. 资源浪费:很多分身其实根本用不上,因为那位专家本来就不忙。
      3. 效率下降:因为内存被占满了,餐厅能同时接待的顾客(并发量)反而变少了,整体速度变慢。

3. CRAFT 的创意:像“精算师”一样分配资源

CRAFT 的核心思想是:不要盲目复制,要“按需分配”,把钱花在刀刃上。

它把复制专家的过程变得非常精细聪明

第一步:观察与诊断(细粒度估算)

CRAFT 不会一开始就乱复制。它会先观察一下:

  • 哪几层的专家特别忙?(比如第 51 层的“写诗专家”忙到飞起,需要分身)。
  • 哪几层的专家本来就很闲?(比如第 20 层的“冷门专家”,大家分布很均匀,根本不需要分身)。
  • 比喻:就像餐厅经理先统计数据,发现“写诗”这一类需求在晚上特别火爆,需要加人手;但“做汤”这一类需求很平稳,不需要加人。

第二步:智能分配(成本感知)

CRAFT 会根据观察结果,制定一个最优计划

  • 对于特别忙的层,给它多复制几个分身(比如 4 个)。
  • 对于不太忙的层,只给 1 个或者 0 个分身。
  • 比喻:经理决定只在“写诗”最忙的 3 个时段增加 4 个临时工,而在其他时段保持原样。这样既解决了拥堵,又没多租很多桌子(节省内存)。

第三步:完美落座(负载均衡)

分配好分身后,CRAFT 还会像玩俄罗斯方块一样,把这些分身和原专家巧妙地安排到不同的服务器(GPU)上,确保每台服务器的负载都差不多,不会出现“有的累死,有的闲死”的情况。

4. 效果:更省钱,更快

通过这种“精打细算”的方法,CRAFT 带来了惊人的效果:

  • 省内存:它用一半甚至更少的内存开销,就达到了和旧方法一样好的负载均衡效果。
  • 提速度:因为省下的内存可以用来存更多的“点菜记录”(KV Cache),餐厅能同时接待更多顾客。
  • 实测数据:在大规模部署中,CRAFT 让 AI 的整体处理速度(吞吐量)平均提升了 14%(最高提升 20%)。

总结

CRAFT 就像是一个拥有“上帝视角”的超级餐厅经理。

以前的经理(EPLB)是“宁可错杀一千,不可放过一个”,不管忙不忙,全员复制,结果导致餐厅拥挤不堪。
CRAFT 则是“看人下菜碟”,通过精细的计算,只在真正需要的地方增加人手。它不需要重新训练 AI 模型,也不需要改变模型结构,直接就能插进现有的系统里,让 AI 跑得更快、更稳、更省钱。

一句话概括:CRAFT 通过“好钢用在刀刃上”的精细复制策略,解决了 AI 大模型运行时的“忙闲不均”和“内存浪费”问题,让 AI 服务更便宜、更快速。