Token Management in Multi-Tenant AI Inference Platforms

本文提出了一种名为“令牌池”的控制平面抽象,通过将推理容量转化为以令牌吞吐量、KV 缓存和并发度等原生单位表示的显式权益,解决了多租户 AI 推理平台在资源利用与服务等级保障之间的平衡难题,实现了无需修改底层运行时即可进行优先级感知分配、差异化保障及基于债务的公平调度。

William J. Cunningham

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文主要解决了一个在大模型(AI)时代非常棘手的问题:当很多人同时想用同一个 AI 模型时,怎么公平、高效地分配资源,既不让重要的人等太久,又不浪费算力?

为了让你轻松理解,我们可以把整个系统想象成一家繁忙的“智能餐厅”

1. 现状:传统的“点餐”方式有多糟糕?

想象一下,这家餐厅(AI 平台)里有很多顾客(租户),他们都想让厨师(GPU 显卡)做一道复杂的菜(生成 AI 回答)。

  • 旧方法 A:包间制(专用端点)
    以前,餐厅给每个 VIP 客户单独开一个包间,里面配一个专属厨师。
    • 缺点:如果这个 VIP 客户今天没来,那个厨师就在那儿干坐着,资源被浪费了。而且如果来了很多临时客,没包间的人只能被拒之门外。
  • 旧方法 B:数人头制(传统限速)
    餐厅门口贴个牌子:“每分钟只允许进 10 个人”。
    • 缺点:这太粗糙了!不管你是来点一杯水(简单的短问题),还是来吃满汉全席(超长的复杂推理),都算作"1 个人”。
    • 后果:一个吃满汉全席的人占用了厨师 1 个小时,结果导致后面 10 个只喝水的人都被堵在门口。餐厅明明有空闲的桌子(算力),却因为规则死板而无法利用

2. 新方案:Token Pools(令牌池)—— 用“食材”来衡量

这篇论文提出了一种叫**"Token Pools"(令牌池)**的新管理方式。

核心比喻:把“算力”变成了“食材配额”

在这个新餐厅里,不再按“人数”或“包间”收费,而是按**“食材消耗量”**来管理。

  • Token(令牌):就像餐厅里的**“食材单位”**。
    • 你问一个问题,AI 回答得越长,消耗的“食材”(Token)就越多。
    • 有些问题需要厨师记很多笔记(KV 缓存),这就像占用了更多的**“冰箱空间”**。
    • 有些问题需要厨师同时处理很多道菜(并发),这就像占用了更多的**“灶台”**。

令牌池(Token Pool) 就是餐厅的中央食材库。它不再看有多少人排队,而是看:

  1. 你的**“食材消耗速度”**(每秒能出多少菜)。
  2. 你的**“冰箱占用量”**(需要记多少笔记)。
  3. 你的**“灶台占用数”**(同时能做几道菜)。

3. 三大创新机制

A. 会员等级制(服务等级 Service Classes)

餐厅把顾客分成了不同的等级,就像航空公司的座位:

  • 头等舱(Dedicated/Guaranteed):无论多忙,他们的菜必须做,而且速度有保证。哪怕餐厅爆满,也不会被赶走。
  • 经济舱(Elastic):平时有保证,但如果餐厅太忙,可以暂时少给点菜,等忙完了再补上(这叫“欠债机制”)。
  • 站票/特价票(Spot/Preemptible):只有当餐厅有空位时才给做。一旦有人要坐头等舱或经济舱,这些人的菜立刻停止制作,把资源让出来。

B. 智能门童(Admission Control)

在顾客点菜(发送请求)之前,门口的智能门童会先算一笔账:

  • “这位顾客想点的菜,需要消耗多少食材?”
  • “现在的食材池里还有余量吗?”
  • “这位顾客是 VIP 还是站票?”

如果资源不够,门童会直接拒绝那些“站票”或“低优先级”的顾客(返回一个“请稍后再试”的提示),而不是让他们挤进厨房把厨师累死。

  • 结果:VIP 顾客永远不需要排队,他们的菜永远在 1.2 秒内端上桌;而低优先级的顾客虽然被拒了,但保护了整体系统的稳定。

C. 记账本与“欠债”机制(Debt Mechanism)

这是最聪明的地方。

  • 如果一位“经济舱”顾客因为餐厅太忙,连续被少给了菜(资源被压缩),餐厅的记账本上就会给他记一笔**“欠债”**。
  • 当餐厅稍微空闲一点,或者有新资源进来时,系统会优先给这位“欠债”的顾客补菜,甚至多给一点,直到把债还清。
  • 效果:这保证了即使大家都有不同需求,长期来看,每个人得到的服务是公平的。不会有人一直倒霉,也不会有人一直占便宜。

4. 实验结果:真的有用吗?

作者在实验室里模拟了两种情况:

  1. 大忙人挤兑小忙人

    • 没有新系统时:一群“站票”顾客疯狂点菜,把厨房堵死,结果连“头等舱”的 VIP 都等了 19 秒以上才吃到菜。
    • 有了新系统:门童直接拦住了多余的“站票”顾客。VIP 的等待时间依然控制在 1.2 秒以内,厨房忙而不乱。
  2. 资源短缺时的公平分配

    • 当餐厅突然少了一半的厨师(模拟故障),系统自动根据“谁更急”和“谁之前被亏待了”来分配剩下的资源。
    • 一个需要快速回复的“代码助手”(高优先级)和一个人工整理数据的“慢任务”(低优先级)同时存在时,系统会优先保“代码助手”,但会让“慢任务”在后续慢慢补回来,最终大家都能吃到饭。

总结

这篇论文的核心思想就是:别再用老式的“数人头”或“包间”来管理 AI 了。

我们要用**“食材(Token)”来精确衡量 AI 的消耗,建立一个智能的“食材池”。通过分级服务**(保护 VIP)和记账欠债(公平补偿),让 AI 平台在人多拥挤的时候,既能保证重要任务不卡顿,又能让普通任务在空闲时“插队”吃饱,实现真正的物尽其用公平高效

这就好比把原本混乱的菜市场,变成了一个拥有智能调度系统的现代化中央厨房。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →