Zipage: Maintain High Request Concurrency for LLM Reasoning through Compressed PagedAttention

该论文提出了结合令牌级 KV 缓存淘汰与 PagedAttention 的“压缩 PagedAttention"技术,并据此开发了 Zipage 推理引擎,在大规模数学推理任务中实现了超过 2.1 倍的加速,同时保持了接近全量 KV 缓存 95% 的推理性能。

Mengqi Liao, Lu Wang, Chaoyun Zhang, Bo Qiao, Si Qin, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Huaiyu Wan

发布于 Wed, 11 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 Zipage 的新系统,它的核心任务是让大型人工智能模型(LLM)在“思考”和“推理”时,能同时处理更多的请求,而且速度更快。

为了让你轻松理解,我们可以把整个系统想象成一家繁忙的“超级推理餐厅”

1. 痛点:餐厅的“记忆墙”不够用了

想象一下,这家餐厅(大语言模型)非常聪明,能解决复杂的数学题或写代码。但是,每当它开始思考一个问题时,它需要在一面巨大的“记忆墙”(KV Cache)上写下所有的思考步骤。

  • 问题所在:随着问题越来越长,这面墙需要贴的“便签”(记忆数据)就越来越多。
  • 后果:餐厅的墙壁空间是有限的。一旦墙贴满了,餐厅就不得不拒绝新进来的客人,或者不得不把正在思考的客人赶出去,导致服务变慢,甚至无法同时接待很多人。这就是所谓的“内存瓶颈”。

2. 旧方法:要么“断章取义”,要么“效率低下”

以前的解决方案主要有两种,但都有大毛病:

  • 方法 A(粗暴丢弃):为了腾出空间,直接撕掉墙上的一些旧便签。但这就像为了省纸,把厨师思考的关键步骤撕掉了,导致做出来的菜(回答)味道变差,甚至做不出来。
  • 方法 B(按块丢弃):把墙分成大块,整块整块地撕。但这太粗糙了,可能把重要的信息整块扔了,把不重要的留着,效果也不好。

3. 新方案:Zipage 的“智能压缩与分页”魔法

Zipage 提出了一种叫 Compressed PagedAttention(压缩分页注意力) 的新魔法,它结合了两种聪明的策略:

策略一:像“整理行李箱”一样整理记忆(压缩)

Zipage 不会整块撕掉便签,而是像整理行李箱一样,只保留最重要的便签

  • 比喻:想象你在打包去旅行的行李。你不需要把家里所有的东西都带走,你只需要带走最关键的几件。Zipage 会计算哪些“思考步骤”(便签)最重要,把不重要的“废话”扔掉,把重要的“精华”紧紧挤在一起。
  • 结果:原本需要 10 个格子的空间,现在只需要 4 个格子就能装下同样的核心信息。这样,餐厅就能同时接待更多客人了。

策略二:像“酒店前台”一样管理房间(分页 PagedAttention)

Zipage 把记忆墙分成了很多小房间(Block)。

  • 比喻:以前的系统像是一个大平层,客人来了必须占满一大片。Zipage 像是一家管理精细的酒店,每个客人只占用几个房间。如果客人退房了(思考结束),房间立刻释放给下一位。
  • 关键点:即使客人还在思考,Zipage 也会定期帮他们“整理房间”,把不用的杂物清理出去,确保他们永远只占用有限的空间。

4. 三大核心黑科技(让餐厅运转更流畅)

为了让这个系统真正好用,Zipage 还加了三个“加速器”:

  1. 异步压缩(一边做饭一边收拾)

    • 比喻:以前是厨师做完一道菜,停下来花 10 分钟收拾厨房,然后再做下一道。Zipage 让“收拾厨房”(压缩数据)和“做饭”(生成答案)同时进行。厨师在切菜的时候,助手已经在旁边把刚才用过的盘子洗好了。
    • 效果:大大减少了等待时间,厨房(GPU)利用率极高。
  2. 混合调度(灵活排号)

    • 比喻:以前的排队系统很死板,如果前面有个大桌(长问题)占着位置,后面的小桌(短问题)就得干等。Zipage 的调度员很灵活:如果大桌正在整理桌子,小桌可以先插队进来做简单的菜;如果大桌需要更多空间,就先把那些还没开始整理的大桌请出去稍等,让空间给急需的小桌。
    • 效果:无论客人是点快餐还是大餐,餐厅都能保持高吞吐,不会让桌子空着。
  3. 共享前缀缓存(拼单模式)

    • 比喻:如果 100 个客人都问“今天天气怎么样?”,餐厅不需要为每个人重新写一遍“今天天气”这四个字。Zipage 允许大家共享开头的记忆部分。
    • 难点:以前的压缩方法会破坏这种共享。Zipage 发明了一种新办法,在压缩时小心翼翼地保留这些共享部分,确保大家都能复用,节省了大量空间。

5. 最终效果:快如闪电,聪明如初

论文在数学推理(如 AMC 23 竞赛题)和代码生成任务上进行了测试:

  • 速度:Zipage 的速度是传统系统的 2.1 倍以上
  • 质量:虽然它压缩了记忆,但回答的准确率依然保持在传统系统的 95% 左右。
  • 并发:它能同时处理的请求数量大大增加,就像餐厅的翻台率提高了,但菜的味道没变差。

总结

Zipage 就像给大语言模型装上了一套智能的“记忆整理术”和“动态空间管理术”。它不再让模型因为“记性太好”而把内存撑爆,而是教会模型**“抓重点、省空间、多干活”**。这使得未来的 AI 服务不仅能处理更复杂的问题,还能同时服务更多的用户,而且响应速度更快。