Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

本文提出了名为 Helios 的基于混合键合技术的 LLM 服务加速器,通过设计细粒度的分布式注意力执行流程与空间感知的 KV 缓存分配机制,有效解决了现有近存计算架构在处理动态 LLM 服务负载时的灵活性不足问题,显著提升了加速性能与能效。

Cong Li, Yihan Yin, Chenhao Xue, Zhao Wang, Fujun Bai, Yixin Guo, Xiping Jiang, Qiang Wu, Yuan Xie, Guangyu Sun

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 Helios 的新型硬件加速器,专门用来让大型语言模型(LLM,比如现在的各种 AI 聊天机器人)跑得更快、更省电。

为了让你轻松理解,我们可以把运行 AI 模型想象成经营一家超级繁忙的“信息翻译工厂”

1. 现在的痛点:工厂里的“拥堵”与“浪费”

想象一下,这家工厂(AI 模型)每天要处理成千上万个订单(用户提问)。

  • 订单长短不一:有的用户只问“你好”(短文本),有的用户让 AI 写一本小说(长文本,几万个字)。
  • 需求忽高忽低:有时候没人问,有时候瞬间涌入几万人。

现有的工厂(GPU 或普通近存计算芯片)遇到了两个大麻烦:

  • 麻烦一:仓库管理太死板(KV Cache 管理粗糙)

    • 现状:工厂给每个订单分配了一个固定的“大仓库格子”。不管订单是写一句话还是写一本书,系统都强制预留写一本书那么大的空间。
    • 后果:如果来了个短订单,仓库大半是空的,空间浪费严重。而且,如果突然来了个超长订单,现有的格子不够大,系统还得等别的订单搬走才能腾出地方,导致排队拥堵
    • 比喻:就像你去超市买一瓶水,超市却非要给你整个货架的位置,还规定只有买满一货架的人才能用这个货架,结果货架空着,后面想买的人却进不来。
  • 麻烦二:工人干活不灵活(注意力机制执行僵化)

    • 现状:工厂里的工人(计算单元)被固定分配了特定的任务。比如,工人 A 只负责处理“前 100 个字”,工人 B 只负责“后 100 个字”。
    • 后果:如果订单很短,工人 B 就闲着没事干;如果订单很长,工人 A 累死也干不完,而工人 B 却帮不上忙。大家不能互相帮忙,导致忙闲不均
    • 比喻:就像一群厨师,每个人只负责切一种菜。如果今天只有切土豆的活,切牛肉的厨师就只能站着发呆,效率极低。

2. Helios 的解决方案:智能的“乐高积木”工厂

Helios 提出了一套全新的硬件 + 软件协同设计,就像把工厂改造成了高度灵活的“乐高积木”系统

核心创新一:灵活的“动态仓库” (Spatially-Aware KV Cache Allocation)

  • 怎么做:Helios 不再给订单分配固定的大格子,而是把仓库切成了无数个小积木块
  • 效果
    • 短订单只占几个小积木块,不浪费空间。
    • 长订单可以动态拼接更多积木块。
    • 智能调度:系统会像“智能物流机器人”一样,把订单的积木块均匀地分散到所有可用的仓库区域,避免有的区域爆满,有的区域空着。
  • 比喻:就像玩俄罗斯方块,不管方块形状多奇怪,系统都能把它们严丝合缝地拼在一起,最大化利用空间,不再有空隙浪费。

核心创新二:流动的“流水线” (Distributed Tiled Attention)

  • 怎么做:Helios 打破了工人之间的“固定岗位”。它让所有工人组成一个流动的网格
  • 效果
    • 不管订单多长,所有工人都可以协作处理
    • 如果订单短,大家就一起快速处理完;如果订单长,大家就接力棒式地分担工作。
    • 它还发明了一种新的“沟通语言”(通信原语),让工人之间交换数据像发微信一样快,几乎不耽误时间。
  • 比喻:以前是“专人专岗”,现在是“特种部队”。不管任务多难,所有队员都能根据现场情况灵活补位,谁有空谁就干,绝不磨洋工。

核心创新三:超级高速公路 (Hybrid Bonding 技术)

  • 怎么做:Helios 使用了**混合键合(Hybrid Bonding)**技术,把计算芯片和存储芯片像“三明治”一样紧紧叠在一起,中间用极细的铜柱连接。
  • 效果:数据在芯片内部传输的速度极快,就像在自家客厅里拿东西,而不是要去隔壁城市取货。
  • 比喻:以前的工厂,仓库和车间隔了一条河,运货要坐船(慢且贵);Helios 直接把仓库建在车间楼上,工人伸手就能拿到材料。

3. 最终成果:快如闪电,省如节能灯

通过这套组合拳,Helios 的表现非常惊人:

  • 速度快:比目前最先进的 GPU 方案快 3.25 倍。这意味着用户发问后,AI 回复的速度快了三倍多。
  • 更省电:能效比提升了 3.36 倍。这意味着在同样的电量下,它能处理更多的任务,或者在同样的任务下,电费省了三分之二。
  • 更稳定:即使在人流量巨大的高峰期,也能保证大部分用户(99%)的等待时间很短,不会出现“系统卡顿”的情况。

总结

简单来说,Helios 就是给 AI 模型装上了一个超级智能的“动态仓库管理系统”和“灵活协作团队”。它不再死板地分配资源,而是根据每个任务的实际情况,像变魔术一样灵活调配,让 AI 在回答你的问题时,既,还能同时服务更多人。

这就好比把一家原本管理混乱、效率低下的传统工厂,升级成了全自动、智能化的现代物流枢纽,无论订单大小、多少,都能瞬间处理完毕。