SlideSparse: Fast and Flexible (2N-2):2N Structured Sparsity

SlideSparse 通过滑动窗口分解和激活提升技术,首次在不损失精度的前提下将 NVIDIA 2:4 稀疏张量核心加速扩展至 (2N-2):2N 稀疏模式,从而在多种 GPU 和模型上实现了兼顾推理精度与性能的 LLM 加速。

Hanyong Shao, Yingbo Hao, Ting Song, Yan Xia, Di Zhang, Shaohan Huang, Xun Wu, Songchen Xu, Le Xu, Li Dong, Zewen Chi, Yi Zou, Furu Wei

发布于 2026-03-06
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一个名为 SlideSparse 的新系统,它的核心目标是解决大语言模型(LLM)在加速过程中面临的一个“两难困境”。

为了让你轻松理解,我们可以把大语言模型想象成一家超级繁忙的图书馆,里面的书(数据)非常重,搬运工(GPU 显卡)需要不停地搬运。

1. 现在的困境:要么快,要么准

目前,NVIDIA 的显卡(GPU)有一个特殊的“加速通道”(Sparse Tensor Cores),就像一条VIP 快速通道

  • 规则很死板:这条通道只允许一种特定的“搬运模式”——每 4 本书里,必须扔掉 2 本(50% 的稀疏度,即 2:4 模式)。
  • 后果
    • 如果你严格遵守这个规则(扔掉 50% 的书),搬运速度能快 2 倍。
    • 但是,对于大语言模型这种“聪明”的图书馆,扔掉一半的书会导致它变傻,甚至完全无法回答复杂的问题(比如推理能力从 54% 暴跌到 15%)。
    • 如果你为了保持聪明,只扔掉 25% 的书(6:8 模式),虽然模型很聪明,但VIP 通道不认你,你只能走普通通道,速度没有任何提升。

现状就是:要么为了速度牺牲智商,要么为了智商牺牲速度。

2. SlideSparse 的绝招:滑动窗口“变魔术”

SlideSparse 提出了一种聪明的办法,叫**“滑动窗口分解” (Sliding Window Decomposition)**。

想象一下,你有一排 8 本书(代表 6:8 模式,即 8 本里有 6 本非零)。

  • 旧方法:因为不符合"4 本里扔 2 本”的 VIP 规则,所以不能进快速通道。
  • SlideSparse 的新方法
    它不直接硬闯,而是把这 8 本书重叠地切分成 3 组小窗口:
    • 第一组:第 1-4 本(符合规则,可以进 VIP)。
    • 第二组:第 3-6 本(符合规则,可以进 VIP)。
    • 第三组:第 5-8 本(符合规则,可以进 VIP)。

虽然书被“拆分”和“重叠”了,看起来好像变多了(数据量膨胀了 1.5 倍),但每一组都完美符合 VIP 通道的规则
于是,原本不能进 VIP 的“聪明模型”,现在可以全部通过 VIP 通道加速了。

比喻
就像你要过安检,规定“每 4 个包只能带 2 个液体”。你带了 6 个液体(违规)。
SlideSparse 的做法是:把你那 6 个液体重新打包,分成 3 个小组,每组 4 个包里只放 2 个液体(虽然有些液体被重复打包了,但逻辑上没丢)。这样,安检员(GPU)就放行让你走快速通道了。

3. 为什么这很厉害?

  • 不丢分:这种拆分是数学上完美的,没有任何信息丢失。模型依然保持 95% 以上的聪明程度(准确率),而之前的 2:4 模式会让它变笨。
  • 真加速:虽然数据稍微变多了一点点(因为重叠打包),但 VIP 通道的速度提升(2 倍)远远超过了这点额外的开销。
    • 结果:在 6:8 模式下,速度提升了 1.33 倍,正好达到了理论上的极限。
  • 通用性强:这套方法不仅适用于昂贵的数据中心显卡(A100, H100, B200),连普通的消费级显卡(RTX 4090, 5080)也能用。

4. 实际效果如何?

论文在多种显卡、多种精度(如 INT8, FP8)和多种模型(Llama, Qwen)上进行了测试:

  • 推理速度:在计算密集型任务(如生成长文本的开头)中,速度提升接近理论最大值。
  • 准确率:在 Qwen3 模型上,6:8 模式保留了 51.6% 的推理准确率,而强行 2:4 模式只有 15.3%。
  • 效率:甚至发现 SlideSparse 比原生的 2:4 模式效率还高,因为它巧妙地利用了显卡的其他资源,没有浪费。

总结

SlideSparse 就像是一个聪明的“翻译官”
它把那些因为“太聪明”(稀疏度不够严格)而被 VIP 通道拒之门外的模型,通过一种巧妙的“重叠打包”方式,翻译成了 VIP 通道能听懂的格式。

最终结果:我们不再需要在“变傻”和“变慢”之间做选择。我们可以拥有既聪明又快速的大语言模型,而且不需要更换硬件,现有的显卡就能跑。这为未来大模型的普及和高效部署打开了一扇新的大门。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →