Motivating Next-Gen Accelerators with Flexible (N:M) Activation Sparsity via Benchmarking Lightweight Post-Training Sparsification Approaches

本文通过基准测试证明了在大型语言模型中应用轻量级后训练 N:M 激活剪枝不仅能以同等稀疏度优于权重剪枝地保留生成能力,还确立了 8:16 等灵活稀疏模式作为兼顾性能与硬件实现复杂度的理想方案,从而为下一代加速器支持更灵活的稀疏性提供了有力动机。

Shirin Alanova, Kristina Kazistova, Ekaterina Galaeva, Alina Kostromina, Vladimir Smirnov, Redko Dmitry, Alexey Dontsov, Maxim Zhelnin, Evgeny Burnaev, Egor Shvetsov

发布于 2026-03-03
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文就像是在给未来的大语言模型(LLM)设计一套更聪明的“节能省电”方案。

想象一下,大语言模型就像一个超级繁忙的巨型图书馆。每当有人问一个问题,图书馆里的成千上万个图书管理员(也就是模型的参数)就会同时开始工作,翻阅书籍、整理信息,最后给出答案。

现在的挑战是:这个图书馆太大了,运行起来太慢、太费电,而且需要的存储空间(内存)也大得吓人。

为了解决这个问题,科学家们通常尝试两种“裁员”或“精简”的方法:

1. 现在的做法:只裁“重量级”图书管理员(权重剪枝)

目前的硬件(比如英伟达的显卡)主要支持一种叫 2:4 稀疏化 的技术。

  • 比喻:这就像规定每 4 个图书管理员里,必须强制有 2 个“休假”(不工作),而且这 2 个是谁,是固定不变的。
  • 问题:虽然省了力,但这种“一刀切”太死板了。有时候那个被强制休假的图书管理员其实很关键,结果导致图书馆给出的答案变差了(模型精度下降)。而且,现在的硬件只支持这种固定的"2 人休假”模式,不够灵活。

2. 这篇论文的新发现:让“正在思考”的人休息(激活剪枝)

这篇论文提出,我们不应该只盯着“谁该被裁掉”(权重),而应该关注“谁此刻正在思考”(激活值)。

  • 比喻:想象一下,当有人问“今天天气怎么样”时,图书馆里负责“历史”和“数学”的图书管理员其实根本不需要动脑子,他们此刻是闲置的。
  • 核心观点:这篇论文说,动态地让那些此刻“没在干活”的管理员休息,比强行固定裁员要聪明得多。
    • 优点:因为是根据问题动态决定的,所以模型的能力保留得更好,答案更准确。
    • 硬件痛点:但是,现在的图书馆(硬件)没有配备这种“动态调度员”,所以虽然理论上很完美,但跑起来反而更慢,因为调度本身太麻烦了。

3. 他们做了什么实验?

作者们像做实验一样,测试了四种不同的“休假规则”(N:M 稀疏模式):

  • 2:4(老规矩):每 4 个里休 2 个。
  • 4:88:1616:32(新花样):每 8 个里休 4 个,每 16 个里休 8 个,以此类推。

实验结果令人惊讶

  • 越灵活,效果越好:他们发现,规则越灵活(比如 16:32,即每 16 个里休 8 个),模型保留的能力就越接近“全员在岗”的状态。
  • 8:16 是最佳平衡点:虽然 16:32 效果最好,但管理起来太复杂。而 8:16(每 16 个里休 8 个)就像是一个完美的中间人:它既比老规矩(2:4)准确得多(准确率高出两倍多),又不会让管理变得太复杂,非常适合未来的硬件去支持。

4. 他们怎么解决“剪枝”带来的误差?

把一半的人叫去休息,肯定会影响效率。作者们还发明了一些“小妙招”(轻量级纠错技术),就像给剩下的管理员发一些速记笔记补偿金,让他们在休息的人不在时,也能把活干得漂漂亮亮。

  • 有些方法甚至不需要重新训练模型,直接就能用(即插即用)。

5. 这篇论文想告诉硬件厂商什么?

这是这篇论文最重要的呼吁(Motivation):

  • 现状:现在的硬件厂商(如英伟达)只支持死板的"2:4"权重剪枝。
  • 呼吁:未来的芯片(加速器)应该原生支持这种更灵活的"8:16"或"16:32"的动态激活剪枝
  • 愿景:如果硬件能跟上这个思路,我们就能在不牺牲智能的前提下,让大模型跑得更快、更省电、更省内存。

总结

这就好比:
以前的做法是固定排班,不管忙不忙,每 4 个人里必须 2 个休息,结果有时候该干活的人没干,不该干的却在那儿。
这篇论文说:别搞固定排班了!让我们根据实际工作量动态安排休息。虽然现在的“调度系统”(硬件)还跟不上,但未来的芯片必须支持这种灵活调度。只要硬件跟上了,我们就能用更少的资源,跑出更聪明的 AI。

一句话总结:这篇论文证明了“动态让不干活的人休息”比“固定裁员”更聪明,并呼吁未来的电脑芯片要专门为这种“灵活休息”设计,这样 AI 就能既快又准又省电。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →