Deterministic Differentiable Structured Pruning for Large Language Models

该论文提出了确定性可微结构化剪枝(DDP)方法,通过直接优化离散 l0 目标的确定性软代理来消除随机性,从而在显著降低大语言模型推理成本的同时,有效缓解了训练与测试的不匹配问题并实现了更快的收敛速度。

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为 DDP(确定性可微结构化剪枝) 的新方法,用来给大型语言模型(LLM)“瘦身”,让它们跑得更快、更省资源,同时还能保持聪明。

我们可以把这篇论文的核心思想想象成给一个庞大的交响乐团进行“智能裁员”

1. 背景:乐团太臃肿了

想象一下,现在的顶级大语言模型(LLM)就像一个拥有成千上万名乐手的超级交响乐团(比如 Qwen3 或 LLaMA)。

  • 优点:他们能演奏出极其复杂、美妙的音乐(回答问题、写代码、做推理)。
  • 缺点:维持这个乐团太贵了!需要巨大的舞台(显存)、昂贵的乐器(算力)和很多工作人员。对于很多小公司或个人来说,根本养不起。

2. 传统方法:笨拙的“一刀切”

以前,人们想给乐团瘦身,主要有两种笨办法:

  • 方法 A(一次性剪枝):像拿着剪刀乱剪。指挥(算法)根据乐手刚才的“表现分”(启发式评分),直接剪掉一部分人。
    • 问题:这太草率了!可能把真正有潜力的乐手剪掉了,留下的组合听起来很难听(模型性能大幅下降)。
  • 方法 B(随机训练):让乐团在排练时,每个乐手都随机决定“今天我是上场还是休息”。
    • 问题:这就像让乐手在排练时玩“抛硬币”决定去留。
      1. 排练和演出对不上:排练时大家随机休息,但正式演出(部署)时,必须确定谁在谁不在。这种“排练”和“演出”的不一致,导致效果变差。
      2. 效率低:因为充满了随机性,乐团很难找到最佳的配合模式,收敛(变好)得很慢。

3. 新方案 DDP:聪明的“确定性”优化

这篇论文提出的 DDP 方法,就像是一位极其精明的音乐总监,他采用了一种全新的策略:

核心比喻:给每个乐手发一个“音量旋钮”

传统的剪枝是问:“你要么在,要么不在(0 或 1)?”这就像问乐手“你要么上台,要么滚蛋”,很难微调。
DDP 给每个乐手(模型的每一个组件,比如注意力头或神经元)发一个连续的音量旋钮(Mask)

  • 旋钮可以调:可以是 0(完全静音/剪掉),可以是 0.5(小声),也可以是 1(大声)。
  • 只调旋钮,不换乐器:最棒的是,原来的乐器(预训练好的模型权重)完全不动,只调整这些“音量旋钮”。这就像不需要重新训练整个乐团,只需要微调每个人的音量大小。

DDP 的三个“独门秘籍”:

  1. 拒绝“抛硬币”(确定性)

    • 以前的方法像“抛硬币”决定谁上场,今天这个乐手可能在场,明天就不在。
    • DDP 说:“不玩随机了!”它直接计算出一个确定的音量值。排练时怎么算,演出时就怎么执行。这就消除了“排练”和“演出”的不一致,让模型更稳定。
  2. 平滑的“软着陆”(可微分)

    • 要把一个乐手从“在场”变成“离场”,直接切断(从 1 变 0)太生硬,计算机算不出来怎么调整。
    • DDP 设计了一个平滑的过渡曲线。它先让乐手的声音慢慢变小(从 1 降到 0.1,再降到 0.01),在这个过程中,计算机可以清楚地看到“变小”对音乐效果的影响,从而指导怎么调整。最后,当声音小到一定程度,就彻底静音(剪掉)。
  3. 强制“二选一”的毕业考试(二值化损失)

    • 虽然中间过程是平滑的,但最终目标必须是:要么完全上场,要么完全走人。
    • DDP 加了一个“毕业考试”:它惩罚那些声音处于“半吊子”状态(比如 0.5)的乐手,强迫他们要么大声唱(1),要么彻底闭嘴(0)。这加速了乐团找到最佳阵容的速度。

4. 效果如何?

作者用这个方法给几个超级大模型(包括 Qwen3-32B 这种几十亿参数的巨无霸)做了“瘦身”:

  • 剪掉 20% 的人:乐团变小了,但演奏水平几乎没变(性能损失仅 1%)。
  • 剪掉 50% 的人:乐团只剩一半人,但依然能演奏出 90% 以上的好音乐,而且比以前的方法剪得更好。
  • 速度提升:在真实的服务器(vLLM)上测试,因为人少了,演奏(推理)速度提升了 1.36 倍到 2.2 倍

总结

这篇论文就像发明了一种**“智能音量调节器”。它不需要重新训练整个庞大的乐团,而是通过一种确定、平滑且高效**的方式,精准地找出哪些乐手是多余的,把他们静音,同时保留核心乐手。

结果就是:我们得到了一个更轻、更快、更省钱,但依然非常聪明的 AI 模型,让大模型能更容易地跑在普通的电脑或手机上。