High-Fidelity Pruning for Large Language Models

本文提出了一种基于输出分布信息熵的高保真剪枝方法,旨在克服传统泰勒展开剪枝仅依赖单 token 预测的局限性并避免自蒸馏带来的额外计算开销,从而在无需教师模型的情况下更高效地保留大语言模型的全局预测能力,并在 LLaMA 和 Qwen 系列模型上取得了优于现有方法的零样本基准测试性能。

Yijun Zhu, Jianxin Wang, Chengchao Shen

发布于 2026-03-10
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇文章介绍了一种名为 HFPrune 的新方法,用来给大型语言模型(LLM)“瘦身”。

想象一下,现在的 AI 模型(比如 LLaMA 或 Qwen)就像是一个超级博学但极其臃肿的图书馆。这个图书馆里有几十亿本书(参数),虽然知识渊博,但搬运它、阅读它需要巨大的仓库(内存)和很多搬运工(算力),普通的小房间根本放不下,普通人也请不起这么多搬运工。

为了让大家都能用上这个图书馆,我们需要把一些不重要的书扔掉(剪枝),但关键问题是:扔哪本书?扔错了,图书馆可能就变傻了。

这篇论文就是为了解决“如何聪明地扔书”这个问题。

1. 以前的做法:只盯着“标准答案”

以前的剪枝方法(比如基于泰勒展开的方法)就像是一个死板的阅卷老师

  • 它的逻辑:老师手里只有一张“标准答案”(比如题目问“天空是什么颜色?”,答案只有“蓝色”)。
  • 它的做法:它只关心模型预测“蓝色”这个答案准不准。如果模型预测“蓝色”的能力没变,它就认为这个“知识点”(神经元)很重要,不能扔;如果预测“蓝色”的能力变差了,它就认为这个知识点不重要,可以扔。
  • 缺点:这就像只盯着一个答案看。其实模型脑子里可能还藏着“天空可能是灰色的”、“天空可能是粉色的(晚霞)”等其他可能性。如果只盯着“蓝色”,模型就会忽略这些丰富的细节,导致它变得死板,甚至失去原本丰富的知识。

2. 以前的另一种尝试:请个“私教”

还有一种方法叫“自蒸馏”,就像给模型请了一个私教(老师)

  • 做法:让大模型(老师)教小模型(学生),看小模型能不能模仿大模型的所有反应。
  • 缺点:这需要额外的计算资源,而且刚开始时,因为小模型太笨,老师教不动(梯度为零),导致一开始就不知道该怎么教,效率很低。

3. 这篇论文的妙招:看“整体氛围” (信息熵)

这篇论文提出的 HFPrune 方法,换了一种更聪明的视角。它不再盯着单一的“标准答案”,而是看模型回答时的整体氛围(信息熵)

  • 核心比喻:交响乐团 vs. 独奏

    • 以前的方法:只关心乐团里有没有人把“哆”这个音唱准了。
    • HFPrune 的方法:它关心的是整个乐团的和谐度。它看的是模型在回答时,所有可能的声音(所有可能的词汇)是如何分布的。
    • 怎么做:它计算模型输出分布的信息熵(可以理解为“不确定性”或“丰富度”)。
      • 如果模型说:“天空是蓝色的”,同时心里也隐约觉得“可能是灰的”,这种丰富的可能性分布就是高保真的。
      • 如果模型只死板地输出“蓝色”,其他可能性全没了,那就是分布变了,知识丢了。
  • 它的优势

    1. 不用请私教:它不需要额外的老师,直接看模型自己的输出分布就能判断。
    2. 保护“知识全貌”:它确保在扔掉一些神经元(书)后,模型依然能保持那种“既能说蓝色,也能想到灰色”的丰富思维模式,而不仅仅是死记硬背一个答案。

4. 实验结果:瘦身不减智

研究人员在 LLaMA 和 Qwen 等热门模型上做了实验,结果非常惊人:

  • 瘦身效果:他们剪掉了模型 20% 到 30% 的“书”(参数)。
  • 速度提升:因为书少了,图书馆的搬运速度(推理速度)提升了 1.3 到 1.5 倍
  • 智商不降反升:最神奇的是,经过简单的“复习”(微调)后,这些被剪过的模型,在回答各种难题(零样本测试)时,表现甚至比原来的大模型还要好

总结

简单来说,这篇论文发明了一种**“看整体、不看局部”**的剪枝技术。

  • 以前:像是一个只会做选择题的机器,只在乎选对那个选项。
  • 现在:像是一个懂得权衡利弊的智者,它知道保留哪些“思维路径”能让整个思考过程最自然、最丰富。

通过这种方法,我们可以在不损失(甚至提升)AI 智商的前提下,把它变得更小巧、更快速、更便宜,让它在手机或普通电脑上也能流畅运行。