EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

本文提出了 EvoESAP 框架,通过引入基于推测解码的 ESAP 指标并结合进化搜索算法,实现了稀疏混合专家模型的非均匀层间剪枝预算分配,从而在固定全局剪枝比例下显著提升了生成任务性能。

Zongfang Liu, Shengkun Tang, Boyang Sun, Zhiqiang Shen, Xin Yuan

发布于 2026-03-09
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 EvoESAP 的新方法,旨在让大型人工智能模型(特别是“稀疏混合专家”模型,简称 SMoE)变得更小、更省钱,同时还能保持它们“说话”和“思考”的聪明程度。

为了让你更容易理解,我们可以把整个大模型想象成一家超级繁忙的“全能咨询公司”

1. 背景:为什么需要“裁员”?

想象这家咨询公司(大模型)有100 位专家(Expert),他们各自擅长不同的领域(有的懂数学,有的懂写代码,有的懂讲故事)。

  • 平时工作模式:每当客户(用户输入的问题)来咨询时,公司不会让 100 位专家都出来开会(那样太慢太贵了),而是由一位“调度员”(Router)根据问题,只叫其中 4 位最合适的专家来回答。这就是“稀疏”的意思——虽然人多,但每次只用一小部分。
  • 痛点:虽然每次只用 4 个人,但为了随时能叫到任何人,公司必须把 100 位专家的资料库全部存在服务器上。这就像你为了偶尔用一次的工具,必须租下整个巨大的仓库来存放所有工具,导致内存(Memory)占用太大,运行成本太高,很多小公司根本用不起。

现有的解决办法(“一刀切”式裁员):
以前的做法是:既然要省钱,那就把每层楼的专家都平均砍掉一半。比如每层楼原本有 10 个专家,现在每层都只留 5 个。

  • 问题:这就像不管哪个部门重要,都强行裁员 50%。结果可能是:重要的“数学部”被砍光了,导致模型算数变笨;而不太重要的“闲聊部”却还留着很多人,浪费了空间。这种“平均主义”往往会让模型在写代码、做数学题等创造性任务上表现大幅下降。

2. 核心创新:EvoESAP 是怎么做的?

这篇论文提出了一个更聪明的策略:“非均匀裁员” + “进化搜索”

第一步:把“谁该走”和“走多少”分开

以前的方法是混在一起决定的。EvoESAP 把它拆成两步:

  1. 谁该走?(层内排序):先根据某种标准(比如谁平时干活少、谁贡献小),给每个楼层的专家排个队,决定谁先被裁。
  2. 每层裁多少?(跨层分配):这是关键!它不再平均分配裁员名额,而是问:“在总裁员人数固定的情况下,怎么分配名额,能让公司整体能力损失最小?”

第二步:用“进化算法”找最佳方案

怎么知道哪层该多裁、哪层该少裁呢?

  • 比喻:想象你在玩一个“资源分配游戏”。你手里有固定的“裁员预算”(比如总共要裁掉 50% 的专家)。
  • 进化搜索:EvoESAP 就像一个不断试错的教练。它生成几百种不同的“裁员方案”(比如:数学部只裁 10%,闲聊部裁 90%;或者反过来),然后快速测试哪种方案最好。
  • 突变与选择:它像生物进化一样,保留表现好的方案,把表现差的方案“突变”一下(调整一下各层的裁员比例),经过几十代的“优胜劣汰”,最终找到那个最完美的非均匀分配方案

第三步:用“预期接受度”当裁判(ESAP)

在进化过程中,怎么判断哪个方案好?

  • 传统方法:让新模型和旧模型分别回答成千上万个问题,看谁回答得准。这太慢了,就像要等所有专家重新培训一遍才能知道谁该留,成本太高
  • EvoESAP 的妙招(ESAP):它发明了一个**“快速模拟裁判”**。
    • 比喻:它不真的让模型去“写”答案,而是让模型“猜”答案。它看新模型(被裁后的)和旧模型(全能的)在预测下一个字时,想法有多像。
    • 如果新模型猜的下一个字,旧模型也觉得“嗯,这词儿不错,我也可能会选”,那就说明新模型很靠谱。
    • 这个方法不需要真的生成完整的文章,计算速度极快,而且非常稳定,能迅速筛选出最好的“裁员方案”。

3. 结果:效果如何?

论文在几个大模型(70 亿到 300 亿参数)上做了实验,发现:

  • 创意写作和数学题变强了:在同样的裁员比例下(比如都裁掉 50% 的专家),使用 EvoESAP 找到的“非均匀方案”,在写代码、做数学题(MATH-500 数据集)上的表现,比“平均裁员”的方法提升了近 20%
  • 选择题没变差:在回答简单的选择题时,表现依然保持竞争力。
  • 结论:原来,“哪里该留人,哪里该裁人”比“裁掉谁”更重要。通过智能地分配裁员名额,我们可以在不花钱(不微调)的情况下,让模型变得更聪明、更省钱。

总结

这就好比一家公司要缩减 50% 的预算:

  • 旧方法:每个部门都砍掉一半人头,结果核心业务部门瘫痪了。
  • EvoESAP 方法:先给每个人打分,然后由一个智能系统计算,发现“后勤部”可以砍掉 90%,“研发部”只砍掉 10% 就能达到同样的省钱效果,而且公司核心业务反而更强了。

一句话总结:EvoESAP 用一种聪明的“进化搜索”方法,帮大模型找到了最划算的“裁员”方案,让模型在变小、变便宜的同时,依然能写出好代码、解出难题。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →