MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

本文提出了首个无需训练的 MoDES 框架,通过引入全局调制局部门控机制和双模态阈值策略,有效解决了现有专家跳过方法在多模态大模型中因忽视层间异质性与模态差异导致的性能下降问题,在显著加速推理的同时实现了超越以往方法的精度提升。

Yushi Huang, Zining Wang, Zhihang Yuan, Yifu Ding, Ruihao Gong, Jinyang Guo, Xianglong Liu, Jun Zhang

发布于 2026-02-24
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MoDES 的新方法,它的目标是让“多模态大模型”(既能看图又能聊天的超级 AI)跑得更快、更省钱,同时还不降低它的聪明程度。

为了让你轻松理解,我们可以把大模型想象成一家超级繁忙的“全能咨询公司”

1. 背景:为什么需要 MoDES?

想象这家咨询公司(大模型)里雇了100 位专家(这就是“混合专家模型”,MoE)。

  • 现状:每当客户(用户)问一个问题,或者给一张图,公司规定无论问题多简单,都必须让这 100 位专家全部开会讨论,然后综合意见给出答案。
  • 问题:这太浪费资源了!有些问题其实只需要 3 位专家就能解决,让 100 个人都来开会,不仅慢,还浪费电(计算资源)。
  • 以前的尝试:有人提出“跳过专家”的方法,比如“如果这个问题很简单,就只叫前 3 位专家”。但以前的方法有个大毛病:它们太死板了。它们不管客户是问“数学题”还是“看图说话”,也不管是咨询公司的“初级顾问”还是“首席专家”,一律用同一套标准去选人。结果就是,要么选错了人导致回答变笨,要么为了求快把该留的关键专家也踢走了。

2. MoDES 的两大核心创新(它的“独门秘籍”)

MoDES 就像给这家公司装了一个超级智能的“前台调度系统”,它有两个绝招:

绝招一:看人下菜碟(区分“文本”和“图像”)

  • 以前的做法:不管客户是发文字还是发图片,前台都一视同仁,觉得“哦,这是个简单问题,只叫 3 个人”。
  • MoDES 的做法:它发现,文字图片的“性格”完全不同。
    • 文字就像精密的数学题,需要很多专家仔细推敲,少一个都不行。
    • 图片往往有很多重复信息(比如一张图里有 100 个苹果,其实只要看几个就能知道是苹果),所以处理图片时,很多专家其实是“凑数”的,可以大胆跳过。
    • 比喻:就像去餐厅,点“满汉全席”(复杂文字)时,必须让所有大厨都下厨;但点“白开水”(简单图片)时,只需要一个服务员倒水就行。MoDES 能精准识别客户点的是什么,从而决定叫多少人。

绝招二:分清“老手”和“新手”(区分“浅层”和“深层”)

  • 以前的做法:不管专家是在公司刚入职的(浅层网络),还是干了 20 年的(深层网络),只要觉得“不重要”就一起踢掉。
  • MoDES 的做法:它发现,刚入职的专家(浅层) 往往负责最基础、最关键的信息提取(比如识别出“这是一只猫”),如果把他们踢了,后面再厉害的大佬也救不回来。而资深专家(深层) 更多是在做微调,稍微少几个影响不大。
  • 比喻:就像盖房子,地基(浅层) 必须让最顶尖的工程师盯着,不能省;但装修(深层) 可以灵活一点,少用几个工人也没关系。MoDES 知道什么时候该“保地基”,什么时候可以“省装修”。

3. 它是如何工作的?(三步走)

  1. 算分(GMLG 机制)
    MoDES 会先给每个专家打分。这个分数不仅看“这个专家对当前问题喜不喜欢”(局部概率),还要看“这个专家在公司整体架构里有多重要”(全局重要性)。

    • 简单说:不仅看“他能不能干”,还要看“他是不是关键岗位”。
  2. 定门槛(双模态阈值)
    根据刚才算的分数,MoDES 会设定两条不同的“及格线”:

    • 处理文字时,门槛设得高一点(多留人)。
    • 处理图片时,门槛设得低一点(多踢人)。
    • 结果:只有那些分数真正够格的专家才会被叫来开会。
  3. 快速找最优解(前沿搜索算法)
    怎么知道门槛设多高最合适?以前的人可能要试错好几天。MoDES 发明了一种“聪明搜索法”,利用数学规律,几个小时就能找到那个“既省钱又不降智”的完美平衡点。

4. 效果怎么样?(数据说话)

论文做了大量实验,结果非常惊人:

  • 省人:在 Qwen3-VL 模型上,MoDES 可以跳过 88% 的专家(只留 12% 的人干活)。
  • 不降智:虽然人少了这么多,但它的回答准确率反而提升了(比如从 86.66% 提升到 97.33%)。这说明以前那些被叫来的专家,很多其实是在“摸鱼”甚至“帮倒忙”。
  • 速度快
    • 处理图片(预填充)的速度快了 2.16 倍
    • 生成文字(解码)的速度快了 1.26 倍

总结

MoDES 就像给 AI 公司请了一位“精明的 CEO"
以前的 CEO 不管什么事都让全员加班,既累又慢。
MoDES 这位新 CEO 懂得:

  1. 看人下菜碟:文字多留人,图片少留人。
  2. 抓大放小:关键岗位(浅层)一个不能少,辅助岗位(深层)可以精简。
  3. 科学决策:用最快的方法找到最佳的人员配置。

最终结果是:公司运营成本(算力)大降,员工效率(推理速度)大涨,而且客户满意度(模型性能)不降反升! 这就是 MoDES 的厉害之处。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →