MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 MoDES 的新方法，它的目标是让“多模态大模型”（既能看图又能聊天的超级 AI）跑得更快、更省钱，同时还不降低它的聪明程度。

为了让你轻松理解，我们可以把大模型想象成一家超级繁忙的“全能咨询公司”。

1. 背景：为什么需要 MoDES？

想象这家咨询公司（大模型）里雇了100 位专家（这就是“混合专家模型”，MoE）。

现状：每当客户（用户）问一个问题，或者给一张图，公司规定无论问题多简单，都必须让这 100 位专家全部开会讨论，然后综合意见给出答案。
问题：这太浪费资源了！有些问题其实只需要 3 位专家就能解决，让 100 个人都来开会，不仅慢，还浪费电（计算资源）。
以前的尝试：有人提出“跳过专家”的方法，比如“如果这个问题很简单，就只叫前 3 位专家”。但以前的方法有个大毛病：它们太死板了。它们不管客户是问“数学题”还是“看图说话”，也不管是咨询公司的“初级顾问”还是“首席专家”，一律用同一套标准去选人。结果就是，要么选错了人导致回答变笨，要么为了求快把该留的关键专家也踢走了。

2. MoDES 的两大核心创新（它的“独门秘籍”）

MoDES 就像给这家公司装了一个超级智能的“前台调度系统”，它有两个绝招：

绝招一：看人下菜碟（区分“文本”和“图像”）

以前的做法：不管客户是发文字还是发图片，前台都一视同仁，觉得“哦，这是个简单问题，只叫 3 个人”。
MoDES 的做法：它发现，文字和图片的“性格”完全不同。
- 文字就像精密的数学题，需要很多专家仔细推敲，少一个都不行。
- 图片往往有很多重复信息（比如一张图里有 100 个苹果，其实只要看几个就能知道是苹果），所以处理图片时，很多专家其实是“凑数”的，可以大胆跳过。
- 比喻：就像去餐厅，点“满汉全席”（复杂文字）时，必须让所有大厨都下厨；但点“白开水”（简单图片）时，只需要一个服务员倒水就行。MoDES 能精准识别客户点的是什么，从而决定叫多少人。

绝招二：分清“老手”和“新手”（区分“浅层”和“深层”）

以前的做法：不管专家是在公司刚入职的（浅层网络），还是干了 20 年的（深层网络），只要觉得“不重要”就一起踢掉。
MoDES 的做法：它发现，刚入职的专家（浅层） 往往负责最基础、最关键的信息提取（比如识别出“这是一只猫”），如果把他们踢了，后面再厉害的大佬也救不回来。而资深专家（深层） 更多是在做微调，稍微少几个影响不大。
比喻：就像盖房子，地基（浅层） 必须让最顶尖的工程师盯着，不能省；但装修（深层） 可以灵活一点，少用几个工人也没关系。MoDES 知道什么时候该“保地基”，什么时候可以“省装修”。

3. 它是如何工作的？（三步走）

算分（GMLG 机制）：
MoDES 会先给每个专家打分。这个分数不仅看“这个专家对当前问题喜不喜欢”（局部概率），还要看“这个专家在公司整体架构里有多重要”（全局重要性）。
- 简单说：不仅看“他能不能干”，还要看“他是不是关键岗位”。
定门槛（双模态阈值）：
根据刚才算的分数，MoDES 会设定两条不同的“及格线”：
- 处理文字时，门槛设得高一点（多留人）。
- 处理图片时，门槛设得低一点（多踢人）。
- 结果：只有那些分数真正够格的专家才会被叫来开会。
快速找最优解（前沿搜索算法）：
怎么知道门槛设多高最合适？以前的人可能要试错好几天。MoDES 发明了一种“聪明搜索法”，利用数学规律，几个小时就能找到那个“既省钱又不降智”的完美平衡点。

4. 效果怎么样？（数据说话）

论文做了大量实验，结果非常惊人：

省人：在 Qwen3-VL 模型上，MoDES 可以跳过 88% 的专家（只留 12% 的人干活）。
不降智：虽然人少了这么多，但它的回答准确率反而提升了（比如从 86.66% 提升到 97.33%）。这说明以前那些被叫来的专家，很多其实是在“摸鱼”甚至“帮倒忙”。
速度快：
- 处理图片（预填充）的速度快了 2.16 倍。
- 生成文字（解码）的速度快了 1.26 倍。

总结

MoDES 就像给 AI 公司请了一位“精明的 CEO"。
以前的 CEO 不管什么事都让全员加班，既累又慢。
MoDES 这位新 CEO 懂得：

看人下菜碟：文字多留人，图片少留人。
抓大放小：关键岗位（浅层）一个不能少，辅助岗位（深层）可以精简。
科学决策：用最快的方法找到最佳的人员配置。

最终结果是：公司运营成本（算力）大降，员工效率（推理速度）大涨，而且客户满意度（模型性能）不降反升！ 这就是 MoDES 的厉害之处。

Each language version is independently generated for its own context, not a direct translation.

这是一份关于论文 MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping 的详细技术总结。

1. 研究背景与问题 (Problem)

混合专家模型（MoE） 已成为多模态大语言模型（MLLMs）的主流架构，它通过稀疏激活部分专家网络来解耦模型参数量与计算成本，从而在保持高性能的同时降低推理开销。然而，现有的 MoE MLLMs 仍面临显著的推理效率瓶颈：

计算冗余： 传统的 MoE 推理对所有 Token 固定激活相同数量的专家（Top-k），忽略了不同 Token 和不同层对专家需求的差异性，导致大量冗余计算。
现有方法的局限性： 现有的专家跳过（Expert Skipping）方法主要针对单模态大语言模型（LLMs）设计。直接将其应用于 MLLMs 会导致严重的性能下降（例如，在 Kimi-VL 和 Qwen3-VL 上跳过 83% 的专家会导致准确率下降超过 10%）。
核心原因： 现有方法未能考虑到两个关键因素：
1. 层间贡献的不平衡性： 浅层专家对最终输出的贡献远大于深层专家，但现有方法仅基于单层局部信息做决策。
2. 模态差异（Modality Gap）： 文本 Token 和视觉 Token 在通过专家网络（FFN）时的行为截然不同。视觉 Token 受到的更新幅度较小（冗余度更高），而文本 Token 对专家更敏感。现有方法未针对模态特性进行区分处理。

2. 方法论 (Methodology)

为了解决上述问题，作者提出了 MoDES (Multimodal Dynamic Expert Skipping)，这是一个无需训练（Training-free） 的自适应专家跳过框架。其核心包含两个主要组件和一个优化算法：

A. 全局调制局部门控机制 (Globally-Modulated Local Gating, GMLG)

目的： 解决层间贡献不平衡问题。
原理： 传统的跳过策略仅依赖局部的路由概率（Routing Probabilities）。MoDES 引入了一个全局调制因子 $\alpha^{(l)}$ ，该因子通过离线校准（Offline Calibration）计算得出，反映了第 $l$ 层专家对最终输出的全局重要性（通过计算移除该层专家后的 KL 散度）。
公式： 专家重要性得分 $s^{(l)}_i = \alpha^{(l)} \cdot \pi^{(l)}_i$ ，其中 $\pi^{(l)}_i$ 是局部路由概率。
效果： 在推理时，结合全局重要性和局部概率，更准确地评估每个 Token 下每个专家的重要性，避免在关键浅层过度跳过。

B. 双模态阈值法 (Dual-Modality Thresholding, DMT)

目的： 解决模态差异问题。
原理： 为文本（Text）和视觉（Vision）Token 分别设置不同的跳过阈值 $\tau_t$ 和 $\tau_v$ 。
机制： 根据 Token 的模态，应用对应的阈值来判定是否跳过专家。由于视觉 Token 通常具有更高的冗余度，该方法允许对视觉 Token 进行更激进的跳过，而对文本 Token 保持更谨慎的跳过，从而在保持理解能力的同时最大化加速。

C. 前沿搜索算法 (Frontier Search Algorithm)

目的： 在给定计算预算下，高效寻找最优的阈值组合 $(\tau_t, \tau_v)$ 。
创新： 利用性能损失和效率关于阈值的单调性（Monotonicity） 性质。
优势： 传统的暴力搜索复杂度为 $O(ND^2)$ ，而 MoDES 提出的前沿搜索算法将复杂度降低至 $O(ND)$。
效率提升： 将阈值搜索时间从数天缩短至数小时（例如，对于数十亿参数模型，从 >2 天降至 <2 小时），且搜索精度与暴力搜索几乎一致。

3. 关键贡献 (Key Contributions)

首个针对 MoE MLLM 的免训练专家跳过框架： 填补了多模态场景下高效推理的空白。
揭示了两个关键洞察： 明确了浅层专家的全局重要性以及文本/视觉 Token 在专家网络中的行为差异，并据此设计了 GMLG 和 DMT 机制。
高效的优化算法： 提出了基于单调性的前沿搜索算法，解决了多模态阈值搜索的计算瓶颈。
广泛的实验验证： 在 3 个主流模型系列（Kimi-VL, Qwen3-VL, InternVL）和 13 个基准测试（涵盖图像和视频理解）上进行了验证。

4. 实验结果 (Results)

性能表现：
- 在 Qwen3-VL-MoE-30B-A3B-Instruct 上，当跳过 88% 的专家时，MoDES 的平均性能提升了 10.67%（97.33% vs. 基线 86.66%），且保留了原始模型 95% 以上的准确率。
- 在 Kimi-VL-A3B-Instruct 上，跳过 83% 专家时，MoDES 保持了 96.25% 的原始准确率，而现有 SOTA 方法（如 DiEP, MC-MoE）仅保留了约 82-88%。
- 在多个基准测试中，MoDES 在相同跳过率下 consistently 优于所有基线方法（平均提升 5% 以上）。
推理速度：
- Prefill（预填充）阶段： 加速比达到 2.16 倍。
- Decoding（解码）阶段： 加速比达到 1.26 倍。
兼容性： MoDES 与量化技术（Quantization）结合使用时，性能下降幅度远小于其他方法（例如在 1.5-bit 量化下，MoDES 性能保留率更高）。
搜索效率： 前沿搜索算法将阈值优化时间减少了约 45 倍。

5. 意义与影响 (Significance)

打破效率与性能的权衡： MoDES 证明了在 MLLMs 中，通过精细化的动态跳过策略，可以在大幅减少计算量（跳过 80%+ 专家）的同时，不仅不损失性能，甚至能消除冗余专家带来的噪声从而提升性能。
多模态推理的新范式： 强调了在多模态模型中，必须区分不同模态（文本 vs 视觉）和不同层级（浅层 vs 深层）的特性，为未来的高效多模态架构设计提供了重要指导。
实际部署价值： 作为一个无需重新训练（Training-free）的框架，MoDES 可以立即应用于现有的 MoE MLLM 模型，显著降低推理成本（显存占用和延迟），使得在资源受限设备上部署大规模多模态模型成为可能。

总结： MoDES 通过引入全局层重要性感知和模态自适应阈值，成功解决了现有专家跳过方法在多模态场景下的失效问题，实现了 MLLM 推理速度与精度的双重突破。