Each language version is independently generated for its own context, not a direct translation.
这篇论文提出了一种名为**“语义并行”(Semantic Parallelism)**的新方法,旨在让大型人工智能模型(LLM)运行得更快、更省钱。
为了让你轻松理解,我们可以把大型 AI 模型想象成一个超级巨大的“专家图书馆”,而把用户的提问(比如“帮我写首诗”或“解释量子力学”)想象成**“读者”**。
1. 现在的痛点:图书馆太乱,读者跑断腿
背景故事:
现在的顶级 AI 模型(比如 DeepSeek、Qwen 等)非常聪明,因为它们内部有几千个“专家”(称为 MoE,混合专家模型)。每个专家只擅长处理特定类型的问题。
- 现状: 当 100 个读者(请求)同时涌入图书馆时,系统需要把每个读者的问题分发给最合适的专家。
- 问题: 这些专家分散在不同的服务器(GPU)上。如果读者 A 的问题需要专家 X,但专家 X 在隔壁的服务器,系统就必须把问题“快递”过去。
- 后果: 在传统的运行方式中,系统不管读者是谁,也不管专家在哪,只是机械地把问题随机分发。这导致大量的“快递”(网络通信)在服务器之间乱飞。
- 比喻: 就像在一个巨大的办公园区里,员工 A 需要找专家 B 签字,但专家 B 在 10 公里外的另一栋楼。如果大家都乱跑,大部分时间都花在路上(网络通信),而不是干活(计算)上。论文指出,在 DeepSeek 模型中,高达 59% 的时间都浪费在“跑路”上!
2. 核心创新:语义并行(让“人”和“专家”住在一起)
这篇论文提出的 Sem-MoE 系统,就像是一个超级聪明的图书管理员。它不再随机分发,而是利用“语义”(问题的含义)来重新规划。
它做了三件关键的事:
A. 离线规划:把“常在一起的专家”搬到一个办公室
- 做法: 管理员先观察历史数据,发现“数学问题”总是同时需要“代数专家”和“微积分专家”。
- 比喻: 以前,代数专家在 1 号楼,微积分专家在 5 号楼。现在,管理员把这两个专家直接搬到了同一间办公室。
- 效果: 当读者问数学题时,只需要在一个房间里就能找到所有需要的专家,不用跨楼跑腿了。
B. 在线调度(针对多用户):把“同类读者”安排在同一辆车
- 做法: 当新的请求进来时,系统会预测这个请求最可能需要哪些专家。
- 比喻: 如果来了 10 个想问“法律”问题的人,系统不会把他们随机塞进 10 辆不同的车,而是直接把他们全部安排到停靠在“法律专家”大楼前的那辆大巴车上。
- 效果: 车到了,人直接下车找专家,大家都不用下车再跑远路。
C. 在线调度(针对长文本):在“传送带”上直接换位置
- 做法: 对于单个很长的对话(比如写小说),系统会在数据处理的传送带上,提前把需要去不同专家那里的“字”(Token)重新排好队。
- 比喻: 就像在机场安检传送带上,系统提前把要去 A 航班的行李和去 B 航班的行李自动分拣好,直接送到对应的登机口,而不是先混在一起再让人去搬。
3. 为什么这很厉害?(成果)
通过这种“模型(专家)”和“数据(用户问题)”的协同调度,Sem-MoE 实现了惊人的效果:
- 减少“跑路”: 绝大多数问题都在本地(同一个服务器)解决了,跨服务器的“快递”大幅减少。
- 速度提升:
- 在普通多用户场景下,处理速度提升了 2.78 倍(相当于原来跑 1 小时,现在只要 20 分钟)。
- 在长文本场景下,延迟降低了 24.9%。
- 通用性强: 即使是用一种数据训练的规则,应用到完全不同的领域(比如从聊天数据转到法律数据),依然有效。
总结
这篇论文的核心思想就是:不要盲目地让数据到处乱跑去找专家,而是聪明地把专家搬到数据该去的地方,或者把数据提前送到专家门口。
这就好比把“快递站”直接建在了“工厂”旁边,而不是让工厂每天派车去 10 公里外的快递站取货。通过这种**“人货匹配”**的优化,让 AI 跑得更快、更省资源,让未来的大模型服务更便宜、更普及。
Each language version is independently generated for its own context, not a direct translation.
这是一篇关于大语言模型(LLM)推理优化的论文,题为《语义并行:通过模型 - 数据协同调度重新定义高效 MoE 推理》(Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling),发表于 ICLR 2026。
以下是该论文的详细技术总结:
1. 研究背景与问题 (Problem)
- MoE 架构的普及与瓶颈: 混合专家模型(Mixture-of-Experts, MoE)已成为构建万亿参数大模型的主流架构(如 DeepSeek-V3, Qwen3 等)。它通过稀疏激活机制,在保持计算量可控的同时扩展模型容量。
- 专家并行(EP)的通信开销: 现有的推理引擎(如 SGLang, vLLM)通常采用专家并行(Expert Parallelism, EP),将不同的专家(Experts)分布在不同的 GPU/NPU 设备上。然而,这导致了昂贵的全对全(All-to-All)通信开销。
- 当 Token 被路由到远程设备上的专家时,需要跨设备传输激活值。
- 实验表明(以 DeepSeek-V2-Lite 为例),在 MoE 层的前向传播中,EP 通信开销可占总延迟的 59.2%,成为主要瓶颈。
- 现有方案的局限性: 当前的先进方案通常将**模型部署(专家放置)与数据调度(请求/Token 分配)**视为两个独立的问题。这种分离导致专家与激活它们的 Token 经常不在同一设备上,引发了不必要的跨设备通信,降低了推理效率。
2. 核心方法论 (Methodology)
论文提出了语义并行(Semantic Parallelism)范式,并构建了系统 Sem-MoE。其核心思想是通过模型 - 数据协同调度(Model-Data Co-Scheduling),利用 Token 与专家之间存在的强语义关联(Affinity),主动将 Token 和专家“共置”(Collocate)在同一设备上,从而最小化通信量。
2.1 核心洞察:Token-专家亲和性
论文通过实证分析发现,尽管路由理论上依赖于上下文,但在大规模 MoE 模型中,Token 对特定专家的激活具有显著的“上下文无关”的强关联性。
- 特定的 Token(或具有相似语义的 Token 组)倾向于持续激活同一组特定的专家。
- 这种关联性可以通过离线分析构建概率模型来预测。
2.2 Sem-MoE 系统架构
Sem-MoE 集成在 SGLang 推理引擎中,包含三个关键技术组件:
离线模型调度 (Offline Model Scheduling):
- 目标: 减少专家的分散度。
- 方法: 基于离线收集的 Token-专家激活统计,构建 Token-专家亲和性模型。将经常共同被激活的专家聚类(Cluster),并放置在同一设备或服务器上。
- 实现: 将专家放置问题建模为 0-1 整数规划(ILP)的共聚类问题,通过交替优化算法求解,生成专家放置表(Expert-to-Device Table)。
在线请求间数据调度 (Online Inter-request Data Scheduling, 针对 Attention-DP):
- 场景: 注意力层采用数据并行(DP)。
- 方法: 根据预测的 Token-专家亲和性,动态地将 incoming 请求(Requests)重新批处理(Re-batching)到最可能激活该请求中 Token 的专家所在的 DP 设备上。
- 效果: 最大化请求与专家组的亲和性,减少跨 DP 域的 All-to-All 通信。
在线请求内数据调度 (Online Intra-request Data Scheduling, 针对 Attention-TP):
- 场景: 注意力层采用张量并行(TP)。
- 方法: 在 TP 通信阶段(Reduce-Scatter 和 AllGather)无缝融合**Token 重洗牌(Token Reshuffling)**过程。
- 创新算子: 提出了
Shuffled-Reduce-Scatter (SRS) 和 Shuffled-Allgather (SAG)。在数据变换的同时,根据预测的路径将 Token 主动路由到目标专家所在的设备,避免后续 MoE 层的二次远程路由。
3. 主要贡献 (Key Contributions)
- 理论发现: 揭示了大规模 MoE 模型中 Token 与专家之间存在显著的、上下文无关的强相关性,为优化专家放置和 Token 路由提供了基础。
- 算法设计: 设计并实现了一种高效的模型 - 数据协同调度算法。相比基线方法,将**本地激活率(Local Activation Rate, LAR)**提高了 15.4%,大幅减少了不必要的跨设备通信。
- 系统实现与评估: 在 SOTA 推理引擎 SGLang 上实现了 Sem-MoE。
- Attention-DP 场景: 在特定 SLO(服务等级目标)下,吞吐量提升最高达 2.78 倍。
- Attention-TP 场景: 端到端延迟降低最高达 24.9%。
- 通信减少: 有效减少了 EP 中的 All-to-All 通信量。
4. 实验结果 (Results)
- 实验设置: 在 8 卡 GPU 服务器(高速互联)上,使用 DeepSeek-V2-Lite 和 Qwen3-30B-A3B 模型,在 MMLU、ShareGPT、LMSYS-Chat-1M 等数据集上进行测试。
- 对比基线: SGLang(原生)和 MoETuner(SOTA 专家放置优化方案)。
- 关键指标表现:
- 吞吐量提升: 在 DeepSeek-V2-Lite 的 DP 场景下,相比 SGLang+DeepEP,TTFT(首字延迟)约束下吞吐量提升 31%,E2E 延迟约束下提升 221%;相比 MoETuner 提升 32% 和 278%。
- 延迟降低: 在 TP 场景下,DeepSeek-V2-Lite 的 TTFT 降低了 12-19%,Qwen3-30B-A3B 降低了 17-25%。
- 通信效率: Sem-MoE 将 DeepSeek-V2-Lite 的本地激活率从 0.24 提升至 0.61,使得单层 MoE 的 All-to-All 延迟降低了 41.8%。
- 泛化能力: 跨数据集(Zero-shot)测试表明,基于 ShareGPT 训练的调度策略在 LMSYS 和 MMLU 数据集上仍能保持显著的 LAR 提升,证明了调度策略的鲁棒性。
5. 意义与价值 (Significance)
- 突破通信瓶颈: 证明了通过“语义感知”的协同调度,可以无损地(Losslessly)大幅削减 MoE 推理中的通信开销,解决了当前大规模 MoE 部署的核心痛点。
- 无需修改模型架构: 该方法不需要修改 MoE 模型的内部结构(如 Pre-gated MoE 需要修改架构),而是作为推理引擎的插件层实现,具有极高的兼容性和落地价值。
- 提升经济性与扩展性: 显著降低了推理延迟并提高了吞吐量,使得在现有硬件资源下部署更大规模的 MoE 模型成为可能,降低了大模型服务的运营成本。
- 通用性: 该范式适用于不同的并行策略(DP/TP)和不同的 MoE 模型,为未来的大模型推理系统优化提供了新的方向。
总结: 论文提出的 Sem-MoE 通过挖掘 Token 与专家之间的内在语义关联,将模型放置与数据调度统一优化,成功将 MoE 推理中的通信瓶颈转化为计算优势,显著提升了大规模 MoE 模型的推理效率。