Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

本文提出了名为“语义并行(Semantic Parallelism)”的新范式及其实现框架 Sem-MoE,通过模型与数据的协同调度(包括离线专家聚类、在线请求重批及令牌重排),将激活专家与其对应令牌尽可能共置于同一设备,从而显著降低 MoE 推理中的全对全通信开销并提升吞吐量。

Yan Li, Zhenyu Zhang, Zhengang Wang, Pengfei Chen, Pengfei Zheng

发布于 2026-03-02
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文提出了一种名为**“语义并行”(Semantic Parallelism)**的新方法,旨在让大型人工智能模型(LLM)运行得更快、更省钱。

为了让你轻松理解,我们可以把大型 AI 模型想象成一个超级巨大的“专家图书馆”,而把用户的提问(比如“帮我写首诗”或“解释量子力学”)想象成**“读者”**。

1. 现在的痛点:图书馆太乱,读者跑断腿

背景故事:
现在的顶级 AI 模型(比如 DeepSeek、Qwen 等)非常聪明,因为它们内部有几千个“专家”(称为 MoE,混合专家模型)。每个专家只擅长处理特定类型的问题。

  • 现状: 当 100 个读者(请求)同时涌入图书馆时,系统需要把每个读者的问题分发给最合适的专家。
  • 问题: 这些专家分散在不同的服务器(GPU)上。如果读者 A 的问题需要专家 X,但专家 X 在隔壁的服务器,系统就必须把问题“快递”过去。
  • 后果: 在传统的运行方式中,系统不管读者是谁,也不管专家在哪,只是机械地把问题随机分发。这导致大量的“快递”(网络通信)在服务器之间乱飞。
    • 比喻: 就像在一个巨大的办公园区里,员工 A 需要找专家 B 签字,但专家 B 在 10 公里外的另一栋楼。如果大家都乱跑,大部分时间都花在路上(网络通信),而不是干活(计算)上。论文指出,在 DeepSeek 模型中,高达 59% 的时间都浪费在“跑路”上!

2. 核心创新:语义并行(让“人”和“专家”住在一起)

这篇论文提出的 Sem-MoE 系统,就像是一个超级聪明的图书管理员。它不再随机分发,而是利用“语义”(问题的含义)来重新规划。

它做了三件关键的事:

A. 离线规划:把“常在一起的专家”搬到一个办公室

  • 做法: 管理员先观察历史数据,发现“数学问题”总是同时需要“代数专家”和“微积分专家”。
  • 比喻: 以前,代数专家在 1 号楼,微积分专家在 5 号楼。现在,管理员把这两个专家直接搬到了同一间办公室
  • 效果: 当读者问数学题时,只需要在一个房间里就能找到所有需要的专家,不用跨楼跑腿了。

B. 在线调度(针对多用户):把“同类读者”安排在同一辆车

  • 做法: 当新的请求进来时,系统会预测这个请求最可能需要哪些专家。
  • 比喻: 如果来了 10 个想问“法律”问题的人,系统不会把他们随机塞进 10 辆不同的车,而是直接把他们全部安排到停靠在“法律专家”大楼前的那辆大巴车上
  • 效果: 车到了,人直接下车找专家,大家都不用下车再跑远路。

C. 在线调度(针对长文本):在“传送带”上直接换位置

  • 做法: 对于单个很长的对话(比如写小说),系统会在数据处理的传送带上,提前把需要去不同专家那里的“字”(Token)重新排好队。
  • 比喻: 就像在机场安检传送带上,系统提前把要去 A 航班的行李和去 B 航班的行李自动分拣好,直接送到对应的登机口,而不是先混在一起再让人去搬。

3. 为什么这很厉害?(成果)

通过这种“模型(专家)”和“数据(用户问题)”的协同调度,Sem-MoE 实现了惊人的效果:

  • 减少“跑路”: 绝大多数问题都在本地(同一个服务器)解决了,跨服务器的“快递”大幅减少。
  • 速度提升:
    • 在普通多用户场景下,处理速度提升了 2.78 倍(相当于原来跑 1 小时,现在只要 20 分钟)。
    • 在长文本场景下,延迟降低了 24.9%
  • 通用性强: 即使是用一种数据训练的规则,应用到完全不同的领域(比如从聊天数据转到法律数据),依然有效。

总结

这篇论文的核心思想就是:不要盲目地让数据到处乱跑去找专家,而是聪明地把专家搬到数据该去的地方,或者把数据提前送到专家门口。

这就好比把“快递站”直接建在了“工厂”旁边,而不是让工厂每天派车去 10 公里外的快递站取货。通过这种**“人货匹配”**的优化,让 AI 跑得更快、更省资源,让未来的大模型服务更便宜、更普及。

在收件箱中获取类似论文

根据您的兴趣定制的每日或每周摘要。Gist或技术摘要,使用您的语言。

试用 Digest →