Each language version is independently generated for its own context, not a direct translation.
論文「Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling」の技術的サマリー
本論文は、大規模言語モデル(LLM)の推論における「専門家の並列化(Expert Parallelism: EP)」の効率性を根本から再定義する新しいパラダイム「Semantic Parallelism(意味的並列化)」と、その実装システム「Sem-MoE」を提案しています。ICLR 2026 にて発表されたこの研究は、モデル構造とデータ(トークン/リクエスト)の特性を統合的に考慮したスケジューリングにより、MoE モデル推論における通信オーバーヘッドを劇的に削減することを示しています。
以下に、問題定義、手法、主要な貢献、実験結果、および意義について詳細をまとめます。
1. 背景と問題定義
背景
近年の LLM は、パラメータ数の増大に伴い、計算コストを抑えつつ性能を向上させるため「Mixture-of-Experts(MoE)」アーキテクチャを採用する傾向が強まっています(例:DeepSeek-V3, Qwen3, GPT-OSS など)。MoE は、入力トークンごとに一部の専門家(Expert)のみを活性化させることで、トランジションパラメータ規模を維持しつつ計算量を抑制します。
既存手法の課題
現在の LLM 推論エンジン(SGLang, vLLM など)では、大規模 MoE モデルを複数の GPU/NPU 上で実行するために「専門家の並列化(EP)」が用いられています。しかし、EP には以下の重大なボトルネックが存在します。
- 高コストな通信: トークンが所属する専門家が異なるデバイス上に配置されている場合、トークンを遠隔デバイスへ転送し、計算後に結果を集約するための「All-to-All」通信(NCCL/HCCL の all2all 操作)が発生します。
- 非効率な配置とスケジューリング: 現状の最先端手法では、「モデル配置(どの専門家をどのデバイスに置くか)」と「データスケジューリング(どのリクエスト/トークンをどのデバイスで処理するか)」が独立して最適化されています。この分離により、不要な通信が発生し、推論効率が制限されています。
- 実証データ: DeepSeek-V2-Lite における実験では、MoE レイヤーのフォワードパス遅延の最大 59.2% がこの All-to-All 通信に起因していることが示されました。
2. 提案手法:Semantic Parallelism と Sem-MoE
本論文は、**「トークンと専門家の間の強い意味的親和性(Affinity)」**を利用し、モデル配置とデータスケジューリングを協調的に行う「Semantic Parallelism」を提案します。
2.1 核心的な洞察
大規模 MoE モデルにおいて、特定のトークンは文脈に依存せず、特定の専門家サブセットに対して高い活性化確率を示すことが実証されました。
- トークン - 専門家の親和性: 特定のトークンは、常に限られた特定の専門家群を活性化させる傾向があります(例:数学的なトークンは数学関連の専門家、法律用語は法律関連の専門家など)。
- 層間依存性: 前の層で選択された専門家群は、次の層で選択される専門家群と強い相関(マルコフ性)を持ちます。
2.2 システム構成:Sem-MoE
Sem-MoE は、SGLang 推論エンジンに統合されたプラグインモジュールとして実装されています。主な構成要素は以下の通りです。
A. オフラインモデルスケジューリング(Model Scheduling)
- 専門家クラスタリング: 事前に収集したトークン活性化プロファイルに基づき、頻繁に同時に活性化される専門家群をクラスタリングし、同一デバイス上に配置します。
- ILP による最適化: 0-1 整数計画問題(ILP)として定式化し、負荷分散と通信最小化のバランスを取りながら、専門家とデバイスのマッピングを決定します。
- 透明性: ゲート行列の列をシャッフルすることで、モデルの論理構造を変更することなく、物理的な配置を最適化します。
B. オンラインデータスケジューリング(Data Scheduling)
入力されたリクエストやトークンを、最適な専門家グループが存在するデバイスに事前に割り当てます。
Attention-DP 設定(データ並列化)の場合:
- リクエスト間スケジューリング: 各リクエストを構成するトークンの専門家活性化予測を集約し、最も親和性の高い DP ランク(デバイス)にリクエスト全体をバッチングします。
- これにより、異なる DP ランク間でのトークンの移動を最小化します。
Attention-TP 設定(テンソル並列化)の場合:
- リクエスト内スケジューリング: トークンレベルで細かく制御します。
- Shuffled-Reduce-Scatter (SRS) & Shuffled-Allgather (SAG): 従来の Attention 後の通信(Reduce-Scatter/Allgather)に、予測された専門家ルートに基づいたトークンのシャッフル処理を融合させます。これにより、MoE レイヤーへの入力前にトークンを目的のデバイスへ事前に配置し、その後の All-to-All 通信量を削減します。
2.3 実装技術
- 高速なルックアップテーブル: トークンから専門家グループ、および専門家群のシーケンスから次のデバイスへの遷移確率を格納した軽量テーブルを使用し、推論時のオーバーヘッドを最小化します。
- カスタムカーネル: Triton を用いた高性能通信カーネル(SRS, SAG)を実装し、PyTorch の標準実装より 25% 高速なソート処理を実現しています。
3. 主要な貢献
- トークン - 専門家の相関の発見: 大規模 MoE モデルにおいて、トークンと専門家の間には文脈に依存しない強い相関が存在し、これが専門家配置とトークンルーティングの最適化の基礎となることを実証しました。
- モデル - データ協調スケジューリングアルゴリズムの設計: 観察された親和性を利用した効率的なスケジューリングアルゴリズムを提案し、ベースラインと比較してローカル活性化率(Local Activation Rate)を 15.4% 向上させ、不要なクロスデバイス通信を大幅に削減しました。
- Sem-MoE の実装と評価: 最先端の推論エンジン SGLang 上で Semantic Parallelism を実装し、広範な評価を行いました。
4. 実験結果
実験は 8 GPU サーバー環境(高速インターコネクト)で行われ、DeepSeek-V2-Lite と Qwen3-30B-A3B などのモデル、MMLU, ShareGPT などのデータセットを用いて評価されました。
4.1 推論スループットの向上(Attention-DP 設定)
- DeepSeek-V2-Lite: SGLang(MoETuner 含む)と比較して、TTFT(First Token までの時間)制約下で31%〜32%、E2E 遅延制約下で**221%〜278%**のスループット向上を達成しました。
- Qwen3-30B-A3B: 同様に最大**98%**の向上を記録しました。
- 要因: リクエストの適切なデバイス配置と専門家の最適配置により、All-to-All 通信量が劇的に減少しました。
4.2 遅延の削減(Attention-TP 設定)
- DeepSeek-V2-Lite: 入力長 256〜1024 において、TTFT が12.2%〜18.9%、E2E 遅延が**10.6%〜18.9%**改善されました。
- Qwen3-30B-A3B: TTFT が最大**24.9%**改善されました。
- ローカル活性化率: Vanilla 配置と比較して、Sem-MoE はローカル活性化率を 37%〜43% 向上させ、MoE レイヤーの遅延を約 42%〜47% 削減しました。
4.3 ゼロショット転送性能
- 学習データ(ShareGPT など)とは異なるドメイン(MMLU など)のデータに対しても、再学習なしで高い性能を維持し、SGLang ベースラインを大幅に上回る結果を示しました。これは、トークン - 専門家の親和性がドメインに依存しない普遍的な特性であることを示唆しています。
5. 意義と結論
本論文が提案する「Semantic Parallelism」は、MoE モデル推論における通信ボトルネックを、モデル構造とデータ特性の協調的な最適化によって解決する画期的なアプローチです。
- 通信の削減: 高コストな All-to-All 通信を、モデル配置とデータスケジューリングの事前調整によって本質的に削減します。
- 実用性: モデルアーキテクチャの変更を必要とせず、既存の推論エンジン(SGLang)にプラグインとして統合可能であり、実環境での即座の導入が期待されます。
- 将来への示唆: 大規模 AI モデルの推論コストを削減し、スループットと遅延の両面での性能向上を実現することで、より大規模で複雑な MoE モデルの実用的な展開を可能にします。
結論として、Sem-MoE は、特定の SLO(サービスレベル目標)の下で最大 2.78 倍のスループット向上、および最大 24.9% の遅延削減を実現し、MoE 推論の効率化において新たな基準を設定するものです。