Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat je een gigantisch, slim restaurant runt: een Groot Taalmodel (LLM). Dit restaurant heeft duizenden koks, maar ze zijn niet allemaal even goed in alles. Sommige koks zijn gespecialiseerd in Italiaans, anderen in sushi, en weer anderen in vegetarisch. Dit noemen we een MoE-model (Mixture of Experts).

Wanneer een klant een bestelling doet (een vraag stelt), moet het restaurant bepalen welke koks aan de slag gaan. In de huidige systemen gebeurt dit zo:

De klant geeft de bestelling door.
De manager (de 'router') kijkt: "Ah, dit is een vraag over sushi!"
De manager rent naar de sushi-kok, die misschien in een heel ander gebouw (een andere computerchip) zit.
De manager moet de bestelling fysiek naar die kok brengen, de kok bereidt het eten, en dan moet het eten weer terug naar de klant.

Het probleem:
In grote restaurants met duizenden koks, rennen de managers constant heen en weer tussen verschillende gebouwen. Ze brengen bestellingen over, wachten op het eten, en brengen het terug. Dit rennen en wachten (communicatie tussen de chips) kost veel tijd en energie. Het eten (de berekening) gaat snel, maar het vervoer van de bestelling vertraagt alles enorm.

De Oplossing: "Semantische Parallelisme" (Sem-MoE)

De auteurs van dit paper hebben een slimme nieuwe manier bedacht om dit restaurant te runnen, genaamd Sem-MoE. In plaats van blindelings te rennen, gebruiken ze een slimme voorspelling en een betere indeling.

Hier is hoe het werkt, vertaald naar alledaagse termen:

1. De Slimme Voorspelling (De "Geheime Lijst")

De onderzoekers hebben gemerkt dat bepaalde woorden of zinnen bijna altijd naar dezelfde specifieke koks verwijzen. Als iemand vraagt om een recept voor "spaghetti carbonara", roept dat bijna altijd dezelfde groep Italiaanse koks op, ongeacht of de klant dat nu in het Nederlands, het Engels of het Chinees vraagt.

Ze hebben een geheime lijst gemaakt (een model) die zegt: "Woord X gaat bijna altijd naar Kok Y." Ze hoeven niet meer te wachten tot de bestelling binnen is om te beslissen; ze weten het al op basis van de woorden zelf.

2. De Nieuwe Indeling (Model-Data Co-Scheduling)

In plaats van de koks willekeurig over de gebouwen te verdelen, doen ze nu twee dingen tegelijk:

Stap A: De Koks verplaatsen (Model Scheduling)
Ze kijken naar hun geheime lijst en zeggen: "Deze groep koks wordt vaak samen ingezet voor vragen over wiskunde. Laten we die groep koks allemaal in Huis A zetten." En de groep die goed is in poëzie, zetten we in Huis B. Zo zitten de specialisten dicht bij elkaar.
Stap B: De Klanten sturen (Data Scheduling)
Nu komen de klanten binnen. In plaats van dat elke klant naar de dichtstbijzijnde manager rent, kijkt de manager naar de geheime lijst.
- "Ah, deze klant vraagt over wiskunde. Die moet direct naar Huis A, want daar zitten de wiskunde-koks."
- "Die klant vraagt over poëzie. Die gaat naar Huis B."

Het resultaat: De bestelling hoeft niet meer over de hele stad te worden vervoerd. De klant en de juiste kok zitten in hetzelfde gebouw. De "renners" (de data die van chip naar chip gaat) hebben bijna niets meer te doen.

Twee Manieren om dit te doen

Het systeem werkt op twee manieren, afhankelijk van hoe het restaurant is ingericht:

Groepsbestellingen (Attention-DP):
Stel je voor dat je een grote groep vrienden hebt die elk een bestelling doen. Het systeem sorteert de vrienden zo dat de groep die over wiskunde wil praten, allemaal aan dezelfde tafel (dezelfde computerchip) gaat zitten, waar de wiskunde-koks werken. Zo hoeven ze niet te wachten op eten van ver weg.
Individuele bestellingen (Attention-TP):
Soms moet één grote bestelling (een heel lang verhaal) in stukken worden gesneden en door verschillende koks tegelijk bereid worden. Het systeem "schudt" de stukken van de bestelling nu slim door elkaar voordat ze naar de koks gaan. Ze zorgen dat het stukje "sushi" direct naar de sushi-kok gaat en het stukje "pizza" naar de pizzakok, zonder dat ze eerst door de hele keuken hoeven te zwerven.

Waarom is dit geweldig?

Minder rennen: De hoeveelheid data die tussen de chips moet worden verplaatst, daalt drastisch.
Sneller eten: Omdat de managers niet meer hoeven te rennen, krijgen de klanten hun eten veel sneller.
Meer klanten: Het restaurant kan veel meer klanten tegelijk bedienen zonder dat het vastloopt.

Kort samengevat:
Deze paper zegt: "Stop met het willekeurig verdelen van koks en bestellingen. Gebruik slimme voorspellingen om de juiste koks en de juiste klanten bij elkaar te zetten, zodat ze niet hoeven te reizen. Het resultaat is een veel snellere en efficiënter AI."

In de praktijk betekent dit dat AI-modellen zoals DeepSeek of Qwen veel sneller kunnen antwoorden op je vragen, met minder dure computerkracht.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

De huidige Large Language Models (LLM) maken steeds vaker gebruik van de Mixture-of-Experts (MoE) architectuur om modellen met biljoenen parameters te trainen zonder de rekenkosten per token lineair te laten stijgen. Bij het uitvoeren van inferentie (inference) op deze modellen wordt vaak Expert Parallelism (EP) gebruikt, waarbij experts over meerdere GPU's/NPU's worden verdeeld.

Het fundamentele probleem is dat EP zwaar afhankelijk is van inter-device communicatie. Wanneer een token wordt verwerkt, moet het routeringsmechanisme (gating) bepalen welke experts actief zijn. Als deze experts zich op andere apparaten bevinden dan de token, moeten de activa via dure all-to-all communicatiecollectieven (zoals NCCL/HCCL all2all) worden verzonden.

Analyse: Het paper toont aan dat deze communicatie een aanzienlijke bottleneck vormt. In experimenten met DeepSeek-V2-Lite op een 8-GPU server met snelle interconnectie, was tot 59,2% van de latentie in de MoE-lagen te wijten aan deze communicatie.
Bestaande aanpak: State-of-the-art systemen behandelen de plaatsing van experts (model scheduling) en de toewijzing van verzoeken/tokens (data scheduling) als gescheiden problemen. Dit leidt tot inefficiënties en onnodige data-overdrachten.

Methodologie: Semantic Parallelism

Het paper introduceert Semantic Parallelism, een nieuw paradigma dat model- en data-scheduling co-ordineert om de communicatiekosten te minimaliseren. De kerngedachte is dat er een sterke, context-onafhankelijke correlatie bestaat tussen specifieke tokens en de experts die ze activeren.

Het systeem, genaamd Sem-MoE, implementeert dit via drie hoofdstappen:

Offline Token-Expert Affiniteitsmodellering:
- Er wordt geanalyseerd dat tokens, ondanks de theoretische afhankelijkheid van context, vaak een stabiel patroon vertonen waarbij ze dezelfde "hete" experts activeren.
- Op basis van profielen (bijv. ShareGPT-dataset) wordt een probabilistisch model opgezet dat de kans berekent dat token $j$ expert $k$ activeert. Dit resulteert in lookup-tabellen voor token-expert affiniteit.
Model Scheduling (Offline Expert Placing):
- Sem-MoE formuleert het probleem als een 0-1 Integer Programming (ILP) co-clustering probleem.
- Het doel is om experts die vaak samen worden geactiveerd door dezelfde groep tokens, op hetzelfde apparaat te plaatsen.
- Dit wordt opgelost met een alternating optimization algoritme dat de expert-plaatsing en token-toewijzing afwisselend optimaliseert om de lokale activatiekans te maximaliseren en de belasting evenwichtig te houden.
Online Data Scheduling:
Sem-MoE past verschillende strategieën toe afhankelijk van de parallelisme-instelling voor de Attention-lagen:
- Voor Attention-DP (Data Parallelism): Er wordt inter-request scheduling toegepast. Inkomende verzoeken worden dynamisch gebatcht en toegewezen aan de DP-rank (apparaat) die de experts bevat die het meest waarschijnlijk door dat verzoek worden geactiveerd.
- Voor Attention-TP (Tensor Parallelism): Er wordt intra-request scheduling toegepast. Hierbij worden tokens proactief herschikt (shuffled) tijdens de standaard communicatiefasen (reduce-scatter en allgather). Sem-MoE introduceert twee nieuwe geoptimaliseerde primitieven:
  - Shuffled-Reduce-Scatter (SRS): Voegt token-shuffling toe aan de reduce-scatter fase.
  - Shuffled-Allgather (SAG): Voegt shuffling toe aan de allgather fase.
  - Dit zorgt ervoor dat tokens al vóór de MoE-berekening op het juiste apparaat staan, waardoor de daaropvolgende all2all communicatie wordt geminimaliseerd.

Belangrijkste Bijdragen

Empirisch Inzicht: Het paper onthult een significante, context-onafhankelijke correlatie tussen tokens en experts in grote MoE-modellen, wat de basis vormt voor voorspellende scheduling.
Sem-MoE Systeem: Een implementatie van een model-data collaboratief scheduling-algoritme dat de lokale activatiekans met 15,4% verbetert ten opzichte van bestaande methoden.
Systeemintegratie: Sem-MoE is geïntegreerd in SGLang, een toonaangevende open-source LLM-inferentie-engine, inclusief aangepaste Triton-kernels voor de nieuwe communicatieprimitieven.
Prestatieverbetering: Het systeem reduceert de all-to-all communicatievolume aanzienlijk zonder de latentie te beïnvloeden door architecturale wijzigingen aan het model.

Resultaten

Experimenten zijn uitgevoerd op een 8-GPU server met modellen zoals DeepSeek-V2-Lite en Qwen3-30B-A3B, vergeleken met baselines zoals SGLang en MoETuner.

Attention-DP Scenario:
- Sem-MoE bereikte een throughput-stijging van tot 2,78x (278%) vergeleken met MoETuner onder specifieke SLO's (Service Level Objectives) voor latentie.
- De verbetering is vooral groot bij hogere request-rates, waar bestaande systemen vastlopen door communicatie-overhead.
Attention-TP Scenario:
- Er werd een reductie in end-to-end latentie van tot 24,9% bereikt.
- De Time to First Token (TTFT) verbeterde met tot 18,89% voor DeepSeek-V2-Lite.
Communicatie-efficiëntie:
- De Local Activation Rate (LAR) steeg van ongeveer 24% (Vanilla) naar 61-65% met Sem-MoE.
- Dit resulteerde in een reductie van de latentie van de MoE-lagen zelf met ongeveer 41-46%.
Generalisatie: Het model toonde robuuste "zero-shot" transfer prestaties over verschillende datasets (ShareGPT, LMSYS-Chat-1M, MMLU), wat aantoont dat de token-expert affiniteit universeel is binnen een model.

Betekenis en Conclusie

Semantic Parallelism biedt een fundamentele verschuiving in hoe MoE-inferentie wordt benaderd. In plaats van te vertrouwen op pure hardware-bandbreedte of statische expert-verdeling, gebruikt Sem-MoE de semantische affiniteit tussen input-data en modelcomponenten om communicatie proactief te elimineren.

Dit onderzoek is van groot belang voor de schaalbaarheid van toekomstige AI-systemen, aangezien het de kosten en latentie van het draaien van trillioenen-parameter modellen verlaagt. Door de all-to-all communicatie te reduceren, maakt Sem-MoE het mogelijk om MoE-modellen efficiënter te draaien op bestaande hardware, zelfs bij beperkte interconnect-bandbreedte. De integratie in SGLang toont bovendien aan dat deze optimalisaties praktisch toepasbaar zijn in moderne inferentie-engine-ecosystemen.

Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

De Oplossing: "Semantische Parallelisme" (Sem-MoE)

1. De Slimme Voorspelling (De "Geheime Lijst")

2. De Nieuwe Indeling (Model-Data Co-Scheduling)

Twee Manieren om dit te doen

Waarom is dit geweldig?

Probleemstelling

Methodologie: Semantic Parallelism

Belangrijkste Bijdragen

Resultaten

Betekenis en Conclusie

Meer zoals dit

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks