Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling

Each language version is independently generated for its own context, not a direct translation.

Immagina di dover organizzare un enorme congresso internazionale con migliaia di partecipanti (i "token", ovvero le parole di una frase) e centinaia di relatori esperti (gli "esperti" del modello AI).

Il Problema: Il Caos del "Tutti contro Tutti"

Finora, i sistemi per far funzionare queste intelligenze artificiali (come DeepSeek o Qwen) funzionavano un po' come un congresso mal organizzato:

La Regola: Ogni partecipante deve parlare con l'esperto più adatto alla sua domanda.
Il Disastro: Gli esperti sono sparsi in sale diverse (diversi computer o GPU).
Il Colloquio: Se un partecipante è nella Sala A ma l'esperto giusto è nella Sala B, deve correre attraverso i corridoi, urlare la domanda, aspettare la risposta e tornare indietro.
Il Risultato: Il tempo del congresso viene speso al 60% solo a correre e urlare tra le sale (comunicazione), e solo al 40% a parlare davvero (calcolo). È un enorme spreco di tempo ed energia.

I sistemi attuali provano a risolvere questo problema in due modi separati:

Chi mette gli esperti? Decide dove mettere i relatori una volta per tutte.
Chi organizza i partecipanti? Decide in quale sala mandare i partecipanti, ma senza sapere dove sono finiti gli esperti.
Il risultato: Spesso finiscono in sale diverse, costringendo tutti a correre ancora di più.

La Soluzione: "Parallelismo Semantico" (Sem-MoE)

Gli autori di questo paper propongono un nuovo approccio chiamato Parallelismo Semantico. Immaginalo come un organizzatore di eventi super-intelligente che guarda il programma del congresso prima che inizi e fa due cose geniali:

1. Mappa Semantica (Chi va con chi?)

L'organizzatore nota una cosa curiosa: le parole non sono casuali.

Se un partecipante parla di "matematica", è molto probabile che abbia bisogno dell'esperto di algebra, indipendentemente dal fatto che stia parlando con un amico o con un professore.
Se un partecipante parla di "cucina", cercherà quasi sempre l'esperto di gastronomia.
L'idea: Invece di mettere gli esperti a caso, l'organizzatore raggruppa gli esperti che spesso lavorano insieme (es. tutti gli esperti di matematica) e li mette nella stessa sala.

2. Assegnazione Intelligente (Co-scheduling)

Ora che gli esperti sono raggruppati per "tema", l'organizzatore guarda i partecipanti in arrivo:

Se arriva un gruppo di persone che parla di storia: Le manda tutte nella sala degli storici.
Se arriva un gruppo di persone che parla di coding: Le manda nella sala dei programmatori.
Il risultato: La maggior parte delle conversazioni avviene dentro la stessa sala. Nessuno deve correre nei corridoi. Si riduce drasticamente il tempo perso in "trasferimenti".

Come funziona nella pratica?

Il sistema Sem-MoE (il nome del loro software) fa tre cose principali:

Studio Pre-Evento (Offline): Prima che il sistema venga usato, analizza milioni di conversazioni per capire quali parole attivano quali esperti. Crea una "mappa dei desideri" (es. "La parola 'pizza' vuole l'esperto 5").
Riorganizzazione degli Ospiti (Model Scheduling): Sposta fisicamente gli esperti nei computer giusti, raggruppando quelli che vengono richiesti spesso insieme.
Regia in Tempo Reale (Data Scheduling):
- Per gruppi di richieste (DP): Se arrivano molte richieste diverse, il sistema le raggruppa intelligentemente. Invece di mandare una richiesta di cucina al computer 1 e una di matematica al computer 2 (creando confusione), le mette insieme nel computer giusto.
- Per una singola richiesta lunga (TP): Se una persona sta scrivendo un testo lunghissimo, il sistema riordina le parole mentre vengono elaborate, assicurandosi che ogni parola vada direttamente all'esperto giusto senza fare giri inutili.

I Risultati: Perché è importante?

Grazie a questo metodo, il sistema Sem-MoE ha dimostrato di:

Ridurre la corsa nei corridoi: Ha tagliato il traffico di dati tra i computer del 30-40%.
Essere più veloce: Le risposte arrivano molto più in fretta (fino a 2,7 volte più veloci in alcuni casi).
Risparmiare energia: Meno movimento significa meno consumo di elettricità e calore.

In sintesi

Immagina di avere un'azienda dove i dipendenti (gli esperti) sono sparsi in uffici diversi e i clienti (le parole) devono chiamarli.

Il metodo vecchio: Ogni cliente chiama chiunque sia libero, e il telefono squilla in tutto l'edificio.
Il metodo Sem-MoE: Metti tutti i dipendenti che si occupano di "vendite" nello stesso ufficio e tutti quelli che si occupano di "assistenza" in un altro. Poi, quando arriva un cliente, lo indirizzi subito nell'ufficio giusto.
Il risultato: Meno telefono che squilla, meno gente che corre, e il lavoro viene fatto molto prima.

Questo paper ci dice che, invece di cercare computer più potenti, possiamo rendere l'intelligenza artificiale molto più efficiente semplicemente organizzandola meglio, sfruttando il fatto che le parole e i concetti hanno una "natura" prevedibile.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema: Il Collo di Bottiglia della Comunicazione in MoE

I modelli linguistici su larga scala (LLM) moderni, come DeepSeek-V3 e Qwen3, adottano sempre più spesso l'architettura Mixture-of-Experts (MoE) per scalare i parametri mantenendo i costi computazionali per token gestibili. Tuttavia, l'inferenza di questi modelli su più dispositivi (GPU/NPU) è limitata dall'efficienza della comunicazione.

Expert Parallelism (EP): Le implementazioni attuali distribuiscono gli "esperti" (sotto-reti FFN) su diversi dispositivi. Quando un token viene elaborato, deve essere instradato all'esperto corretto. Se l'esperto non risiede sullo stesso dispositivo del token, è necessaria una comunicazione All-to-All (spesso implementata con collezioni NCCL/HCCL) per spostare i token.
Il Collo di Bottiglia: L'analisi mostra che la comunicazione inter-device può rappresentare fino al 59,2% della latenza di un passaggio in avanti (forward pass) in un layer MoE, anche su hardware con interconnessioni ad alta velocità.
Limitazione delle Soluzioni Attuali: Gli approcci esistenti trattano il posizionamento degli esperti (dove risiedono i modelli) e lo scheduling dei dati (come vengono inviati i token/reqieste) come problemi separati. Questo disallineamento provoca un eccessivo traffico di rete e riduce l'efficienza complessiva.

2. Metodologia: Semantic Parallelism e Sem-MoE

Il paper propone Semantic Parallelism, un nuovo paradigma che risolve il problema attraverso una pianificazione collaborativa modello-dati. L'obiettivo è massimizzare la probabilità che un token e il suo esperto target risiedano sullo stesso dispositivo, riducendo così la necessità di comunicazione remota.

Il sistema implementato, chiamato Sem-MoE, si basa su tre tecniche chiave:

A. Modellazione dell'Affinità Token-Esperto (Offline)

Gli autori hanno scoperto una forte affinità indipendente dal contesto tra token specifici e gruppi di esperti. Anche se la teoria suggerisce che il routing dipenda dal contesto semantico, empiricamente i token tendono ad attivare sempre lo stesso sottoinsieme ristretto di esperti.

Viene costruita una tabella di probabilità di routing basata sull'identità del token (non solo sul contesto).
Vengono modellate anche le dipendenze inter-layer (la scelta degli esperti nello strato $L$ dipende da quelli scelti nello strato $L-1$ ).

B. Pianificazione Collaborativa Modello-Dati (Co-Scheduling)

Sem-MoE formula il problema come un'ottimizzazione di clustering (basata su programmazione intera 0-1 risolta con un algoritmo alternato) per raggruppare esperti e token in modo coerente:

Offline Model Scheduling: Gli esperti vengono raggruppati e collocati sugli stessi dispositivi in base alla loro tendenza ad essere attivati insieme da certi tipi di input. Questo riduce la dispersione degli esperti.
Online Data Scheduling:
- Per Attention-DP (Data Parallelism): Le richieste in arrivo vengono ri-batchate e assegnate dinamicamente ai dispositivi (DP ranks) che ospitano gli esperti più probabili per quei token specifici.
- Per Attention-TP (Tensor Parallelism): Viene introdotta una procedura di reshuffling speculativo dei token. Durante la fase di comunicazione TP (dopo l'attenzione), i token vengono riordinati e spostati proattivamente verso i dispositivi che ospiteranno i loro esperti target, integrando lo spostamento direttamente nelle primitive di comunicazione (Reduce-Scatter e Allgather).

C. Implementazione in Sem-MoE

Il sistema è stato integrato come modulo nel motore di inferenza SGLang.

Utilizza kernel personalizzati (Triton) per operazioni di comunicazione fuse come Shuffled-Reduce-Scatter (SRS) e Shuffled-Allgather (SAG).
L'overhead computazionale per lo shuffling è minimo (~1%), mentre il risparmio nella comunicazione è significativo.

3. Contributi Chiave

Scoperta Empirica: Identificazione di una forte correlazione indipendente dal contesto tra token ed esperti nei modelli MoE su larga scala, fornendo la base teorica per la pianificazione basata sull'identità del token.
Algoritmo di Scheduling: Progettazione di un algoritmo collaborativo modello-dati che aumenta il Local Activation Rate (LAR) (la percentuale di token elaborati localmente) del 15,4% rispetto ai metodi baseline, riducendo drasticamente la comunicazione cross-device.
Sistema Sem-MoE: Implementazione e valutazione su SGLang, dimostrando miglioramenti reali in scenari di produzione.

4. Risultati Sperimentali

Gli esperimenti sono stati condotti su server con 8 GPU (banda >400 GB/s) utilizzando modelli come DeepSeek-V2-Lite e Qwen3-30B-A3B.

Scenari Attention-DP (Throughput):
- Sem-MoE ha raggiunto un miglioramento del throughput fino a 2,78x rispetto a SGLang e MoETuner sotto vincoli di SLO (Service Level Objectives) specifici.
- Riduzione significativa della latenza di primo token (TTFT) e latenza end-to-end.
Scenari Attention-TP (Latenza):
- Riduzione della latenza end-to-end fino al 24,9% per input di lunghezza 512.
- Miglioramento del TTFT fino al 17-25% a seconda della lunghezza dell'input.
Riduzione della Comunicazione:
- Il tasso di attivazione locale (LAR) è aumentato del 37-43% rispetto al posizionamento standard (Vanilla).
- Questo si traduce direttamente in una riduzione della latenza del layer MoE del 41-46%.
Robustezza: Il modello di predizione mostra ottime prestazioni zero-shot su dataset non visti (es. addestrato su ShareGPT, testato su MMLU), mantenendo un LAR molto superiore al baseline anche senza riaddestramento.

5. Significato e Impatto

Questo lavoro ridefinisce l'approccio all'inferenza dei modelli MoE su larga scala. Dimostra che la comunicazione costosa (All-to-All) non è un limite inevitabile dell'architettura, ma un problema risolvibile attraverso una migliore comprensione delle affinità semantiche tra dati e modello.

Efficienza Economica: Riducendo il collo di bottiglia della comunicazione, Sem-MoE permette di servire modelli MoE più grandi con meno hardware o con latenze inferiori, migliorando la sostenibilità economica dei servizi LLM.
Scalabilità: L'approccio è scalabile e si integra con le infrastrutture esistenti (come SGLang), offrendo un percorso immediato per ottimizzare i sistemi di produzione.
Paradigma Shift: Sposta il focus dall'ottimizzazione puramente hardware o algoritmica (kernel) a una strategia di co-scheduling intelligente, sfruttando le proprietà intrinseche dei dati di input per guidare l'allocazione delle risorse.

In sintesi, Semantic Parallelism trasforma il problema della comunicazione distribuita in un problema di ottimizzazione locale, ottenendo guadagni di prestazioni sostanziali senza modificare l'architettura del modello sottostante.