Semantic Parallelism: Redefining Efficient MoE Inference via Model-Data Co-Scheduling
Il paper presenta "Semantic Parallelism", un nuovo paradigma implementato nel framework Sem-MoE che ottimizza l'inferenza dei modelli MoE su larga scala collocando proattivamente esperti e token attivanti sullo stesso dispositivo tramite una schedulazione collaborativa modello-dati, riducendo così drasticamente i costi di comunicazione e migliorando il throughput rispetto alle soluzioni esistenti.