MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios
Dit paper introduceert MoE-SpAc, een inferentieframework voor MoE-modellen op heterogene randapparaten dat speculatieve decoding gebruikt als voorspellende sensor voor geheugenbeheer en dynamische werklastverdeling, wat resulteert in aanzienlijke snelheidsverbeteringen ten opzichte van bestaande methoden.