BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs
BrownoutServe is een nieuw raamwerk voor het bedienen van MoE-gebaseerde LLM's dat door middel van 'united experts' en een dynamische brownout-mechanisme de doorvoersnelheid verhoogt en SLO-overtredingen onder bursty werklasten aanzienlijk vermindert.