BrownoutServe: SLO-Aware Inference Serving under Bursty Workloads for MoE-based LLMs
Le papier présente BrownoutServe, un cadre d'inférence innovant pour les grands modèles de langage basés sur l'architecture MoE qui optimise le débit et réduit les violations d'objectifs de niveau de service (SLO) lors de charges de travail imprévisibles grâce à l'intégration d'experts unifiés et à un mécanisme d'assèchement dynamique.