MoEless: Efficient MoE LLM Serving via Serverless Computing
Le papier présente MoEless, un cadre de service sans serveur pour les modèles de langage à mélange d'experts (MoE) qui résout les déséquilibres de charge et réduit la latence d'inférence ainsi que les coûts grâce à des prédictions de charge dynamiques et une mise à l'échelle optimisée des experts.