SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
Cet article propose une approche hybride combinant modélisation théorique et benchmarking empirique pour déterminer l'allocation optimale des ressources de calcul dans les inférences LLM préfixées-décomposées, en tenant compte des contraintes de débit total, des objectifs de niveau de service (SLO) et des caractéristiques des requêtes.