SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
Diese Arbeit schlägt einen hybriden Ansatz vor, der theoretische Modellierung mit empirischem Benchmarking kombiniert, um die optimale Anzahl von Prefill- und Decode-Ressourcen für die LLM-Inferenz unter Berücksichtigung von Durchsatzanforderungen, SLOs und Anfragecharakteristika zu bestimmen.