SLO-Aware Compute Resource Allocation for Prefill-Decode Disaggregated LLM Inference
Dit artikel presenteert een hybride aanpak die theoretische modellering en empirische benchmarking combineert om de optimale verdeling van hardwarebronnen voor Prefill-Decode-disaggregatie in LLM-inferentie te bepalen, waarbij rekening wordt gehouden met SLO's en request-karakteristieken.