DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving
Das Paper stellt DOPD vor, ein dynamisches System zur Entkopplung von Prefill- und Decoding-Phasen bei LLM-Inferenz, das durch lastabhängige Ressourcenanpassung und optimierte Scheduling-Strategien die Systemeffizienz und die Einhaltung von Service-Level-Zielen im Vergleich zu bestehenden Ansätzen wie vLLM und DistServe signifikant verbessert.