DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving
DOPD is een dynamisch systeem voor het uitvoeren van LLM-inferentie dat de verhouding tussen voorafvul- en decoderingsinstanties aanpast op basis van real-time belasting om onbalans in heterogene werklasten op te lossen en zo de goodput en SLO-ervaring aanzienlijk verbetert ten opzichte van bestaande oplossingen.