DOPD: A Dynamic PD-Disaggregation Architecture for Maximizing Goodput in LLM Inference Serving
Il paper propone DOPD, un'architettura di disaggregazione dinamica per l'inferenza LLM che ottimizza il rapporto tra istanze di prefill e decoding in base al carico in tempo reale, migliorando significativamente il goodput e riducendo i tempi di risposta rispetto alle soluzioni esistenti.