ProServe: Unified Multi-Priority Request Scheduling for LLM Serving
ProServe ist ein vereinheitlichtes zweistufiges Scheduling-Framework, das den Gesamtnutzen des Service durch die gemeinsame Optimierung der SLO-Einhaltung und klientenspezifischer Prioritäten mittels dynamischer Batch-Bildung, effizienter Blockverwaltung und gewinnorientierter Request-Verteilung maximiert.