BanaServe: Unified KV Cache and Dynamic Module Migration for Balancing Disaggregated LLM Serving in AI Infrastructure
Il paper presenta BanaServe, un framework di orchestrazione dinamica che bilancia le risorse computazionali e di memoria nei sistemi LLM disaggregati attraverso la migrazione dinamica dei pesi e della cache KV, risolvendo gli squilibri di carico e le limitazioni delle strategie di routing basate sulla cache per migliorare significativamente throughput e latenza rispetto alle soluzioni esistenti.