BanaServe: Unified KV Cache and Dynamic Module Migration for Balancing Disaggregated LLM Serving in AI Infrastructure
El artículo presenta BanaServe, un marco de orquestación dinámica para la inferencia de modelos de lenguaje grandes (LLM) que optimiza el equilibrio de recursos y la eficiencia en arquitecturas desacopladas mediante la migración flexible de pesos y cachés KV, superando significativamente a soluciones existentes como vLLM y DistServe en rendimiento y latencia.