Adaptive Multi-Objective Tiered Storage Configuration for KV Cache in LLM Service
El artículo presenta Kareto, un optimizador que utiliza poda guiada por rendimientos decrecientes y ajuste adaptativo para gestionar dinámicamente el almacenamiento en niveles de la memoria caché KV en servicios de modelos de lenguaje grandes, logrando mejoras significativas en el equilibrio entre costo, rendimiento y latencia en comparación con las estrategias estáticas.
Xianzhe Zheng, Zhengheng Wang, Ruiyan Ma, Rui Wang, Xiyu Wang, Rui Chen, Peng Zhang, Sicheng Pan, Zhangheng Huang, Chenxin Wu, Yi Zhang, Bo Cai, Kan Liu, Teng Ma, Yin Du, Dong Deng, Sai Wu, Guoyun Zhu, Wei Zhang, Feifei LiWed, 11 Ma💻 cs