LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing
El artículo presenta LycheeCluster, un método innovador de gestión de caché KV que utiliza fragmentación consciente de límites y un índice jerárquico recursivo para acelerar la inferencia de modelos de lenguaje grandes en contextos largos hasta en un 3,6 veces sin comprometer significativamente su rendimiento.