Pooling Engram Conditional Memory in Large Language Models using CXL
Este artículo propone utilizar un pool de memoria CXL para almacenar la memoria condicional de engramas en modelos de lenguaje grandes, integrándolo en SGLang para lograr un rendimiento cercano al de la DRAM y ofrecer una solución de almacenamiento escalable y rentable sin comprometer la inferencia.