Pooling Engram Conditional Memory in Large Language Models using CXL
Ce papier propose d'utiliser un pool de mémoire CXL pour stocker la mémoire conditionnelle des engrammes dans les grands modèles de langage, offrant une solution de stockage évolutive et rentable qui maintient des performances d'inférence proches de celles de la DRAM grâce à l'intégration dans SGLang.