Pooling Engram Conditional Memory in Large Language Models using CXL
Questo articolo propone l'utilizzo di un pool di memoria CXL per archiviare la memoria engramma condizionale nei grandi modelli linguistici, integrandolo in SGLang per ottenere prestazioni end-to-end vicine a quelle della DRAM e offrire una soluzione di storage scalabile ed economica senza compromettere l'inferenza.