Pooling Engram Conditional Memory in Large Language Models using CXL

本文提出利用 Compute Express Link (CXL) 内存池存储大语言模型的 Engram 条件记忆,通过 SGLang 集成实现了接近 DRAM 的端到端性能,为未来 Engram 集成的 LLM 提供了可扩展且高性价比的存储解决方案。

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie Luo

发布于 Thu, 12 Ma
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文讲述了一个关于如何让大型人工智能(LLM)变得更聪明、更便宜、更快速的创新方案。为了让你轻松理解,我们可以把大模型想象成一个超级图书馆,把其中的技术细节用生活中的例子来类比。

1. 核心问题:图书馆太挤了,但书很少被翻动

想象一下,未来的大型语言模型(LLM)就像一座巨大的图书馆。

  • 传统的做法:为了回答你的问题,图书馆必须把所有的书籍(知识)都放在手边的桌子上(显存/DRAM),以便随时取用。但这导致桌子越来越小,放不下那么多书,而且搬运这些书非常昂贵。
  • Engram(记忆痕迹)的出现:研究人员发现,其实图书馆里只有极少部分的书是真正需要被频繁翻阅的(比如特定的词汇组合)。大部分时间,模型只是在处理逻辑,不需要翻书。
  • 新挑战:Engram 技术就是把这些“特定词汇表”单独拿出来,放在一个巨大的外部仓库里。虽然仓库很大(几百 GB),但每次只需要从仓库里拿几页纸(几 KB 的数据)出来用一下。

痛点:如果仓库离得太远,或者拿书的方式太笨重(比如每次都要填单子、等快递),那模型就会因为“等书”而变慢,甚至卡死。

2. 解决方案:CXL 内存池 —— 就像“共享的高速传送带”

为了解决“等书”的问题,这篇论文提出使用一种叫 CXL 的新科技。

  • 旧方案(RDMA):就像是用快递车去仓库取书。

    • 虽然快递车能跑很远,但它有固定的流程:装车、发车、卸货。如果你只需要拿一张纸,让一辆大卡车跑一趟,效率极低,而且路上还要花时间。
    • 在论文中,RDMA 就像这种“大卡车”,对于 Engram 这种“每次只拿几页纸”的需求来说,太慢、太笨重了。
  • 新方案(CXL 内存池):就像是在图书馆和仓库之间架起了一条超高速的透明传送带

    • 直接存取:CXL 允许计算机直接像拿自己桌子上的书一样,去拿仓库里的书。不需要填单子,不需要等快递。
    • 细粒度:它不仅能拿整箱书,还能精准地只拿一页纸,而且速度几乎和拿自己桌子上的书一样快。
    • 共享:多个图书馆(服务器)可以共用同一个大仓库,不用每个图书馆都自己建一个巨大的仓库,省下了巨额的建设费。

3. 他们做了什么?

研究团队(来自北京大学、阿里云等)做了一个实验:

  1. 搭建系统:他们把 Engram 的“词汇表”放到了 CXL 共享内存池里。
  2. 优化取书流程:他们写了一套专门的“取书程序”(代码),让电脑能同时派出一百个人,在传送带上并行地、飞快地把需要的几页纸取回来。
  3. 接入大脑:把这个系统接入了目前最先进的 AI 推理框架(SGLang)。

4. 结果如何?

  • 速度惊人:虽然书是从“外部仓库”(CXL 内存)拿的,但因为传送带(CXL)太快了,AI 感觉不到任何延迟。它的速度几乎和书放在自己桌子上(本地显存)一样快!
  • 省钱巨大
    • 以前:如果你有 10 个服务器,每个都要买 200GB 的昂贵内存来存这些书,总共要花很多钱。
    • 现在:大家共用一个 200GB 的大仓库,只需要买一个 CXL 交换机和适配器。
    • 比喻:就像 10 个人合租一个大冰箱,而不是每个人都要买一个独立的大冰箱。当规模越大(服务器越多、模型越大),省下的钱就越多。

5. 总结:这对我们意味着什么?

这篇论文的核心思想就是:用“共享的高速传送带”(CXL)来替代“昂贵的独立书桌”(本地显存),专门用来存放 AI 需要频繁查阅但又不占地方的小知识(Engram)。

  • 对 AI 来说:它变得更聪明了(可以容纳更多知识),而且反应依然很快。
  • 对公司来说:建 AI 服务器的成本大幅降低,让未来的大模型更普及。
  • 对技术界:证明了 CXL 这种新技术非常适合处理这种“零碎但频繁”的数据读取任务,是未来 AI 基础设施的重要方向。

简单来说,他们发明了一种**“既快又省”的 AI 记忆外挂**,让大模型不再因为“记性太好(内存不够)”而发愁。