Pooling Engram Conditional Memory in Large Language Models using CXL

이 논문은 Engram 의 희소 접근 패턴에 최적화된 CXL 메모리 풀을 SGLang 에 통합하여, 대규모 언어 모델의 추론 성능을 저해하지 않으면서도 확장 가능하고 비용 효율적인 메모리 솔루션을 제시합니다.

Ruiyang Ma, Teng Ma, Zhiyuan Su, Hantian Zha, Xinpeng Zhao, Xuchun Shang, Xingrui Yi, Zheng Liu, Zhu Cao, An Wu, Zhichong Dou, Ziqian Liu, Daikang Kuang, Guojie Luo

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "지식 있는 AI"의 고충

지금까지의 AI(거대 언어 모델) 는 두 가지 방식 중 하나를 선택해야 했습니다.

  1. 머리 속에 모든 것을 외우기: AI 가 모든 지식을 자신의 뇌 (메모리) 에 다 넣으면, 뇌가 너무 커져서 비싸고 무거워집니다.
  2. 계산으로 추측하기: 지식을 외우지 않고 매번 계산해서 답을 찾으려 하면, 시간이 너무 오래 걸려서 답답합니다.

최근 **'엔그램 (Engram)'**이라는 새로운 기술이 등장했습니다. 이는 AI 가 "외우기"와 "계산하기" 사이에서 중간 길을 찾은 것입니다. AI 가 특정 지식 (예: "사과"라는 단어가 나올 때 연관된 정보) 을 별도의 작은 창고에서 찾아와서 사용하는 방식입니다.

하지만 여기서 문제가 생깁니다.
이 '지식 창고'의 크기가 너무 큽니다 (수백 GB). 그런데 AI 가 이 창고를 이용할 때는 매우 드물고, 아주 작은 조각만 가져옵니다. 마치 도서관에서 책 전체를 빌리는 게 아니라, 특정 페이지의 한 줄만 복사해 오는 것과 비슷합니다.

기존 방식 (RDMA 라는 네트워크 기술) 으로 이 작은 조각들을 가져오려니, 도서관 문이 너무 느려서 AI 가 답을 기다리는 시간이 길어집니다.

2. 해결책: "CXL"이라는 초고속 엘리베이터

이 논문은 **CXL(컴퓨트 익스프레스 링크)**이라는 새로운 기술을 이용해 이 문제를 해결했습니다.

비유: "공유 아파트의 공용 냉장고"

  • 기존 방식 (RDMA): 각 아파트 (서버) 가 따로따로 냉장고를 가지고 있고, 물건을 가져오려면 엘리베이터를 타고 다른 아파트로 이동해야 합니다. 엘리베이터가 느리고, 작은 물건 (한 줄의 지식) 을 가져오려면 시간이 너무 걸립니다.
  • 새로운 방식 (CXL): 모든 아파트가 하나의 거대한 공용 냉장고를 공유합니다. 그리고 이 냉장고는 각 아파트의 부엌 (GPU) 과 **초고속 엘리베이터 (CXL)**로 직접 연결되어 있습니다.

CXL 의 장점:

  • 직접 연결: 엘리베이터가 부엌 바로 옆에 있어서, 작은 물건 (지식 조각) 을 가져오는 데 걸리는 시간이 거의 없습니다.
  • 공유: 한 개의 거대한 냉장고만 있으면 되므로, 아파트 (서버) 를 여러 개 늘려도 냉장고를 새로 살 필요가 없습니다.

3. 실험 결과: "느린 도서관"이 "초고속 도서관"이 되다

연구진은 이 기술을 실제 AI 시스템 (SGLang) 에 적용해 보았습니다.

  • 속도: CXL 을 사용하면, AI 가 지식 창고에서 정보를 가져오는 속도가 로컬 메모리 (AI 뇌 바로 옆에 있는 메모리) 와 거의 똑같아졌습니다. 즉, 창고가 멀리 있어도 AI 는 전혀 느려지지 않습니다.
  • 비용: 여러 대의 서버가 하나의 거대한 지식 창고를 공유하므로, 하드웨어 비용을 획기적으로 줄일 수 있습니다. 특히 AI 모델이 커질수록 (지식 창고가 커질수록) 비용 절감 효과가 더 큽니다.

4. 요약: 왜 이것이 중요한가요?

이 논문은 **"AI 가 더 똑똑해지려면 더 많은 지식이 필요하지만, 그 지식을 저장하는 비용과 속도가 문제였다"**는 점을 지적하고, CXL 이라는 기술을 통해 "공유된 초고속 지식 창고"를 만들어 해결했다는 것을 보여줍니다.

한 줄 요약:

"AI 가 필요한 지식을 가져오는 속도를 떨어뜨리지 않으면서, 거대한 지식 창고를 여러 AI 가 함께 쓸 수 있게 만들어 비용은 줄이고 성능은 유지하는 방법을 개발했습니다."

이 기술이 상용화되면, 앞으로 더 똑똑하고 저렴한 AI 서비스를 우리가 더 쉽게 이용할 수 있게 될 것입니다.