Efficient Graph Embedding at Scale: Optimizing CPU-GPU-SSD Integration

이 논문은 CPU, GPU, NVMe SSD 자원을 통합하여 대규모 그래프 임베딩의 메모리 한계와 I/O 병목 문제를 해결하고, 기존 시스템 대비 최대 4.8 배의 속도 향상과 GPU 사용량 4 분의 1 절감을 달성한 경량 이종 시스템 'Legend'를 제안합니다.

Zhonggen Li, Xiangyu Ke, Yifan Zhu, Yunjun Gao, Feifei Li

게시일 2026-03-13
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **거대한 그래프 데이터 (예: 트위터의 모든 친구 관계나 지식 그래프) 를 분석할 때 발생하는 '속도'와 '비용'의 문제를 해결한 새로운 시스템 '레전드 (Legend)'**에 대한 이야기입니다.

쉽게 말해, **"수십억 개의 노드 (사람이나 사물) 를 가진 거대한 네트워크를 분석할 때, 비싼 메모리를 모두 다 쓸 필요 없이, 저렴하면서도 빠른 SSD 와 GPU 를 똑똑하게 섞어 써서 속도를 5 배까지 높인 방법"**을 소개합니다.

이해하기 쉽게 세 가지 핵심 비유로 설명해 드릴게요.


1. 문제 상황: "도서관 사서와 비싼 VIP 책장"

그래프 분석을 하려면 방대한 양의 데이터 (책) 를 컴퓨터의 기억 공간 (메모리) 에 올려놓고 계산해야 합니다.

  • 기존 방식 A (RAM 기반): 모든 책을 비싼 **VIP 책장 (고성능 메모리)**에 다 올려둡니다. 계산 속도는 빠르지만, 책이 너무 많으면 책장이 부족해지고, 책장을 사려면 돈이 천문학적으로 듭니다. (비싼 서버 4 대가 필요함)
  • 기존 방식 B (디스크 기반): 모든 책을 **일반 서가 (하드디스크)**에 두고, 필요할 때만 가져옵니다. 돈은 덜 들지만, 책을 가져오는 시간이 너무 걸려서 계산하는 기계 (GPU) 가 "아직 안 왔어요?" 하며 기다리는 시간이 길어집니다. (계산 기계가 놀고 있는 시간이 40% 이상)

결국: 속도를 내려면 비싸게 사야 하고, 싼걸 쓰면 속도가 느려지는 딜레마에 빠집니다.


2. 레전드 (Legend) 의 해결책: "똑똑한 물류 센터"

레전드 시스템은 이 문제를 해결하기 위해 세 가지 혁신적인 아이디어를 적용했습니다.

① "미리 준비해 두는 스마트 물류 (Prefetching)"

  • 비유: 요리사가 재료를 다듬고 있을 때, 다음 요리에 쓸 재료를 미리 손질해 두는 것처럼요.
  • 설명: 기존 시스템은 "재료가 필요해!"라고 외친 다음에 재료를 가져와서 기다렸습니다. 레전드는 "다음에 어떤 재료가 필요할지 미리 계산해서, 요리사가 다른 작업을 하는 동안 재료를 미리 가져와서 준비해 둡니다."
  • 효과: 계산 기계가 재료를 기다리는 시간이 거의 사라져서, 계속 일을 할 수 있게 됩니다.

② "직통 열차 (GPU-SSD Direct Access)"

  • 비유: 일반 택배는 창고 관리원 (CPU) 을 거쳐서 배송되지만, 레전드는 창고 (SSD) 와 주방 (GPU) 사이에 직통 엘리베이터를 설치한 겁니다.
  • 설명: 보통 데이터는 CPU 를 거쳐서 GPU 로 가는데, 이 과정에서 CPU 가 너무 바빠서 병목 현상이 생깁니다. 레전드는 SSD 에서 GPU 로 바로 데이터를 보내는 전용 통로를 만들어서, CPU 의 간섭 없이 데이터를 빠르게 이동시킵니다.
  • 효과: 데이터 이동 속도가 빨라지고, CPU 가 다른 일을 할 여유가 생깁니다.

③ "효율적인 주방 배치 (GPU 최적화)"

  • 비유: 주방에서 요리사 (GPU) 가 칼질할 때, 불필요한 동작을 줄이고 가장 효율적인 순서로 재료를 썰게 하는 겁니다.
  • 설명: 기존 시스템들은 GPU 의 능력을 60% 정도만 썼습니다. 레전드는 GPU 가 가진 특수한 기능 (텐서 코어 등) 을 최대한 활용하고, 불필요한 계산을 없애거나 재사용하도록 프로그램을 다시 짰습니다.
  • 효과: 같은 하드웨어로 훨씬 더 많은 일을 처리할 수 있게 되었습니다.

3. 결과: "한 대의 고성능 서버로 네 대의 성능을 내다"

이 모든 기술을 합친 결과, 레전드는 놀라운 성과를 거두었습니다.

  • 속도: 기존 최고 성능 시스템보다 최대 4.8 배 더 빠릅니다.
  • 비용: 같은 일을 처리하는 데 비싼 서버 4 대가 아니라, 서버 1 대만 있으면 됩니다. (비용 1/4 절감)
  • 효율: 컴퓨터의 계산 장치가 놀고 있는 시간이 거의 없어졌습니다. (GPU 사용률 90% 이상 유지)

요약하자면?

레전드는 **"비싼 메모리를 모두 다 쓸 수 없다면, 저렴하지만 빠른 SSD 를 활용하고, 데이터를 미리 준비하며, 데이터 이동 경로를 단축하고, 계산 방식을 최적화하라"**는 철학을 실현한 시스템입니다.

마치 비싼 VIP 좌석 (메모리) 을 다 채울 수 없는 대형 극장에서, 일반 좌석 (SSD) 을 활용하되 VIP 좌석처럼 빠르게 관객을 안내하고, 스텝들이 움직이는 동선까지 최적화해서 공연 속도를 5 배로 높인 것과 같습니다.

이 기술은 앞으로 초대규모 인공지능 학습이나 소셜 네트워크 분석을 훨씬 저렴하고 빠르게 가능하게 해 줄 것입니다.