Hardware-Software Co-design for 3D-DRAM-based LLM Serving Accelerator

이 논문은 동적인 LLM 서빙 워크로드를 효율적으로 처리하기 위해 3D-DRAM 기반의 하이브리드 본딩 아키텍처인 'Helios'를 제안하며, 공간 인식 KV 캐시 할당 및 분산 타일 어텐션 실행을 통해 기존 설계 대비 성능과 에너지 효율성을 획기적으로 개선함을 보여줍니다.

Cong Li, Yihan Yin, Chenhao Xue, Zhao Wang, Fujun Bai, Yixin Guo, Xiping Jiang, Qiang Wu, Yuan Xie, Guangyu Sun

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: 왜 지금의 AI는 지치나요? (기존 기술의 한계)

지금까지 AI(대형 언어 모델) 를 서비스할 때는 마치 거대한 도서관을 운영한다고 생각해보세요.

  • 기존 방식 (GPU): 도서관에 책 (데이터) 이 쌓이면, 사서 (프로세서) 가 책장을 모두 뒤져서 필요한 책을 찾아옵니다. 책이 너무 많으면 사서가 책을 찾는 데만 시간이 걸려서 손님이 기다리는 시간이 길어집니다.
  • 기존의 개선 시도 (NMP): 사서에게 책장 바로 옆에 작은 책상 (처리 엔진) 을 만들어주었습니다. 이렇게 하면 책 찾는 속도는 빨라졌지만, 책장 관리 방식이 너무 구식이었습니다.
    • 문제점 1 (고정된 책장): "한 손님이 한 번 들어오면, 그 손님이 읽을 모든 책 (키-밸류 캐시) 을 미리 한 책장에 꽉 채워놔야 한다"는 규칙이 있었습니다. 손님이 책을 10 권만 읽을지 1,000 권을 읽을지 모르는데, 미리 1,000 권 분량의 공간을 다 차지해버리는 것입니다.
    • 문제점 2 (비효율적인 이동): 손님이 다른 책장으로 이동할 때, 사서들이 서로 책장을 오가며 책을 옮기는 데 너무 많은 시간이 걸렸습니다.

결과적으로, 손님이 갑자기 몰리거나 (요청 폭주), 손님이 아주 긴 이야기를 할 때 (긴 문맥), 도서관은 혼란에 빠지고 서비스 속도가 느려집니다.

2. 해결책: 헬리오스 (Helios) 의 등장

헬리오스는 이 문제를 해결하기 위해 두 가지 혁신을 가져왔습니다.

A. "레고 블록" 같은 책장 관리 (동적 KV 캐시 할당)

헬리오스는 손님이 들어오자마자 미리 책을 다 채워두지 않습니다. 대신, 손님이 실제로 읽는 만큼만 '작은 책 (블록)'을 빌려줍니다.

  • 비유: 기존 방식이 "한 손님을 위해 큰 방 전체를 예약해두는 것"이라면, 헬리오스는 **"손님이 앉는 의자 하나하나만 빌려주는 것"**과 같습니다.
  • 효과:
    • 손님이 짧게 대화하면 작은 공간만 쓰고, 길게 대화하면 더 많은 공간을 채웁니다.
    • 도서관의 공간 낭비가 사라져서, 같은 크기의 도서관에 훨씬 더 많은 손님을 동시에 모실 수 있습니다.

B. "초고속 연결"과 "유연한 사서 팀" (하이브리드 본딩 & 분산 처리)

헬리오스는 책장 (메모리) 과 사서 (처리 장치) 를 3D 레고처럼 밀착시켜 붙였습니다 (하이브리드 본딩).

  • 비유: 기존에는 사서와 책장이 떨어져 있어서 책이랑 사서 사이를 오가는 데 시간이 걸렸다면, 헬리오스는 사서가 책장 바로 위에 앉아있는 형태입니다.
  • 유연한 팀워크: 사서들이 고정된 책장만 담당하는 게 아니라, 모든 사서가 서로 협력합니다.
    • 어떤 손님이 긴 이야기를 하면, 사서들이 모여서 그 이야기를 나누어 처리합니다.
    • 어떤 사서가 바쁘면, 옆 사서가 도와줍니다.
    • 이렇게 하면 어떤 손님이 오더라도 가장 효율적으로 일할 수 있는 사서 팀이 바로 구성됩니다.

3. 결과: 얼마나 빨라졌나요?

이 새로운 방식 (헬리오스) 을 적용한 결과, 기존 방식에 비해 놀라운 성과가 나왔습니다.

  • 속도: 기존 칩보다 약 3.25 배 더 빠릅니다. (손님이 답변을 기다리는 시간이 획기적으로 줄어듦)
  • 전력 효율: 같은 일을 하는 데 드는 전기는 약 3.36 배 더 절약됩니다. (전기세와 발열 문제 해결)
  • 대기 시간: 특히 긴 대화를 할 때나, 손님이 몰릴 때 (P99 지수 기준) 대기 시간이 최대 76% 까지 단축되었습니다.

4. 요약: 왜 이것이 중요한가요?

지금까지 AI 서비스는 "손님이 많으면 느려지고, 긴 대화를 하면 비싸다"는 한계가 있었습니다.

헬리오스"책장 (메모리) 과 사서 (계산기) 를 밀착시키고, 손님의 필요에 따라 공간을 유연하게 나누어 쓰는" 방식을 도입했습니다. 이는 마치 스마트한 도서관이 되어, 손님이 아무리 많아도, 아무리 긴 이야기를 해도 빠르고 저렴하게 서비스를 제공할 수 있게 해줍니다.

이 기술이 상용화되면, 우리가 사용하는 AI 챗봇은 더 똑똑해지고, 더 많은 사람이 동시에 사용해도 멈추지 않게 될 것입니다.