S-HPLB: Efficient LLM Attention Serving via Sparsity-Aware Head Parallelism Load Balance

본 논문은 LLM 어텐션 헤드 간 이질적인 희소성 특성을 활용하여 크로스-GPU 리소스 버블을 최소화하는 '희소성 인식 헤드 병렬 부하 균형 (S-HPLB)' 전략을 제안함으로써, 품질 저하 없이 평균 어텐션 계산 지연 시간을 2.88 배 단축함을 보여줍니다.

Di Liu, Yifei Liu, Chen Chen, Zhibin Yu, Xiaoyi Fan, Quan Chen, Minyi Guo

게시일 Thu, 12 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏢 비유: 거대한 도서관과 8 명의 사서

마치 거대한 도서관 (인공지능 모델) 이 있다고 상상해 보세요. 이 도서관에는 **8 명의 사서 (GPU)**가 있습니다. 사용자가 "128,000 페이지짜리 긴 책에서 중요한 정보만 찾아줘!"라고 요청하면, 이 사서들이 협력해서 답을 찾아야 합니다.

기존의 방식에는 두 가지 큰 문제가 있었습니다.

1. 문제 상황: "모두에게 똑같은 일을 시키는 실수"

기존 시스템은 8 명의 사서에게 무조건 똑같은 양의 책 페이지를 찾아보라고 지시했습니다.

  • A 사서: "나는 이 책의 10 페이지만 보면 핵심을 알 수 있어." (이미지 처리가 쉬운 사람)
  • B 사서: "나는 이 책의 100 페이지를 다 봐야 핵심을 알 수 있어." (이미지 처리가 어려운 사람)

그런데 시스템은 둘 다에게 "100 페이지씩 찾아와!"라고 시켰습니다.

  • A 사서: 100 페이지를 다 봤지만, 사실은 10 페이지만 봐도 충분했으니 시간과 에너지를 낭비했습니다.
  • B 사서: 100 페이지를 봐도 부족해서 정확도가 떨어졌습니다.

또 다른 문제는, B 사서가 100 페이지를 다 찾는 동안 A 사서는 10 페이지만 찾고 끝났는데, B 사서가 끝날 때까지 기다려야만 다음 작업을 시작할 수 있다는 점입니다. (이걸 '대기 시간'이라고 해요.)

2. 해결책: S-HPLB (맞춤형 업무 분배 + 팀워크)

S-HPLB 는 이 문제를 두 가지 단계로 해결합니다.

첫 번째 단계: "각 사서의 특성을 파악하고 업무량을 조절한다" (적응형 예산 할당)

  • S-HPLB 는 먼저 각 사서 (Attention Head) 가 어떤 책 (입력 데이터) 을 읽을 때 얼마나 많은 페이지를 봐야 핵심을 잡을 수 있는지 미리 분석합니다.
  • "A 사서에게는 10 페이지만 찾아오면 돼, B 사서에게는 100 페이지를 찾아와."라고 각자에게 딱 맞는 업무량을 배분합니다.
  • 이렇게 하면 불필요한 낭비가 사라지고, 중요한 정보는 놓치지 않게 됩니다.

두 번째 단계: "팀워크를 맞춰서 모두 동시에 끝내게 한다" (부하 균형 조정)

  • 그런데 여기서 새로운 문제가 생깁니다. A 사서는 10 페이지를 찾아서 금방 끝났는데, B 사서는 100 페이지를 찾아서 시간이 오래 걸리면, B 사서가 끝날 때까지 A 사서는 그냥 빈손으로 기다려야 합니다. (이게 바로 '자원 낭비'입니다.)
  • S-HPLB 는 이 문제를 해결하기 위해 8 명의 사서를 8 개의 컴퓨터 (GPU) 에 어떻게 배치할지 지능적으로 재배치합니다.
  • "A 사서와 B 사서를 같은 컴퓨터에 두면 한쪽이 기다리게 되니까, A 사서는 1 번 컴퓨터에, B 사서는 2 번 컴퓨터에 두고, 그 사이를 다른 사서들로 채워 균형을 맞추자!"라고 최적의 팀 구성을 짜줍니다.

🚀 이 기술이 가져온 변화

이런 똑똑한 시스템 (S-HPLB) 을 적용한 결과, 놀라운 성과가 나왔습니다.

  1. 속도 2.88 배 향상: 같은 작업을 하는 데 걸리는 시간이 기존보다 거의 3 배 가까이 빨라졌습니다. (기다리는 시간이 사라졌기 때문입니다.)
  2. 정확도 유지: 업무량을 줄였는데도, 중요한 정보는 놓치지 않아 정답을 맞히는 능력은 그대로 유지되었습니다. 오히려 불필요한 정보 (노이즈) 를 걸러내어 더 잘 맞추는 경우도 있었습니다.
  3. 긴 글도 척척: 128,000 자라는 엄청난 분량의 글을 처리할 때도 속도가 느려지지 않았습니다.

💡 요약하자면

S-HPLB 는 **"모두에게 똑같은 일을 시키는 구시대적 방식"**을 버리고, **"각자 능력에 맞는 일을 주고, 팀원들을 잘 배치해서 모두 동시에 일을 끝내게 하는 현대적 관리 방식"**을 적용한 것입니다.

이 덕분에 인공지능은 더 긴 글을 더 빠르게, 그리고 더 정확하게 읽을 수 있게 되었습니다. 마치 8 명의 사서가 서로의 특성을 이해하고 완벽하게 조화를 이루며 도서관을 운영하는 것과 같습니다.