MoEless: Efficient MoE LLM Serving via Serverless Computing

Each language version is independently generated for its own context, not a direct translation.

🏢 비유: 거대한 '전문가 도서관'과 '지루한 대기 시간'

AI 모델이 작동하는 방식을 **'거대한 도서관'**에 비유해 봅시다.

전문가 (Expert): 이 도서관에는 수천 명의 '전문가'들이 있습니다. 어떤 질문이 들어오면, 도서관장은 그 질문에 딱 맞는 전문가 한 명을 골라 일을 시킵니다.
불균형 문제 (Load Imbalance): 문제는 사람들이 항상 같은 전문가를 찾는다는 것입니다.
- 인기 전문가: "오늘 날씨 어때?" 같은 질문은 항상 같은 전문가에게 몰립니다. 이 분은 너무 바빠서 일이 끝날 때까지 기다려야 합니다.
- 閑職 전문가: 반면, 아주 드문 질문을 다루는 전문가들은 손을 놓고 기다리는 시간이 훨씬 깁니다.
- 결과: 전체 시스템은 가장 바쁜 전문가가 일을 끝낼 때까지 멈춰 서야 합니다. 마치 가장 느린 팀원이 모든 팀의 속도를 결정하는 것과 같습니다. 이를 기술 용어로 '스트래글러 (Straggler, 뒤통수치는 사람)' 문제라고 합니다.

❌ 기존 방식의 한계: "고정된 사무실"

기존의 AI 서비스 방식은 이 도서관을 고정된 사무실로 운영합니다.

인기 전문가를 위해 책상을 늘려주고 싶어도, 사무실 공간 (서버) 이 정해져 있어서 바로 늘릴 수 없습니다.
반대로, 일을 안 하는 전문가들의 책상도 비워둘 수 없습니다.
그래서 인기 전문가가 지치면 전체 시스템이 느려지고, 비용은 그대로 듭니다.

✅ MoEless 의 해결책: "유연한 클라우드 전문가"

이 논문이 제안한 MoEless는 이 시스템을 클라우드 기반의 유연한 시스템으로 바꿉니다.

1. 예측하는 점포 (예측기)

비유: 도서관장이 "다음에 '날씨' 질문이 100 개 들어올 것 같아!"라고 미리 눈치챕니다.
기술: AI 가 다음에 어떤 질문이 들어올지, 어떤 전문가가 바빠질지 미리 예측합니다.

2. 필요할 때만 부르는 전문가 (서버리스 확장)

비유: "날씨" 질문이 몰리면, 도서관장은 즉시 임시 전문가 10 명을 더 불러옵니다. 질문이 줄어들면 그 전문가들은 바로 퇴근시킵니다.
기술: 인기 있는 전문가의 작업을 여러 명에게 나누어 줍니다. (확장) 일이 없으면 즉시 자원을 줄입니다. (축소)
장점: 바쁜 전문가가 혼자 일할 필요가 없어지고, 기다리는 시간이 사라집니다.

3. 최적의 자리 배치 (배치 전략)

비유: 새로 부른 전문가들을 가장 가까운 책상 (GPU) 에 앉혀서, 이동 시간을 줄입니다.
기술: 전문가들을 컴퓨터 칩 (GPU) 에 효율적으로 배치하여 데이터 이동 시간을 최소화합니다.

🚀 MoEless 가 가져온 변화

이 시스템을 실험해 본 결과, 놀라운 성과가 나왔습니다.

속도: 전체 처리 속도가 43% 빨라졌습니다. (가장 느린 전문가 때문에 기다리는 시간이 사라졌기 때문입니다.)
비용: 돈이 84% 절약되었습니다. (일을 안 하는 전문가들에게 돈을 지불하지 않고, 필요한 때만 돈을 쓰기 때문입니다.)

📝 한 줄 요약

MoEless는 AI 가 "누가 바쁠지" 미리 예측해서, 바쁜 전문가에게는 즉시 도우미를 보내고, 일 없는 전문가에게는 휴식을 주는 똑똑한 시스템입니다. 덕분에 AI 는 더 빠르고, 우리는 더 저렴하게 사용할 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Definition)

배경:
대형 언어 모델 (LLM) 은 콘텐츠 생성, 검색, 추천 시스템 등 다양한 분야에서 핵심 역할을 하고 있습니다. 최근 모델의 규모를 확장하고 훈련 비용을 절감하기 위해 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처가 널리 채택되고 있습니다. MoE 는 Transformer 블록의 피드포워드 네트워크 (FFN) 를 여러 개의 '전문가 (Expert)' 네트워크로 대체하며, 계산 시 소수의 전문가만 활성화하는 희소성 (Sparsity) 을 가집니다.

핵심 문제: 전문가 부하 불균형 (Expert Load Imbalance)

현상: MoE 모델은 입력 데이터에 따라 특정 전문가가 과도하게 활성화되는 경향이 있습니다. 이는 전문가 스트래글러 (Expert Straggler) 문제를 유발합니다. 즉, 일부 GPU 는 과부하 상태가 되어 지연 시간이 길어지는 반면, 다른 GPU 는 유휴 상태로 남게 됩니다.
기존 솔루션의 한계: 기존 분산 배포 시스템 (서버풀, Serverful) 은 고정된 리소스 구성을 가정합니다. 부하 불균형을 해결하기 위해 실시간으로 전문가를 교체하거나 (Swapping) 경로를 재설정 (Re-routing) 하려 하지만, 이는 생성 품질을 저하시키거나 (Lossy) 실시간 교체 비용이 너무 높아 비효율적입니다. 또한, 고정된 리소스 할당으로 인해 동적인 부하 변화에 유연하게 대응하지 못합니다.

2. 방법론 (Methodology)

저자들은 MoEless라는 새로운 서버리스 (Serverless) MoE 서빙 프레임워크를 제안합니다. 이는 MoE 모델의 전문가들을 모델 본체와 분리하여 독립적인 서버리스 함수로 패키징하고, 동적으로 확장 및 배치하는 방식을 취합니다.

핵심 구성 요소:

전문가 부하 예측기 (Expert Load Predictor):
- 레이어 인식 (Layer-aware): Transformer 의 잔차 연결 (Residual Connection) 특성을 활용하여, 현재 레이어의 입력 은닉 상태가 미래 레이어의 게이트 네트워크 입력과 유사하다는 점을 이용합니다.
- 예측 거리 (Prediction Distance): 현재 레이어의 게이트 출력을 기다리지 않고, $d$ 레벨 앞선 레이어의 전문가 부하를 미리 예측합니다.
- 경량화 및 미세 조정: 원본 게이트 네트워크를 복제하여 경량 예측기로 사용하며, 레이어별 예측 정확도에 따라 선택적으로 미세 조정 (Fine-tuning) 을 수행하여 정확도를 높입니다.
전문가 스케일러 (Expert Scaler):
- 예측된 부하 분포를 기반으로 스트래글러 (과부하 전문가) 를 식별합니다.
- 동적 확장 (Dynamic Scaling): 스트래글러가 발생하는 경우, 해당 전문가의 인스턴스 수 (Replica) 를 즉시 증가시켜 부하를 분산합니다.
- 그리디 휴리스틱: 메모리 제약 내에서 부하의 편차 (Coefficient of Variance, CV) 가 임계값 이하가 될 때까지 가장 부하가 높은 전문가에 복제본을 추가하는 방식으로 작동합니다.
전문가 배치기 (Expert Placer):
- 확장된 전문가 복제본들을 GPU 에 효율적으로 배치합니다.
- 웜 스타트 (Warm-start): 이전에 사용된 인스턴스를 재사용하여 콜드 스타트 (Cold-start) 지연을 제거합니다.
- 부하 균형: 각 GPU 의 총 부하를 균등하게 분배하여 모든 GPU 가 동시에 작업을 완료하도록 합니다 (Join-the-Shortest-Queue 알고리즘 기반).

워크플로우:
예측 (Predict) $\rightarrow$ 스케일링 결정 (Scale) $\rightarrow$ 배치 최적화 (Place) $\rightarrow$ 동시 실행 (Serving) 의 단계를 거쳐, 예측 및 배치 오버헤드를 실제 추론 계산과 비동기적으로 겹쳐 (Overlap) 지연 시간을 최소화합니다.

3. 주요 기여 (Key Contributions)

최초의 서버리스 MoE 서빙 프레임워크: MoE 의 부하 불균형 문제를 해결하고 서버리스 전문가를 통해 추론을 가속화하는 MoEless 를 제안했습니다.
정교한 부하 예측 메커니즘: 레이어 인식 (Layer-aware) 과 경량화를 결합한 예측기를 설계하여, 다양한 레이어와 예측 거리에서 높은 정확도로 들어오는 부하 분포를 추정합니다.
동적 스케일링 및 배치 전략: 스트래글러 문제를 제거하고 전문가 및 GPU 수준에서 부하를 균형 있게 분산시키는 최적화 전략을 개발했습니다.
광범위한 실험 및 검증: Megatron-LM 기반 프로토타입을 8 개 GPU 테스트베드에 배포하여, 오픈소스 MoE 모델 (Mixtral-8x7B, Phi-3.5-MoE, Llama-4-Scout) 과 실제 워크로드 (ShareGPT, LMSYS-Chat-1M) 에 대해 평가했습니다.

4. 실험 결과 (Results)

MoEless 는 최신 기법 (SOTA) 들 (Megatron-LM, EPLB, Oracle Baseline) 과 비교하여 다음과 같은 성과를 거두었습니다.

지연 시간 (Latency): 평균 MoE 레이어 순방향 (Forward) 지연 시간을 43% 감소시켰습니다. (스트래글러 제거로 인한 효과)
비용 (Cost): 추론 비용 (GPU 메모리 사용량 $\times$ 지연 시간) 을 84% 감소시켰습니다. 서버리스의 탄력적 리소스 활용 덕분입니다.
예측 정확도: 기존 예측 방법 (Mixtral-offloading, ProMoE) 대비 평균 15~18% 높은 정확도를 달성했습니다.
시스템 오버헤드: 예측기 미세 조정 및 실행 오버헤드가 매우 낮아 (예측 지연 < 0.2ms/레이어), 전체 추론 성능에 거의 영향을 미치지 않았습니다.

5. 의의 및 결론 (Significance)

패러다임 전환: MoE 서빙에 있어 고정된 서버풀 (Serverful) 인프라에서 탄력적인 서버리스 (Serverless) 인프라로의 전환을 주도했습니다. 이는 동적인 부하 변화에 실시간으로 대응하여 리소스 낭비를 줄이고 비용을 절감할 수 있음을 입증했습니다.
실용성: MoE 모델의 핵심 병목 현상인 '스트래글러' 문제를 해결함으로써, 대규모 MoE 모델의 상용화 및 배포 비용을 획기적으로 낮출 수 있는 실용적인 솔루션을 제시했습니다.
확장성: 이 프레임워크는 다양한 MoE 모델 아키텍처와 워크로드에 적용 가능하며, 향후 더 정교한 런타임 최적화와 결합될 잠재력이 있습니다.

요약하자면, MoEless는 MoE 모델의 고유한 부하 불균형 문제를 서버리스 컴퓨팅의 탄력성과 정교한 예측 알고리즘을 결합하여 해결함으로써, 지연 시간과 비용 모두를 획기적으로 개선한 혁신적인 LLM 서빙 시스템입니다.