MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: 거대한 요리사와 좁은 주방

최근 AI 모델들은 **'전문가 혼합 (MoE)'**이라는 방식을 씁니다. 마치 거대한 식당이 있는데, 요리사 (전문가) 가 수백 명이나 있지만, 한 번에 요리를 할 때는 메뉴에 따라 가장 적합한 요리사 2~3 명만 골라내는 방식입니다.

장점: 전체 요리사를 다 고용할 필요가 없으니 계산 비용은 적게 듭니다.
문제점: 하지만 모든 요리사 (데이터) 를 주방 (메모리) 에 두려면 공간이 너무 큽니다. 작은 장치 (에지 디바이스) 에는 모든 요리사를 한 번에 둘 공간이 없습니다.
기존 해결책: 필요한 요리사가 나오면 창고 (CPU) 에서 주방 (GPU) 으로 데려옵니다. 그런데 이 과정이 너무 느려서 요리사가 요리를 시작하기 전에 데려오는 시간만 기다려야 합니다. (I/O 병목 현상)

2. 기존 방식의 한계: "지금 당장 필요한 거만 가져와"

기존 방식은 "지금 요리를 하려는 메뉴가 뭐야?"라고 물어보고, 그 메뉴에 맞는 요리사만 데려옵니다. 하지만 AI 는 다음 단어를 하나씩 예측하는 과정에서 무작위성이 있어, "아, 다음엔 이 요리사가 필요할지도?"라고 미리 알기 어렵습니다. 그래서 요리사가 필요할 때 데려오느라 시간이 많이 걸립니다.

3. MoE-SpAc 의 혁신: "예언자 요리사"와 "스마트 창고 관리"

이 논문은 예측 (Speculative Decoding) 기술을 단순히 '속도'를 높이기 위한 도구가 아니라, **'창고를 관리하는 예언자'**로 재해석했습니다.

🌟 비유 1: 예언자 요리사 (Draft Model)

기존 방식은 한 번에 한 접시만 요리합니다. 하지만 MoE-SpAc 은 **'예언자 요리사 (작은 모델)'**를 고용합니다. 이 예언자는 "다음 8 가지 메뉴를 미리 대충 만들어볼게요!"라고 말합니다.

핵심: 이 예언자가 미리 만들어본 8 가지 메뉴를 보면, **"아, 다음 8 개 메뉴 중 5 개는 A 요리사가 필요하고, 3 개는 B 요리사가 필요하구나!"**라는 통계적 패턴을 알 수 있습니다.
효과: 단순히 "A 요리사 필요"라는 1 비트의 신호가 아니라, **"A 요리사가 5 번이나 필요할 거야!"**라는 풍부한 정보를 얻게 됩니다.

🌟 비유 2: 스마트 창고 관리자 (Utility Estimator)

이제 이 풍부한 정보를 바탕으로 **'스마트 창고 관리자'**가 나옵니다.

기존: 요리사가 필요할 때만 데려와서, 필요 없으면 바로 내보냅니다. (자주 왔다 갔다 하느라 문이 열리고 닫히는 소음만 큽니다.)
MoE-SpAc: 예언자가 "A 요리사는 다음 8 개 중 5 번이나 필요해!"라고 말하면, 관리자도 **"A 요리사는 지금 당장 주방에 두고, B 요리사는 창고에 두자"**라고 결정합니다.
특이점: "A 요리사"가 정말로 5 번이나 쓰일지, 아니면 1 번만 쓰일지 정확히 맞출 필요는 없습니다. **"대략적으로 많이 쓰일 것 같으면 주방에 두자"**는 식의 대략적인 예측만으로도 충분합니다. (오차 허용)

🌟 비유 3: 동시 작업 (Asynchronous Execution)

예언자가 다음 메뉴를 미리 준비하는 동안 (Drafting phase), 창고 관리자는 이미 다음에 필요한 요리사들을 주방으로 데려오는 작업을 동시에 합니다.

요리사가 요리를 하는 동안, 창고 관리자는 다음 요리사를 데려옵니다.
요리사가 요리를 끝내자마자, 다음 요리사는 이미 주방에 준비되어 있어 대기 시간 (지연) 이 사라집니다.

4. 결과: 왜 더 빠른가요?

이 시스템은 세 가지 장점을 합쳤습니다.

정보의 풍부함: "누가 필요할지"를 더 정확하고 풍부한 정보로 예측합니다.
부하 균형: 자주 쓰이는 요리사 (Hot Expert) 는 빠른 주방 (GPU) 에, 잘 안 쓰이는 요리사 (Cold Expert) 는 느린 창고 (CPU) 에 두어 자원을 효율적으로 씁니다.
동시성: 요리와 물류 (데이터 이동) 를 동시에 진행합니다.

5. 결론

MoE-SpAc은 거대한 AI 모델을 작은 장치에서도 실행할 수 있게 해주는 **'지능형 물류 시스템'**입니다.

기존: "요리할 때 요리사를 데려와" → 지연 발생
MoE-SpAc: "예언자가 미리 봐서, 자주 쓰일 요리사는 미리 주방에 두고, 안 쓰일 건 창고에 두자. 그리고 요리하는 동안 다음 요리사를 미리 데려와!" → 매우 빠른 속도

실험 결과, 이 방식을 쓰면 기존 최고의 기술보다 약 42% 더 빠르고, 일반적인 방식보다 약 4 배 더 빠른 속도를 보여줍니다. 마치 좁은 주방에서도 요리사가 기다리는 시간 없이 요리가 쏟아져 나오는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

대규모 언어 모델 (LLM) 의 확장성을 위해 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처가 널리 사용되고 있지만, 에지 디바이스 (개인용 기기, 엣지 하드웨어) 와 같은 리소스 제약 환경에서 배포하는 데는 심각한 메모리 병목 현상이 존재합니다.

메모리 제약: MoE 모델은 방대한 파라미터를 가지며, 전체 가중치를 GPU 메모리에 올릴 수 없어 CPU 메모리에 보관하고 필요 시 GPU 로 전송 (Offloading) 해야 합니다.
I/O 병목: 기존 오프로딩 전략은 동적이며 저정보 (Low-information) 인 자기회귀 (Autoregressive, AR) 생성 과정에서 발생하는 예측 오류로 인해 I/O 대기 시간을 효과적으로 숨기지 못합니다.
- AR 방식은 각 토큰 생성 시 '활성화/비활성화'의 이진 (Binary) 신호만 제공하여, 어떤 전문가 (Expert) 를 미리 불러와야 할지 예측하기 어렵습니다.
- 기존 예측 기법 (과거 패턴, 보조 네트워크 등) 은 이진 신호의 불확실성으로 인해 오예측이 빈번하고, 이로 인한 I/O 지연이 성능을 저하시킵니다.

2. 방법론 (Methodology)

저자들은 Speculative Decoding (SD, 추측적 디코딩) 을 단순한 연산 가속기가 아닌, 메모리 관리를 위한 정보 풍부한 '선제적 센서 (Lookahead Sensor)' 로 재정의하여 MoE-SpAc 프레임워크를 제안했습니다.

핵심 아이디어

정보의 전환: SD 는 작은 드래프트 모델 (Draft Model) 이 여러 토큰을 생성하고 타겟 모델이 이를 병렬로 검증하는 과정에서, 단일 토큰의 이진 신호가 아닌 여러 토큰에 걸친 전문가 활성화 빈도 (Frequency-valued signal) 를 제공합니다. 이는 미래의 전문가 수요를 더 정확하게 예측할 수 있게 합니다.
동시성 활용: 드래프트 (Draft) 단계 동안 GPU 가 연산을 수행하는 동안, 시스템은 병렬적으로 다음 단계에 필요한 전문가를 GPU 로 미리 가져오기 (Prefetching) 할 수 있습니다.

MoE-SpAc 의 3 가지 핵심 구성 요소

Speculative Utility Estimator (추측적 유틸리티 추정기)
- 목적: 다음 단계의 전문가 수요를 안정적으로 예측하기 위해 '유틸리티 점수 (Utility Score)'를 계산합니다.
- 메커니즘:
  - 관성 유틸리티 전이 (Inertial Utility Transition): 활성화 빈도의 급격한 변동이 아닌, 지속적인 추세를 기반으로 점수를 1 씩 증가/감소시킵니다. 이는 고주파 노이즈를 필터링합니다.
  - 적응형 경계 보정 (Adaptive Boundary Calibration): 이동 평균을 사용하여 빈도 변동의 임계값을 동적으로 조정하여, 작업 부하의 변화에 민감하면서도 안정성을 유지합니다.
- 결과: 이진 신호 대신 $[0, K]$ 범위의 이산적 유틸리티 공간에서 전문가의 '뜨거운 (Hot)' 또는 '차가운 (Cold)' 상태를 정량화합니다.
Heterogeneous Workload Balancer (이종 워크로드 밸런서)
- 목적: GPU 와 CPU 간의 계산 부하를 최적화하여 동기화 오버헤드 (Bubble) 를 최소화합니다.
- 메커니즘: 각 레이어에서 온라인 정수 최적화 (Online Integer Optimization) 문제를 해결합니다.
  - 목적 함수: CPU 와 GPU 의 실행 시간 차이를 최소화 ( $|T_{cpu} - T_{gpu}|$ ).
  - 제약 조건: I/O 대역폭 (예측 시간 내 로딩 가능 여부), VRAM 용량 (남은 메모리), 유틸리티 임계값.
- 결과: 실시간으로 동적 임계값 ( $\tau$ ) 을 결정하여, 높은 유틸리티를 가진 전문가 (Hot) 는 GPU 에, 낮은 전문가 (Cold) 는 CPU 에서 순차적으로 처리되도록 동적 분배합니다.
Asynchronous Execution Engine (비동기 실행 엔진)
- 목적: 최적화된 임계값에 따라 실제 가중치 이동을 수행하며 연산 파이프라인을 멈추지 않습니다.
- 메커니즘:
  - 유틸리티 기반 프리페칭: 우선순위 큐를 사용하여 높은 유틸리티를 가진 전문가를 먼저 GPU 로 가져옵니다.
  - 유틸리티 기반 에빅션 (Eviction): Red-Black 트리 등을 사용하여 낮은 유틸리티를 가진 GPU 내 전문가를 CPU 로 내보냅니다.
  - 통합 관리: 프리페칭과 에빅션을 동일한 유틸리티 지표로 통일하여 캐시 스래싱 (Thrashing) 을 방지합니다.

3. 주요 기여 (Key Contributions)

패러다임의 전환: SD 를 단순한 속도 향상 도구가 아닌, 메모리 관리를 위한 정보 센서로 재정의했습니다. 이론적 및 실증적 분석을 통해 SD 가 제공하는 '전문가 재사용', '정보 획득 (Information Gain)', '결함 허용 (Fault Tolerance)'의 이점을 증명했습니다.
통합 스케줄링 프레임워크: 추측적 디코딩을 기반으로 한 온라인 이종 전문가 스케줄링 프레임워크 (MoE-SpAc) 를 제안했습니다. 이는 CPU-GPU 워크로드를 동적으로 조율하여 엄격한 I/O 및 메모리 제약 하에서도 최적의 처리량을 달성합니다.
SOTA 성능 달성: 7 가지 벤치마크에서 기존 최첨단 (SOTA) SD 기반 베이스라인 대비 TPS(초당 토큰 수) 42% 향상을 달성했으며, 모든 표준 베이스라인 대비 평균 4.04 배의 속도 향상을 기록했습니다.

4. 실험 결과 (Results)

실험 환경: NVIDIA GeForce RTX 4090 GPU, PCIe 4.0, Qwen3-30B-A3B (타겟), Qwen3-4B-FP8 (드래프트).
성능 비교:
- TPS: 기존 SD 기반 베이스라인 (llama.cpp-w/SD) 대비 평균 41.9% 향상.
- 지연 시간 (Latency): 모든 벤치마크 (MMLU-Pro, MT-bench, HumanEval 등) 에서 일관된 성능 개선을 보였습니다.
- 모델 호환성: DeepSeek-V2-Lite 모델에서도 유사한 성능 향상 (TPS 52.9% 향상) 을 보여 높은 일반화 능력을 입증했습니다.
분석:
- 정보 획득: SD 를 사용한 MoE-SpAc 은 AR 기반 방법 (HybriMoE) 보다 전문가 활성화 패턴 예측 정확도 (약 0.85) 가 훨씬 높았습니다.
- 메모리 효율성: 드래프트 모델을 위한 작은 메모리 할당 (약 8%) 이 전문가 캐시 비율을 줄이더라도 전체적인 처리량을 크게 향상시켰습니다.
- Ablation Study: 추측적 유틸리티 추정기 (SpecUE) 와 이종 워크로드 밸런서 (HetWB) 가 성능 향상의 핵심 요소임을 확인했습니다.

5. 의의 및 결론 (Significance)

MoE-SpAc 은 에지 환경에서의 MoE 추론이 겪는 '메모리 벽 (Memory Wall)' 문제를 해결하는 새로운 접근법을 제시합니다.

기술적 혁신: SD 의 병렬 검증 특성을 활용하여 I/O 대기 시간을 계산 시간과 겹치게 (Overlap) 함으로써, 메모리 대역폭의 한계를 극복했습니다.
실용성: 단일 GPU 기반의 리소스 제약 환경에서도 대규모 MoE 모델을 실시간으로 구동할 수 있는 가능성을 열었습니다.
미래 전망: 이 프레임워크는 KV 캐시 관리나 다른 희소 아키텍처 (Mixture-of-Lookup-Experts 등) 로 확장 가능하며, 에지 AI 시스템의 효율성을 높이는 중요한 기반 기술이 될 것으로 기대됩니다.

요약하자면, MoE-SpAc 은 추측적 디코딩의 '예측' 능력을 '메모리 관리'에 활용하여, 에지 디바이스에서도 MoE 모델의 잠재력을 최대한 끌어올린 획기적인 시스템입니다.