EvoESAP: Non-Uniform Expert Pruning for Sparse MoE

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **'EvoESAP'**이라는 새로운 기술을 소개합니다. 이 기술은 거대한 인공지능 (AI) 모델을 더 가볍고 빠르게 만들면서도, 그 성능은 그대로 유지하거나 오히려 더 좋게 만드는 방법을 찾아냅니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.

1. 배경: 거대한 AI 의 '비싼' 문제

지금의 거대 AI 모델들은 **'스파게티 소스'**처럼 생각하면 됩니다.

전문가 (Experts): 소스를 만들 때 사용하는 수많은 '조리사'들이 있습니다. (각각 다른 일을 잘하는 전문가들)
문제: 이 조리사들이 너무 많아서, 소스를 만들 때마다 모든 조리사를 고용해 두어야 합니다. 하지만 실제로는 한 번에 몇 명만 일시킵니다.
결과: AI 는 똑똑하지만, 이 '모든 조리사'를 기억하고 관리하려면 엄청난 메모리 (돈과 공간) 가 필요해서 일반인이 쓰기 어렵습니다.

2. 기존 방법의 한계: "모든 층에 똑같이 잘라내자"

기존에 이 문제를 해결하려는 방법들은 **"모든 층 (Layer) 에서 똑같은 비율로 조리사를 잘라내자"**라고 생각했습니다.

예를 들어, 100 명 중 50 명을 잘라내야 한다면, 1 층부터 10 층까지 모든 층에서 50 명씩 똑같이 잘라내는 식입니다.
하지만: 실제로는 층마다 중요한 조리사의 역할이 다릅니다. 어떤 층은 10 명만 있어도 충분하고, 어떤 층은 90 명이 필요할 수도 있습니다. 똑같이 잘라내면 중요한 부분이 망가져서 AI 가 멍청해질 수 있습니다.

3. EvoESAP 의 핵심 아이디어: "맞춤형 잘라내기"

이 논문은 **"어떤 층은 많이 남기고, 어떤 층은 적게 남기는 '비균형' 전략"**을 제안합니다. 마치 옷을 다듬을 때, 어깨는 넓게 남기고 허리는 잘라내는 재단처럼 말이죠.

이를 위해 두 가지 핵심 도구를 개발했습니다.

① ESAP: "예측 점수판" (가장 중요한 혁신)

새로운 AI 모델을 만들 때마다 실제 테스트 (수천 번의 대화) 를 해보면 시간이 너무 오래 걸립니다.

비유: 새로운 요리 레시피를 개발할 때, 매번 100 명에게 맛을 보게 하면 시간이 너무 걸립니다. 대신, 주방장 (원본 AI) 이 "이 재료를 넣으면 맛이 비슷할 것 같다"고 미리 점수를 매겨주는 시스템이 필요합니다.
ESAP: 이 논문은 **'예상되는 합격률 (ESAP)'**이라는 점수판을 만들었습니다. 이 점수판은 실제 테스트 없이도, "이렇게 조리사를 잘라내면 원본 AI 와 얼마나 비슷하게 행동할까?"를 매우 빠르고 정확하게 예측해 줍니다.

② 진화 알고리즘: "자연선택"

이제 "어떤 층에 몇 명을 남겨야 할까?"라는 정답을 찾아야 합니다.

비유: 수많은 요리 레시피 (잘라내기 패턴) 를 만들어 봅니다.
1. ESAP 점수판으로 맛을 예측합니다.
2. 점수가 높은 레시피만 살아남게 합니다.
3. 살아남은 레시피들을 섞어서 (돌연변이) 새로운 레시피를 만듭니다.
4. 이 과정을 수십 번 반복하면, 가장 완벽한 '맞춤형 잘라내기' 패턴이 자연스럽게 진화해 나옵니다.

4. 실제 효과: "똑똑한데, 가볍다"

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

기존 방식 (균일하게 잘라내기): AI 가 멍청해지거나, 특히 창의적인 글쓰기나 수학 문제를 풀 때 실수가 많아졌습니다.
EvoESAP 방식 (맞춤형 잘라내기):
- 메모리는 기존과 똑같이 줄였는데, 수학 문제 (MATH-500) 풀이 능력은 19.6% 나 향상되었습니다.
- 마치 "중요한 부분은 두껍게 남기고, 덜 중요한 부분은 얇게 잘라내서" 전체적인 구조를 더 튼튼하게 만든 것과 같습니다.

5. 요약: 왜 이 기술이 중요한가?

이 기술은 **"AI 를 더 싸게, 더 빠르게 만들 수 있지만, 지능은 떨어뜨리지 않는다"**는 것을 증명했습니다.

기존: "모든 층에서 똑같이 잘라내자" → 성능이 떨어짐.
EvoESAP: "어디에 얼마나 남길지 똑똑하게 계산해서 잘라내자" → 성능은 그대로 (오히려 좋아짐), 비용은 대폭 절감.

이제 우리는 AI 를 더 작은 스마트폰이나 개인용 컴퓨터에서도, 원본과 똑똑하게 작동하도록 구동할 수 있는 길을 열게 되었습니다. 마치 거대한 식당을 작은 카페로 바꾸되, 메인 요리사의 실력은 그대로 유지하는 것과 같습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

희소 전문가 혼합 (Sparse Mixture-of-Experts, SMoE) 언어 모델은 토큰당 계산 비용을 낮추면서 모델의 전체 파라미터 수를 확장하여 강력한 성능을 제공합니다. 그러나 실제 배포 시에는 전체 전문가 풀 (expert pool) 을 메모리에 저장해야 하므로 메모리 사용량과 처리량 (throughput) 이 병목 현상을 일으킵니다.

기존의 학습 후 전문가 가지치기 (Post-training expert pruning) 방법은 이 비용을 줄이기 위해 사용되지만, 다음과 같은 한계가 있습니다:

균일한 가지치기 (Uniform Pruning) 의 한계: 대부분의 기존 연구는 각 레이어에서 어떤 전문가를 제거할지 (within-layer selection) 에만 집중하고, 레이어 간 가지치기 예산 할당 (across-layer budget allocation) 은 **모든 레이어에서 동일한 비율 (균일)**로 설정하는 것을 기본으로 합니다.
성능 저하: 레이어별 중요도가 다르기 때문에 균일한 가지치기는 모델의 생성 능력 (open-ended generation) 을 크게 저하시킬 수 있습니다.
평가 비용: 최적의 가지치기 조합을 찾기 위해 실제 추론 (autoregressive decoding) 을 수행하는 것은 계산 비용이 매우 높습니다.

2. 방법론 (Methodology)

저자들은 가지치기 문제를 **레이어 내 전문가 순위 결정 (Within-layer ranking)**과 **레이어 간 예산 할당 (Across-layer allocation)**으로 분리하여 해결책을 제시합니다.

A. ESAP (Expected Speculative Acceptance Proxy)

가지치기된 모델이 원본 모델과 얼마나 유사한지 측정하기 위해, 비용이 많이 드는 실제 스펙큘레이티브 디코딩 (Speculative Decoding) 대신 ESAP라는 새로운 지표를 도입했습니다.

개념: 스펙큘레이티브 디코딩의 '수용률 (acceptance rate)' 아이디어를 차용하여, 가지치기된 모델 (Draft) 이 원본 모델 (Target) 의 다음 토큰 분포를 얼마나 잘 예측하는지 측정합니다.
특징:
- Teacher-forced: 실제 생성이 아닌, 주어진 문맥에서 다음 토큰의 확률 분포를 직접 비교합니다.
- 계산 효율성: 전체 어휘 (Vocabulary) 에 대한 확률 분포의 겹침 (Overlap) 을 계산하여, $ESAP(x) = \sum \min(p(v|x), q(v|x))$ 형태로 닫힌 형식 (closed-form) 으로 구할 수 있습니다. 이는 총변동 거리 (Total Variation Distance) 와 관련이 있으며, 매우 안정적이고 계산 비용이 적게 듭니다.
- 목적: 수백~수천 개의 후보 모델을 빠르게 비교하여 적합도 (Fitness) 로 사용할 수 있습니다.

B. EvoESAP (Evolutionary Search Framework)

ESAP 를 적합도 함수로 사용하여 비균일 레이어별 가지치기 비율을 탐색하는 진화 알고리즘 프레임워크입니다.

입력: 이미 정해진 레이어 내 가지치기 순위 (예: Frequency, REAP, SEER, EAN 등 기존 메트릭 사용) 와 전역 가지치기 예산 (Global Budget).
검색 공간: 각 레이어에서 제거할 전문가 수 ( $r_\ell$ ) 의 조합.
연산자 (Mutation): Level-switch Mutation을 사용합니다. 두 개의 레이어를 선택하여 한 레이어의 가지치기 예산을 다른 레이어로 이동시킵니다 (예: 레이어 A 는 1 개 더 제거, 레이어 B 는 1 개 덜 제거). 이 과정에서 전역 예산은 일정하게 유지됩니다.
프로세스: 초기 집단 (균일 분포, 패턴 분포, 무작위 분포) 을 생성한 후, ESAP 점수가 높은 개체를 선택하고 변이를 통해 다음 세대를 생성하며 최적의 비균일 분포를 찾습니다.

3. 주요 기여 (Key Contributions)

ESAP 지표 개발: 스펙큘레이티브 디코딩에서 영감을 받은, 생성 능력을 보존하는 가지치기 후보를 평가하기 위한 효율적이고 안정적인 프록시 적합도 함수를 제안했습니다.
레이어 간 예산 할당의 중요성 규명: SMoE 가지치기에서 레이어별 비균일 할당이 성능에 결정적임을 발견했습니다. 단순한 휴리스틱 (예: 빈도 기반) 은 오히려 성능을 떨어뜨릴 수 있으며, 최적의 할당은 모델과 가지치기 기준에 따라 다릅니다.
EvoESAP 프레임워크 제안: 고정된 레이어 내 가지치기 순서를 유지하면서, 전역 예산 하에서 비균일 레이어별 분포를 진화 탐색을 통해 최적화하는 플러그 앤 플레이 (Plug-and-play) 방법을 제시했습니다.

4. 실험 결과 (Results)

저자들은 OLMoE (7B), ERNIE-4.5 (21B), Qwen3 (30B) 등 7B~30B 규모의 SMoE 모델에서 25% 및 50% 가지치기 비율로 실험을 수행했습니다.

생성 능력 향상: 균일 가지치기 (Uniform) 대비 EvoESAP 를 통해 찾은 비균일 할당은 코드 생성 (Coding) 및 수학 문제 해결 (Math) 성능을 크게 향상시켰습니다.
- 특히 ERNIE-4.5 (21B) 모델에서 50% 가지치기 시, **MATH-500 벤치마크에서 +19.6%**의 성능 향상을 기록했습니다.
- OLMoE 에서 50% 가지치기 시 MATH-500 에서 +19.6% 향상.
객관식 문제 (MC) 성능 유지: 생성 능력은 크게 향상되었으나, 객관식 문제 (MMLU 등) 의 정확도는 균일 가지치기와 유사하거나 약간만 변동되어, 모델의 일반적 이해도는 유지됨을 확인했습니다.
다양한 기준에서의 효과성: Frequency, EAN, SEER, REAP 등 다양한 가지치기 순위 기준 (Criteria) 을 사용하더라도 EvoESAP 를 적용하면 추가적인 성능 향상을 얻을 수 있었습니다.
비용 효율성: 실제 스펙큘레이티브 디코딩을 적합도로 사용할 경우 검색 시간이 29.49 시간이었으나, ESAP 를 사용할 경우 1.64 시간으로 단축되어 약 18 배의 속도 향상을 보였습니다.

5. 의의 및 결론 (Significance)

배포 비용 절감: SMoE 모델의 메모리 사용량을 줄이면서도 생성 품질을 유지하거나 오히려 향상시킬 수 있는 방법을 제시하여, 리소스가 제한된 환경에서의 모델 배포를 가능하게 합니다.
새로운 최적화 차원: 기존에 간과되었던 "레이어 간 가지치기 비율 할당"이 모델 성능에 미치는 영향을 규명하고, 이를 자동화하는 프레임워크를 제공했습니다.
실용성: 미세 조정 (Fine-tuning) 이 필요 없는 학습 후 가지치기 (Post-training pruning) 방법론으로, 기존 모델에 바로 적용 가능한 범용적인 솔루션을 제공합니다.

결론적으로, EvoESAP 는 비균일한 레이어별 가지치기 전략이 SMoE 모델의 효율성과 성능을 동시에 최적화하는 핵심 열쇠임을 증명하고, 이를 위한 효율적인 탐색 도구 (ESAP) 를 제시한 획기적인 연구입니다.