REAP the Experts: Why Pruning Prevails for One-Shot MoE compression

Each language version is independently generated for its own context, not a direct translation.

🍳 배경: 거대한 요리 학교 (SMoE 모델)

최근 AI 는 **'전문가 혼합 (Mixture of Experts, MoE)'**이라는 방식을 사용합니다.
이것은 마치 수백 명의 요리사 (전문가) 가 한 학교에 모여 있는 상황과 같습니다.

기존 방식 (Dense Model): 모든 요리사가 매번 모든 요리를 함께 만드는 방식. (비효율적이고 느림)
전문가 혼합 방식 (SMoE): 손님이 주문할 때, 가장 적합한 요리사 2~3 명만 뽑아서 요리를 시키는 방식. (빠르고 효율적)

하지만 문제는 이 학교가 너무 커졌다는 것입니다. 요리사 (파라미터) 가 수백 명이나 되니, 학교를 유지하는 비용 (메모리) 이 너무 비싸고, 모든 요리사를 동시에 부를 수 없어서 컴퓨터가 느려집니다. 그래서 **"불필요한 요리사를 줄이거나 합쳐서 학교를 작게 만들자"**는 연구가 활발합니다.

🤔 기존 방법의 문제점: "요리사 합치기" (Merging)

기존 연구자들은 "요리사가 너무 많으니, 비슷한 요리사 두 명을 합쳐서 한 명의 새로운 요리사로 만들자"라고 생각했습니다. (예: 중국 요리와 일식을 잘하는 두 요리사를 합쳐서 '아시안 퓨전 요리사'를 만드는 것)

하지만 이 논문은 이 방법이 큰 실수라고 지적합니다.

왜 실패할까?
- 손님이 "오늘은 중국 요리가 먹고 싶어"라고 하면 중국 요리사가, "일식이 먹고 싶어"라고 하면 일식 요리사가 나옵니다.
- 하지만 두 사람을 합쳐버리면, 손님의 취향에 따라 요리사가 바뀌는 '유연한 선택'이 사라집니다.
- 합쳐진 요리사는 "중일 퓨전"이라는 고정된 메뉴만 내놓게 되어, 손님의 정교한 요구를 충족하지 못합니다.
- 특히 창의적인 글쓰기나 코드 작성처럼 복잡한 작업에서는 이 '유연성'이 사라지면 AI 가 엉뚱한 말만 하거나, 반복적인 내용만 만들어냅니다.

✂️ 새로운 해결책: REAP (요리사 잘라내기)

저자들은 "합치는 것보다 **아예 필요 없는 요리사를 잘라내는 것 (Pruning)**이 낫다"고 주장하며, 이를 위해 REAP라는 새로운 도구를 개발했습니다.

**REAP (Router-weighted Expert Activation Pruning)**의 핵심 아이디어는 다음과 같습니다:

단순히 '사용 빈도'만 보지 않는다: "이 요리사는 한 달에 한 번도 안 썼으니 잘라자"라는 식의 단순한 방식은 위험합니다. 아주 드물게 쓰이지만, 쓰일 때는 엄청나게 중요한 역할을 하는 '특수 요리사'를 실수로 잘라낼 수 있기 때문입니다.
중요도 (Saliency) 를 정확히 측정한다: REAP 는 두 가지를 함께 봅니다.
- 손님이 이 요리사를 얼마나 자주 불렀는가? (Router Gate)
- 불렀을 때 그 요리사가 얼마나 훌륭한 요리를 냈는가? (Activation Norm)
최소한의 손실로 잘라내기: 이 두 가지 점수를 합쳐서, 가장 덜 기여하는 요리사부터 순서대로 잘라냅니다.

비유하자면:

"학교에서 요리사 50% 를 잘라내야 한다면, 단순히 '출근 횟수'로 잘라내면 안 됩니다. 대신 **'손님이 부를 때 얼마나 맛있게 요리를 냈는지'**를 기준으로, 정말로 학교에 필요 없는 요리사만 골라내야 합니다. 이렇게 하면 남은 요리사들이 여전히 손님의 다양한 주문에 맞춰 유연하게 대응할 수 있습니다."

🏆 결과: 왜 REAP 가 더 좋은가?

논문의 실험 결과, REAP 는 기존 방법들보다 압도적으로 좋은 성과를 냈습니다.

코드 작성 (Coding): 프로그래밍 코드를 작성할 때, REAP 로 50% 를 잘라낸 모델은 원래 모델과 거의 똑같은 성능을 냈습니다. (거의 손실 없음!) 반면, 요리사를 합친 모델은 코드가 엉망이 되거나 아예 작동하지 않았습니다.
창의적 글쓰기 & 수학: 창의적인 이야기나 복잡한 수학 문제도 REAP 가 훨씬 잘 풀었습니다.
이유: 요리사를 합치면 '유연한 선택'이 사라져서 AI 가 멍청해지지만, REAP 는 나머지 요리사들이 여전히 각자의 역할을 독립적으로 수행하게 하므로, AI 의 '지능'과 '유연성'이 유지됩니다.

💡 요약

이 논문은 **"거대한 AI 모델을 줄일 때, 비슷한 전문가들을 뭉개서 합치는 것 (Merging) 은 AI 의 유연성을 죽여 실패한다"**는 것을 증명했습니다.

대신 **"정말 필요 없는 전문가만 정확하게 골라내어 잘라내는 것 (REAP)"**이, AI 의 성능을 유지하면서 메모리만 획기적으로 줄이는 정답이라고 말합니다.

한 줄 요약:

"AI 모델을 가볍게 만들려면, 비슷한 전문가들을 억지로 합치지 말고, 진짜 쓸모없는 전문가만 정확하게 잘라내세요. 그래야 AI 가 여전히 똑똑하고 유연하게 작동합니다."

Each language version is independently generated for its own context, not a direct translation.

이 논문은 ICLR 2026에 발표된 것으로, 희소 활성화 혼합 전문가 (Sparsely-activated Mixture-of-Experts, SMoE) 모델의 압축 전략에 관한 연구입니다. 저자들은 기존에 다수 선행 연구에서 선호되던 '전문가 병합 (Expert Merging)' 기법보다, **전문가 가지치기 (Expert Pruning)**가 생성형 (Generative) 작업에서 훨씬 더 우월한 성능을 보인다는 것을 입증하고, 이를 극대화하는 새로운 가지치기 기준인 **REAP (Router-weighted Expert Activation Pruning)**를 제안합니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 문제 정의 (Problem)

SMoE 모델의 메모리 오버헤드: SMoE 아키텍처는 대규모 언어 모델 (LLM) 의 추론 지연 시간을 줄이고 사전 학습 효율성을 높이지만, 방대한 파라미터 수로 인해 메모리 사용량이 매우 큽니다. 이는 리소스가 제한된 환경 (로컬 배포, 학술 연구 등) 에서 배포를 어렵게 만듭니다.
기존 압축 기법의 한계:
- 가지치기 (Pruning): 전문가를 완전히 제거하는 방식이지만, 최근 연구들 (MC 퀴즈, 퍼플렉시티 기준) 에서는 가지치기보다 병합이 더 좋은 결과를 낸다고 보고되었습니다.
- 병합 (Merging): 유사한 전문가들을 클러스터링하여 하나로 합치는 방식 (예: HC-SMoE, M-SMoE). 이는 기존 연구에서 다중 선택 (MC) 퀴즈 벤치마크에서 가지치기보다 우세한 것으로 나타났습니다.
핵심 질문: 그러나 **생성형 작업 (코드 생성, 창의적 글쓰기, 수학적 추론 등)**에서 병합과 가지치기 중 어떤 전략이 더 효과적인지, 그리고 그 이유는 무엇인지에 대한 체계적인 비교와 분석이 부족했습니다.

2. 방법론 및 이론적 배경 (Methodology & Motivation)

2.1 병합의 근본적 결함: "재현 불가능한 오차"

저자들은 SMoE 층의 출력을 수학적으로 분석하여 병합 기법이 필연적으로 발생하는 오차를 도출했습니다.

동적 라우팅의 상실: SMoE 에서 라우터 (Router) 는 입력에 따라 각 전문가의 출력을 동적으로 가중치 (Gate-value) 를 부여하여 조합합니다.
병합의 문제점: 병합은 두 전문가 $(f_i, f_j)$ 를 하나의 정적 전문가 $\tilde{f}$ 로 합칩니다. 이때 라우터는 두 전문가의 게이트 합 $(g_i + g_j)$ 를 고정된 가중치로만 적용하게 됩니다.
이론적 결론: 라우터의 정책이 입력에 따라 변할 때 (Policy Variability, $Var[r(x)] > 0$ ) 그리고 전문가들이 기능적으로 다를 때 ( $\Delta_{ij} \neq 0$ ), 고정된 가중치로 병합하는 것은 **회복 불가능한 오차 (Irreducible Error)**를 발생시킵니다. 이는 생성형 작업에서 라우터의 미세한 제어 능력이 상실됨을 의미하며, 기능적 서브스페이스 (Functional Subspace) 가 붕괴되는 결과를 초래합니다.

2.2 가지치기의 우월성: "독립적 제어의 보존"

가지치기는 한 전문가를 제거하지만, **남은 전문가들에 대한 라우터의 독립적인 제어 (Independent Modulation)**는 유지합니다.
가지치기는 좌표 부분 공간 (Coordinate Subspace) 연산으로, 원래의 기능적 다양성 (Manifold Topology) 을 보존합니다.
특히 고밀도 (High-granularity) SMoE 모델에서는 라우팅 정책의 변동성이 크기 때문에, 병합보다 가지치기가 훨씬 적은 오차를 발생시킵니다.

2.3 제안된 방법: REAP (Router-weighted Expert Activation Pruning)

기존의 단순 사용 빈도 (Frequency-based) 기반 가지치기는 라우터와 전문가 간의 상호작용을 고려하지 못합니다. 저자는 **재구성 오차 상한선 (Reconstruction Error Bound)**을 최소화하기 위해 새로운 기준을 제안합니다.

핵심 아이디어: 가지치기 시 발생하는 오차는 제거된 전문가의 게이트 값 ( $g_j$ ) 과 해당 전문가의 활성화 노름 ( $\|f_j\|$ ) 에 비례합니다.
REAP 점수 ( $S_j$ ): 각 전문가 $j$ $j$ 가 활성화된 토큰들에 대해 가중치 ( $g_j$ $g_{j}$ ) 와 활성화 노름 ( $\|f_j\|$ $∥ f_{j} ∥$ ) 의 곱을 평균낸 값입니다.
$S_j = \frac{1}{|X_j|} \sum_{x \in X_j} g_j(x) \cdot \|f_j(x)\|_2$
- 여기서 $X_j$ 는 전문가 $j$ 가 활성화된 토큰 집합입니다.
효과: 이 기준은 단순히 자주 쓰이는 전문가를 제거하는 것이 아니라, 라우터가 특정하게 요청했을 때에도 기여도가 가장 낮은 전문가를 식별하여 제거함으로써, 모든 활성화 토큰에서의 치환 오차 (Substitution Error) 를 최소화합니다.

3. 주요 실험 결과 (Key Results)

저자들은 20B 에서 1T 파라미터까지 다양한 크기의 SMoE 모델 (Qwen3, GLM-4.5, Kimi-K2, Mixtral 등) 을 대상으로 실험을 수행했습니다.

생성형 벤치마크에서의 압도적 우위:
- 코드 생성 (Code Generation): REAP 는 50% 압축 시에도 Qwen3-Coder-480B 와 Kimi-K2 에서 거의 손실 없는 (Near-lossless) 성능을 유지했습니다. 반면 병합 기법 (HC-SMoE, M-SMoE) 은 50% 압축 시 성능이 급격히 저하되었습니다.
- 창의적 글쓰기 및 수학 추론: REAP 는 25%~50% 압축 구간에서 다른 가지치기 기법 (EAN, Frequency) 및 병합 기법보다 일관되게 높은 정확도를 보였습니다. 특히 수학 추론 (MATH-500) 에서 25% 압축 시 정확도 감소가 0.1% 에 불과했습니다.
다중 선택 (MC) 퀴즈 vs 생성형:
- MC 퀴즈 (판별형 작업) 에서는 병합 기법도 나쁘지 않은 성능을 보였으나, 생성형 작업 (생성형 작업) 에서는 병합 기법의 성능이 크게 떨어졌습니다. 이는 병합이 생성 과정에 필요한 라우터의 미세한 제어를 해친다는 이론적 주장을 뒷받침합니다.
대규모 모델 확장성:
- 480B 및 1T 규모의 모델에서도 REAP 는 50% 가지치기 후에도 도구 사용 (Tool Use) 및 에이전틱 태스크에서 높은 성능을 유지했습니다.
- 양자화 (Quantization) 와의 호환성도 뛰어나며, 병합 기법과 달리 블록 스케일 재조정 없이 양자화 모델에 직접 적용 가능합니다.

4. 주요 기여 (Contributions)

이론적 통찰: SMoE 압축에서 병합이 가져오는 '라우터의 입력 의존적 조절 능력 상실'이 필연적인 오차를 유발하며, 이는 생성형 작업에서 치명적임을 수학적으로 증명했습니다.
새로운 알고리즘 (REAP): 라우터 게이트 값과 전문가 활성화 노름을 모두 고려하여 재구성 오차 상한선을 최소화하는 새로운 가지치기 기준을 제안했습니다.
광범위한 실증: 20B~1T 규모의 다양한 모델과 생성형 벤치마크를 통해, 기존 병합 기법 및 다른 가지치기 방법보다 REAP 의 우월성을 입증했습니다.
오픈소스: 코드와 압축된 모델 체크포인트를 공개하여 향후 SMoE 압축 연구의 기반을 마련했습니다.

5. 의의 및 결론 (Significance)

생성형 LLM 압축의 새로운 방향 제시: 기존에 MC 벤치마크 중심의 평가에서 선호되던 '병합' 기법이 실제 생성형 작업 (코드, 글쓰기 등) 에서는 부적합할 수 있음을 지적하고, '가지치기'가 더 나은 전략임을 재확인했습니다.
자원 효율성: REAP 를 통해 대규모 SMoE 모델을 리소스 제한된 환경에서도 거의 손실 없이 배포할 수 있는 길을 열었습니다.
평가 지표의 중요성 강조: 퍼플렉시티나 MC 정확도 같은 판별형 지표만으로는 생성형 모델의 품질을 충분히 평가할 수 없음을 보여주었습니다.

결론적으로, 이 논문은 SMoE 모델의 압축에 있어 "라우터와 전문가 간의 독립적인 상호작용을 보존하는 것"이 핵심임을 강조하며, 이를 실현하는 REAP 가 현재 가장 효과적인 압축 전략임을 입증했습니다.