Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "거대한 도서관 vs. 명석한 사서"

이 논문은 인공지능을 두 가지 능력으로 나눕니다.

기억력 (Memorization): 방대한 양의 책 (데이터) 을 외우는 능력.
추론력 (Reasoning): 복잡한 수학 문제를 풀거나 논리적으로 생각하는 능력.

연구진들은 이 두 가지 능력을 테스트하기 위해 **'전문가 혼합 (MoE)'**이라는 기술을 실험했습니다. 이를 비유하자면 다음과 같습니다.

전체 전문가 수 (Total Experts): 도서관에 있는 사서 (전문가) 의 총 인원수입니다.
활성화된 전문가 수 (Active Experts): 한 번에 문제를 해결할 때 실제로 책상 앞에 앉아서 일하는 사서의 실제 인원수입니다.
토큰당 데이터 (TPP): 사서 한 명이 처리해야 하는 책 (데이터) 의 양입니다.

🔍 발견 1: "기억력"과 "추론력"은 정반대다!

연구진은 다양한 조합으로 모델을 훈련시켰는데, 재미있는 결과가 나왔습니다.

📚 기억력 (TriviaQA 등) = "인원수가 많을수록 좋다"

상황: 도서관에 사서가 100 명이나 1,000 명이나 있어도, 한 번에 일하는 사람은 2 명뿐이라고 가정해 봅시다.
결과: 사서 총인원이 많을수록 (모델이 클수록) 도서관의藏书 (데이터) 가 더 풍부해져서 기억력 테스트 점수가 계속 올라갑니다.
비유: "책이 많으면 많을수록 좋죠. 사서가 아무리 많아도, 한 번에 2 명만 일해도 도서관 전체의 지식은 늘어나니까요."

🧮 추론력 (수학 문제 등) = "적당히 적고, 집중력이 중요"

상황: 그런데 수학 문제를 풀 때는 이야기가 다릅니다. 사서 총인원이 너무 많아지면 (모델이 너무 커지면), 각 사서가 가져야 할 책 (데이터) 의 양이 부족해집니다.
결과: 사서 한 명이 처리해야 할 책의 양이 너무 적으면 (데이터가 부족하면), 사서들은 공부할 시간이 부족해져서 오히려 실력이 떨어집니다.
비유: "수학 문제를 풀려면 사서 한 명이 깊이 있게 공부할 시간이 필요합니다. 사서 인원을 무작정 늘려서 책 (데이터) 을 쪼개면, 오히려 아무도 제대로 공부하지 못하게 됩니다. 적당한 수의 사서가 충분한 책을 가지고 집중하는 게 최고입니다."

⚡ 발견 2: "실제 일하는 힘 (Active FLOPs)"이 진짜 실력이다

논문은 또 다른 중요한 사실을 발견했습니다.

기존 생각: "학습 중의 실수 (Loss) 가 적으면, 어떤 문제든 잘 풀겠지?"
새로운 발견: "아니요. 학습 중 실수가 같아도, 실제 문제를 풀 때 더 많은 전문가를 동원하는 모델이 훨씬 잘 풉니다."

비유:
두 팀이 같은 양의 훈련을 받았다고 가정해 봅시다.

팀 A: 훈련 때는 2 명만 일했지만, 시험 때는 2 명만 일함.
팀 B: 훈련 때는 2 명만 일했지만, 시험 때는 8 명을 동원해서 문제를 풀음.
결과: 팀 B 가 훨씬 더 복잡한 문제를 잘 풉니다. 즉, 학습할 때의 효율성만 중요한 게 아니라, 문제를 풀 때 '얼마나 많은 뇌세포를 쓸 수 있느냐'가 핵심입니다.

🛠️ 결론: 인공지능을 설계할 때의 교훈

이 논문은 인공지능 개발자들에게 다음과 같은 조언을 줍니다.

단순히 모델을 크게 만드는 건 위험합니다.
- 만약 기억력이 중요하면 (예: 역사, 과학 지식), 전문가를 많이 늘리는 게 좋습니다.
- 하지만 추론력 (수학, 논리) 이 중요하면, 전문가를 너무 많이 늘려서 데이터가 부족해지지 않도록 적정선을 찾아야 합니다.
학습 후 보정 (GRPO) 만으로는 부족합니다.
- 학습이 끝난 후 "더 열심히 생각해보라 (보정)"고 시켜도, 처음부터 데이터가 부족하게 설계된 모델은 추론 능력을 회복하지 못합니다. 처음 설계할 때 '데이터와 인원의 비율'을 잘 맞춰야 합니다.
최적의 비율 (TPP) 이 있습니다.
- 연구진은 추론 능력을 극대화하기 위해 사서 한 명당 약 20 권의 책이 가장 적당하다고 발견했습니다. (너무 많으면 지치고, 너무 적으면 공부할 게 없습니다.)

📝 한 줄 요약

"인공지능을 똑똑하게 만들려면, 단순히 뇌세포 (파라미터) 를 무작정 늘리는 게 아니라, '기억'을 위한 넓은 도서관과 '생각'을 위한 집중된 연구실을 적절히 배분해야 합니다."

이 연구는 앞으로 더 똑똑한 AI 를 만들 때, 단순히 크기만 키우는 것이 아니라 어떤 작업을 위해 얼마나 많은 자원을 할당할지를 신중하게 설계해야 함을 알려줍니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 대규모 언어 모델 (LLM) 의 발전은 경험적 스케일링 법칙 (Empirical Scaling Laws) 에 의해 주도되어 왔으나, 이러한 법칙의 계수는 모델 아키텍처나 데이터 파이프라인이 변경될 때마다 달라집니다. 최근 최첨단 모델들은 비용 효율적인 확장을 위해 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처를 표준으로 채택하고 있습니다.
문제: 기존 연구는 MoE 의 희소성 (Sparsity) 이 메모리화 (Memorization) 능력과 추론 (Reasoning) 능력에 미치는 영향을 명확히 구분하지 못했습니다.
- 기존 스케일링 법칙은 총 파라미터 수 증가가 항상 성능 향상으로 이어진다고 가정하지만, MoE 에서는 **활성화되는 파라미터 (Active Parameters)**와 **전체 파라미터 (Total Parameters)**의 관계가 복잡합니다.
- 특히, 추론 작업에서는 단순히 훈련 손실 (Training Loss) 을 낮추는 것만으로는 하류 작업의 정확도가 향상되지 않는 현상이 관찰되었습니다. 즉, 과도한 희소성 (많은 전문가 수, 적은 토큰당 활성화 파라미터) 이 추론 능력을 저하시킬 수 있는지에 대한 체계적인 분석이 부족했습니다.

2. 연구 방법론 (Methodology)

저자들은 고정된 컴퓨팅 예산 (Compute Budget) 하에서 MoE 모델의 다양한 아키텍처를 훈련하여 메모리화 및 추론 능력을 평가했습니다.

모델 아키텍처: Mixtral 아키텍처를 기반으로 한 MoE 모델 사용.
- 변수: 모델 너비 ( $d \in \{512, 1024, 2048\}$ ), 레이어당 전문가 수 ( $E \in \{8, \dots, 256\}$ ), 토큰당 선택되는 상위 전문가 수 ( $k \in \{2, 4, 8, 16\}$ ).
- 희소성 정의: $Sparsity = 1 - \frac{k}{E}$ .
데이터셋: 총 125B 토큰으로 구성된 균형 잡힌 전처리 코퍼스 (고품질 웹 텍스트, 수학, STEM, 코드 등).
평가 작업:
- 메모리화/이해: TriviaQA (읽기 이해), HellaSwag (상식 추론).
- 추론: GSM8K, GSM-Plus (수학적 추론).
- 코드 생성: HumanEval, MBPP (부록 및 섹션 3.6).
추가 실험:
- Post-training: GRPO (Group Relative Policy Optimization) 를 통한 강화 학습 미세 조정.
- Test-Time Compute (TTC): Self-Consistency (다수결 투표) 를 통한 추론 시 계산량 증가.
- 초파라미터 분석: 학습률, 초기화 방식 등을 변경하여 일반화 간격 (Generalization Gap) 의 영향을 확인.

3. 주요 기여 및 발견 (Key Contributions & Results)

이 연구는 MoE 모델의 최적 희소성을 결정하는 두 가지 핵심 원리를 규명했습니다.

3.1. 활성 FLOPs (Active FLOPs) 의 중요성

발견: 동일한 훈련 손실 (Training Loss) 을 가진 모델이라도, **더 많은 활성 FLOPs(더 큰 $k$ 값)**를 가진 모델이 추론 작업에서 더 높은 정확도를 보입니다.
의미: 훈련 손실만으로는 추론 능력을 예측할 수 없으며, 실제 추론 시 활성화되는 연산량 (Active Compute) 이 결정적입니다.

3.2. 파라미터당 토큰 수 (Tokens Per Parameter, TPP) 의 최적점

메모리화 작업 (TriviaQA, HellaSwag): 파라미터 수가 많을수록 (TPP 가 낮을수록) 성능이 지속적으로 향상됩니다. 이는 "파라미터를 많이 필요로 하는 (Parameter-hungry)" 특성을 보입니다.
추론 작업 (GSM8K, GSM-Plus): TPP 가 약 20일 때 성능이 정점에 도달합니다.
- TPP 가 너무 낮으면 (파라미터가 너무 많고 데이터가 부족함): 각 전문가가 데이터 부족 (Data-starved) 으로 인해 과적합되거나 추론 능력을 발휘하지 못함.
- TPP 가 너무 높으면 (파라미터가 너무 적음): 모델 용량 부족으로 인해 추론 실패.
- 결과: 추론 작업은 데이터가 풍부할 때 (Data-hungry) 최적의 TPP 를 가지며, 과도한 희소성 (많은 전문가, 적은 활성화 파라미터) 은 추론 성능을 저하시킵니다.

3.3. Post-training 및 Test-Time Compute 의 한계

GRPO 와 TTC 의 효과: 강화 학습 (GRPO) 이나 추론 시 계산량 증가 (TTC) 는 전반적인 성능을 향상시키지만, 희소성으로 인한 추론 능력 저하 (메모리화 vs 추론 간격) 를 완전히 해결하지는 못합니다.
결론: 추론 능력을 극대화하기 위해서는 사전 훈련 (Pre-training) 단계에서 최적의 희소성과 TPP 를 찾는 것이 가장 중요합니다.

3.4. 역 U 자형 (Inverted-U) 관계

고정된 활성 파라미터 수 (Active Params) 하에서 희소성을 증가시키면 (전문가 수 $E$ 증가, $k$ 고정), 메모리화 작업에서는 성능이 계속 향상되지만, 추론 작업에서는 특정 임계점을 넘으면 성능이 다시 하락하는 역 U 자형 곡선을 보입니다. 이는 고 컴퓨팅 예산 regime 에서는 오히려 밀집형 (Denser) MoE 레이어가 추론에 유리함을 시사합니다.

4. 의의 및 결론 (Significance & Conclusion)

스케일링 법칙의 정교화: 기존 밀집형 (Dense) 모델의 스케일링 법칙을 MoE 모델에 적용할 때, 단순히 총 파라미터 수나 데이터 양만 고려하는 것은 부족함을 지적했습니다.
새로운 설계 가이드라인:
1. 활성 FLOPs: 추론 성능은 훈련 손실이 아닌, 훈련 및 추론 시의 활성 연산량에 의해 결정됩니다.
2. TPP 최적화: 추론 작업은 약 20 TPP 부근에서 최적화되며, 데이터가 풍부하지 않은 환경에서는 밀집형 구성이 더 유리할 수 있습니다.
실용적 시사점: 고정된 컴퓨팅 예산 하에서 MoE 모델을 설계할 때, 추론 능력을 극대화하기 위해서는 무조건적인 희소성 (많은 전문가) 을 추구하기보다, **활성 파라미터 수와 데이터 양의 균형 (TPP)**을 맞추는 것이 필수적입니다. 이는 현재 MoE 기반 최첨단 모델들의 아키텍처 설계에 중요한 통찰을 제공합니다.

이 연구는 모델의 성능이 단순히 "크기"가 아니라 "어떻게 자원을 배분하느냐 (활성화 vs 비활성화, 데이터 vs 파라미터)"에 달려 있음을 보여주며, 추론 중심의 LLM 개발을 위한 새로운 기준을 제시합니다.