Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

이 논문은 고정된 연산 예산 하에서 Mixture-of-Experts (MoE) 모델의 희소성 (sparsity) 을 분석하여, 추론 성능 향상을 위해서는 단순한 손실 최소화뿐만 아니라 활성 연산량 (Active FLOPs) 과 토큰당 파라미터 수 (TPP) 의 최적 균형이 필요함을 규명했습니다.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura, Takumi Okamoto, Daisuke Nohara, Jun Suzuki, Rio Yokota

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🧠 핵심 비유: "거대한 도서관 vs. 명석한 사서"

이 논문은 인공지능을 두 가지 능력으로 나눕니다.

  1. 기억력 (Memorization): 방대한 양의 책 (데이터) 을 외우는 능력.
  2. 추론력 (Reasoning): 복잡한 수학 문제를 풀거나 논리적으로 생각하는 능력.

연구진들은 이 두 가지 능력을 테스트하기 위해 **'전문가 혼합 (MoE)'**이라는 기술을 실험했습니다. 이를 비유하자면 다음과 같습니다.

  • 전체 전문가 수 (Total Experts): 도서관에 있는 사서 (전문가) 의 총 인원수입니다.
  • 활성화된 전문가 수 (Active Experts): 한 번에 문제를 해결할 때 실제로 책상 앞에 앉아서 일하는 사서의 실제 인원수입니다.
  • 토큰당 데이터 (TPP): 사서 한 명이 처리해야 하는 책 (데이터) 의 양입니다.

🔍 발견 1: "기억력"과 "추론력"은 정반대다!

연구진은 다양한 조합으로 모델을 훈련시켰는데, 재미있는 결과가 나왔습니다.

📚 기억력 (TriviaQA 등) = "인원수가 많을수록 좋다"

  • 상황: 도서관에 사서가 100 명이나 1,000 명이나 있어도, 한 번에 일하는 사람은 2 명뿐이라고 가정해 봅시다.
  • 결과: 사서 총인원이 많을수록 (모델이 클수록) 도서관의藏书 (데이터) 가 더 풍부해져서 기억력 테스트 점수가 계속 올라갑니다.
  • 비유: "책이 많으면 많을수록 좋죠. 사서가 아무리 많아도, 한 번에 2 명만 일해도 도서관 전체의 지식은 늘어나니까요."

🧮 추론력 (수학 문제 등) = "적당히 적고, 집중력이 중요"

  • 상황: 그런데 수학 문제를 풀 때는 이야기가 다릅니다. 사서 총인원이 너무 많아지면 (모델이 너무 커지면), 각 사서가 가져야 할 책 (데이터) 의 양이 부족해집니다.
  • 결과: 사서 한 명이 처리해야 할 책의 양이 너무 적으면 (데이터가 부족하면), 사서들은 공부할 시간이 부족해져서 오히려 실력이 떨어집니다.
  • 비유: "수학 문제를 풀려면 사서 한 명이 깊이 있게 공부할 시간이 필요합니다. 사서 인원을 무작정 늘려서 책 (데이터) 을 쪼개면, 오히려 아무도 제대로 공부하지 못하게 됩니다. 적당한 수의 사서가 충분한 책을 가지고 집중하는 게 최고입니다."

⚡ 발견 2: "실제 일하는 힘 (Active FLOPs)"이 진짜 실력이다

논문은 또 다른 중요한 사실을 발견했습니다.

  • 기존 생각: "학습 중의 실수 (Loss) 가 적으면, 어떤 문제든 잘 풀겠지?"
  • 새로운 발견: "아니요. 학습 중 실수가 같아도, 실제 문제를 풀 때 더 많은 전문가를 동원하는 모델이 훨씬 잘 풉니다."

비유:
두 팀이 같은 양의 훈련을 받았다고 가정해 봅시다.

  • 팀 A: 훈련 때는 2 명만 일했지만, 시험 때는 2 명만 일함.
  • 팀 B: 훈련 때는 2 명만 일했지만, 시험 때는 8 명을 동원해서 문제를 풀음.
  • 결과: 팀 B 가 훨씬 더 복잡한 문제를 잘 풉니다. 즉, 학습할 때의 효율성만 중요한 게 아니라, 문제를 풀 때 '얼마나 많은 뇌세포를 쓸 수 있느냐'가 핵심입니다.

🛠️ 결론: 인공지능을 설계할 때의 교훈

이 논문은 인공지능 개발자들에게 다음과 같은 조언을 줍니다.

  1. 단순히 모델을 크게 만드는 건 위험합니다.

    • 만약 기억력이 중요하면 (예: 역사, 과학 지식), 전문가를 많이 늘리는 게 좋습니다.
    • 하지만 추론력 (수학, 논리) 이 중요하면, 전문가를 너무 많이 늘려서 데이터가 부족해지지 않도록 적정선을 찾아야 합니다.
  2. 학습 후 보정 (GRPO) 만으로는 부족합니다.

    • 학습이 끝난 후 "더 열심히 생각해보라 (보정)"고 시켜도, 처음부터 데이터가 부족하게 설계된 모델은 추론 능력을 회복하지 못합니다. 처음 설계할 때 '데이터와 인원의 비율'을 잘 맞춰야 합니다.
  3. 최적의 비율 (TPP) 이 있습니다.

    • 연구진은 추론 능력을 극대화하기 위해 사서 한 명당 약 20 권의 책이 가장 적당하다고 발견했습니다. (너무 많으면 지치고, 너무 적으면 공부할 게 없습니다.)

📝 한 줄 요약

"인공지능을 똑똑하게 만들려면, 단순히 뇌세포 (파라미터) 를 무작정 늘리는 게 아니라, '기억'을 위한 넓은 도서관과 '생각'을 위한 집중된 연구실을 적절히 배분해야 합니다."

이 연구는 앞으로 더 똑똑한 AI 를 만들 때, 단순히 크기만 키우는 것이 아니라 어떤 작업을 위해 얼마나 많은 자원을 할당할지를 신중하게 설계해야 함을 알려줍니다.