Optimal Expert-Attention Allocation in Mixture-of-Experts: A Scalable Law for Dynamic Model Design

이 논문은 GPT 스타일의 믹스처 오브 전문가 (MoE) 모델에서 총 연산량과 희소도에 따라 전문가 레이어와 어텐션 레이어 간의 최적 연산 배분 비율을 결정하는 새로운 스케일링 법칙을 제안하여, 고정된 연산 예산 내에서 MoE 모델의 효율적인 설계와 성능 최적화를 위한 실용적인 지침을 제공합니다.

Junzhuo Li, Peijie Jiang, Changxin Tian, Jia Liu, Zhiqiang Zhang, Xuming Hu

게시일 2026-03-12
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"거대 인공지능 (LLM) 을 만들 때, 컴퓨터 자원을 어떻게 가장 효율적으로 나눠 써야 하는가?"**에 대한 새로운 비법을 찾아낸 연구입니다.

기존의 AI 모델은 모든 부분이 똑같은 두뇌 (밀집형) 를 가지고 있었지만, 최신 모델들은 **'전문가 (MoE, Mixture-of-Experts)'**라는 시스템을 도입했습니다. 마치 한 팀에 다양한 전문가들이 모여 있다가, 필요한 일만 맡겨서 처리하는 방식이죠.

하지만 여기서 새로운 문제가 생겼습니다. "팀의 총 예산 (컴퓨터 계산 능력) 이 정해져 있을 때, '주의를 기울이는 부분 (Attention)'과 '전문가들이 일하는 부분 (Expert)'에 돈을 얼마나 나눠 써야 가장 똑똑한 AI 가 될까?"

이 논문은 그 정답을 수학적으로 찾아냈습니다. 일상적인 비유로 설명해 드릴게요.


🏗️ 비유: 거대한 도서관과 전문가 팀을 짓는 공사

마치 거대한 **도서관 (AI 모델)**을 짓는다고 상상해 보세요.

  1. 주의 (Attention) = 도서관의 사서와 안내 시스템

    • 책 (데이터) 이 어디에 있는지 찾아주고, 독자들 (단어) 이 서로 어떻게 연결되는지 알려주는 역할입니다.
    • 도서관이 커질수록 더 많은 사서가 필요하지만, 사서만 너무 많이 고용하면 책 자체를 읽을 시간이 부족해집니다.
  2. 전문가 (Expert) = 각 분야의 전문 연구원들

    • 수학, 역사, 코딩 등 특정 분야의 지식을 깊이 있게 처리하는 팀입니다.
    • 연구원이 많을수록 지식이 깊어지지만, 모든 연구원이 동시에 일하면 사무실 (컴퓨터) 이 너무 비싸집니다. 그래서 필요한 연구원만 뽑아 일하게 합니다 (희소성).

🤔 기존의 문제: "무조건 많이 쓰면 되겠지?"

기존에는 "도서관이 커지면 사서와 연구원 비율을 그냥 5 대 5 로 고정해 두자"라고 생각했습니다. 하지만 이 논문은 **"아니요, 도서관이 작을 때는 사서 (주의) 가 더 중요하지만, 도서관이 거대해지면 연구원 (전문가) 에게 더 많은 예산을 줘야 한다"**고 말합니다.

💡 이 논문이 발견한 '비밀 공식'

연구팀은 수많은 실험을 통해 다음과 같은 놀라운 법칙을 발견했습니다.

  • 규모가 커질수록 전문가에게 더 투자하라:
    도서관이 작을 때는 사서 (주의) 가 중요하지만, 도서관이 거대해지면 전문가 (연구원) 에게 더 많은 예산을 배분해야 도서관이 더 똑똑해집니다.
  • 비율은 고정되지 않는다:
    "사서 1 명당 연구원 2 명"이라는 고정된 규칙은 없습니다. 도서관이 커질수록 그 비율이 자연스럽게 변해야 합니다.
  • 희소성 (Sparsity) 의 역할:
    연구원을 얼마나 많이 뽑을지 (활성화 비율) 에 따라 예산 배분 공식도 달라집니다. 연구원을 적게 뽑을수록 (희소할수록) 사서 (주의) 에게 더 신경 써야 하고, 많이 뽑을수록 전문가에게 더 투자해야 합니다.

📊 구체적인 결론 (간단한 공식)

저자들은 이 관계를 **"컴퓨터 계산량 (C) 과 전문가 비율 (r) 사이의 마법 공식"**으로 정리했습니다.

"도서관이 2 배 커지면, 전문가 예산은 약 1.2 배 정도 더 늘려야 최적의 성능을 낸다."

이 공식을 사용하면, 예산이 정해져 있을 때 "아, 이 정도 규모의 도서관이라면 전문가 팀에 30% 를, 사서 팀에 70% 를 써야겠구나"라고 정확하게 계산할 수 있게 됩니다.

🚀 왜 이것이 중요한가?

  1. 돈과 시간을 아낀다:
    예산을 잘못 배분하면, 거대한 도서관을 지었는데 책이 제대로 정리되지 않아 (성능 저하) 예산을 낭비하게 됩니다. 이 공식을 쓰면 같은 예산으로 더 똑똑한 AI를 만들 수 있습니다.
  2. 미래의 AI 설계도:
    앞으로 AI 가 더 거대해질수록, 단순히 "크기만 키우는 것"이 아니라 **"내부 자원을 어떻게 나눌지"**를 설계하는 것이 핵심이 됩니다. 이 논문은 그 설계도를 제공합니다.

📝 한 줄 요약

"거대 AI 를 만들 때, 컴퓨터 자원을 '주의'와 '전문가' 사이에 어떻게 나눌지 고정된 규칙이 없습니다. 하지만 AI 가 커질수록 전문가에게 더 많은 자원을 투자해야 한다는 '스케일링 법칙'을 발견했습니다. 이 법칙을 따르면, 같은 예산으로 훨씬 더 똑똑한 AI 를 만들 수 있습니다!"