Mixture of Universal Experts: Scaling Virtual Width via Depth-Width Transformation

이 논문은 MoE 아키텍처의 확장성 한계를 극복하기 위해 고정된 토큰 활성화 예산 하에서 깊이를 가상 너비로 변환하는 '가상 너비'라는 새로운 차원을 도입한 '범용 전문가 혼합 (MOUE)'을 제안하며, 이를 통해 기존 MoE 모델 대비 성능을 향상시키고 확장 가능한 새로운 아키텍처를 제시합니다.

Yilong Chen, Naibin Gu, Junyuan Shang, Zhenyu Zhang, Yuchen Feng, Jiawei Sheng, Tingwen Liu, Shuohuan Wang, Yu Sun, Hua Wu, Haifeng Wang

게시일 2026-03-06
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제: "왜 모든 층에 똑같은 전문가를 두나요?"

기존의 AI 모델 (Transformer) 은 마치 고층 빌딩과 같습니다.

  • 층 (Layer): 빌딩의 1 층부터 100 층까지 있습니다.
  • 전문가 (Expert): 각 층마다 특정 업무를 처리하는 전문가 팀이 따로 있습니다. 1 층의 팀은 '문법'을, 100 층의 팀은 '추론'을 담당합니다.

문제점:
이 방식은 비효율적입니다.

  1. 공간 낭비: 1 층의 '문법 전문가'와 100 층의 '문법 전문가'가 사실은 같은 일을 할 수 있는데, 각각 따로 고용하고 급여 (메모리) 를 줍니다.
  2. 확장의 한계: 더 똑똑해지려면 빌딩을 더 높이 쌓거나 (깊이), 층마다 전문가를 더 많이 고용해야 (너비) 합니다. 하지만 빌딩을 너무 높게 올리면 구조가 불안정해지고, 전문가를 너무 많이 고용하면 비용이 천문학적으로 늘어납니다.

2. 해결책: "공유된 전문가 풀 (Universal Expert Pool)"

이 논문은 **"층마다 전문가를 따로 두지 말고, 빌딩 전체가 공유할 수 있는 '유니버설 전문가 풀'을 만들자"**고 제안합니다.

  • 비유: 각 층마다 별도의 식당을 짓는 대신, 빌딩 중앙에 거대한 '공유 식당'을 하나만 짓고, 모든 층의 사람들이 필요할 때 그곳으로 가서 음식을 시켜 먹는 방식입니다.
  • 핵심 아이디어 (가상의 너비):
    • 물리적으로 전문가 (식당) 는 그대로지만, **깊이 (층수) 를 활용해서 가상의 넓은 공간 (Virtual Width)**을 만들어냅니다.
    • 같은 전문가가 1 층에서 쓰이다가 50 층에서도 다시 쓰일 수 있습니다.
    • 결과적으로 전문가 수는 그대로인데, 모델이 처리할 수 있는 아이디어의 조합 (경로) 은 기하급수적으로 늘어납니다.

3. 새로운 기술 3 가지 (어떻게 구현했나?)

이 아이디어를 실현하려면 세 가지 중요한 기술이 필요합니다.

① 계단식 회전 구조 (Staggered Rotational Topology)

  • 문제: 모든 층이 모든 전문가를 동시에 볼 수 있게 하면, AI 가 "누구를 선택할지" 고민하다가 망설여집니다 (경로가 너무 많아서).
  • 해결: 계단식 회전 방식을 씁니다.
    • 비유: 빌딩의 층을 3 층씩 묶어서 '구역'을 만듭니다. 13 층은 'A 구역 전문가들'만 볼 수 있고, 46 층은 'B 구역 전문가들'만 봅니다. 하지만 A 구역과 B 구역은 겹치는 전문가들이 있어서 자연스럽게 연결됩니다.
    • 이렇게 하면 AI 는 매번 모든 전문가를 다 볼 필요 없이, 현재 층에 맞는 전문가들만 골라 효율적으로 일할 수 있습니다.

② 공정한 분배 시스템 (Universal Expert Load Balance)

  • 문제: 공유 식당이 생기면, 인기 있는 식당은 너무 붐비고 (과부하), 다른 식당은 아예 손님이 없습니다. 기존 AI 는 "누가 많이 쓰였나"만 보고 불공정하게 처리합니다.
  • 해결: "접근 기회"를 고려한 공정한 분배를 합니다.
    • 비유: "이 식당은 100 층에서나 볼 수 있어서 자연스럽게 손님이 많을 수밖에 없는데, 그걸 '불공정'하다고 처벌하면 안 됩니다."
    • 대신, **"자신이 접근할 수 있는 층들 안에서 얼마나 골고루 쓰였는지"**를 기준으로 평가합니다. 이렇게 하면 모든 전문가가 고르게 일하게 되어 시스템이 안정됩니다.

③ 기억력이 있는 길잡이 (Universal Router)

  • 문제: AI 가 층을 올라갈 때, 매번 "지금 내가 어디에 왔지?"를 잊어버리면 같은 일을 반복하게 됩니다.
  • 해결: **작은 메모 (상태)**를 가지고 다니는 길잡이를 둡니다.
    • 비유: 식당을 갈 때, "아까 1 층에서 A 전문가를 만났으니, 50 층에서는 B 전문가를 만나야겠다"라고 이전 경로를 기억하고 다음 선택을 합니다.
    • 이렇게 하면 AI 는 단순한 반복이 아니라, 복잡한 추론 과정을 거칠 수 있게 됩니다.

4. 결과: 더 적은 비용, 더 큰 능력

이 방법을 실험해 보니 놀라운 결과가 나왔습니다.

  • 성능 향상: 같은 크기의 기존 모델보다 최대 4.2% 까지 성능이 좋아졌습니다.
  • 비용 절감: 전문가 수를 늘리지 않아도, 공유 시스템을 통해 가상의 넓은 능력을 얻었습니다.
  • 유연성: 이미 만들어진 기존 AI 모델을 이 방식으로 쉽게 업그레이드할 수 있습니다. (기존 모델을 재활용해서 '공유 식당'을 추가하는 식)

요약

이 논문은 **"빌딩을 더 높이 쌓거나 (깊이), 층마다 사람을 더 많이 고용하는 (너비) 대신, 기존 전문가들을 clever하게 공유해서 (재사용) 가상의 넓은 공간을 만들어내자"**는 혁신적인 아이디어입니다.

마치 한 명의 요리사가 빌딩 전체를 돌며 각 층의 주문을 받아 요리하는 것처럼, 자원은 적게 쓰면서 훨씬 더 다양한 요리를 해내는 효율적이고 똑똑한 AI를 만든 것입니다.