Not All Models Suit Expert Offloading: On Local Routing Consistency of Mixture-of-Expert Models

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: 거대한 피자 가게와 '전문가'들

거대한 AI 모델은 마치 엄청나게 큰 피자 가게와 같습니다. 이 가게에는 수백 명의 **'전문가 (Expert)'**들이 있습니다.

어떤 전문가는 '페퍼로니'를 잘 만들고,
어떤 전문가는 '채소'를 잘 다듬고,
어떤 전문가는 '소스'를 잘 바릅니다.

AI 가 문장 하나를 만들 때 (예: "사과가 맛있어요"), 이 가게는 그 문장에 필요한 전문가들만 골라서 일시적으로 불러와 일을 시킵니다. 이를 **'희소 활성화 (Sparse Activation)'**라고 합니다.

🚛 문제: 창고가 너무 작아요! (메모리 부족)

하지만 이 가게의 모든 전문가 (수백 명) 를 한 번에 가게 안 (메모리) 에 두고 싶다면, 가게가 너무 커져서 일반인 (스마트폰) 이 들어갈 수 없습니다.
그래서 일부 전문가만 가게 안에 두고, 나머지는 멀리 떨어진 창고 (하드디스크) 에 두는 '전문가 반납 (Offloading)' 시스템을 만들었습니다.

상황: 손님이 "페퍼로니 피자"를 시켰습니다. 가게 안에 '페퍼로니 전문가'가 없다면?
- 나쁜 경우: 멀리 떨어진 창고에서 전문가를 불러와야 해서 시간이 너무 걸립니다 (AI 가 느려짐).
- 좋은 경우: 가게 안에 이미 '페퍼로니 전문가'가 있어서 바로 일을 시킬 수 있습니다 (AI 가 빠름).

🔍 핵심 발견: "다음 주문은 비슷할 거야!" (로컬 라우팅 일관성)

이 연구의 핵심은 **"손님들이 연속해서 내리는 주문은 대체로 비슷하다"**는 사실을 분석한 것입니다.

예시: 손님이 "사과"를 말하고, 다음에 "배"를 말하고, 그다음에 "포도"를 말한다면?
- 이 세 단어는 모두 **'과일 전문가'**가 필요할 확률이 높습니다.
- 즉, 연속된 문장에서는 같은 전문가들이 계속 일하게 됩니다.

이런 현상을 **"로컬 라우팅 일관성 (Local Routing Consistency)"**이라고 부릅니다. 이 일관성이 높을수록, 창고에서 전문가를 불러올 필요가 적어지므로 AI 가 훨씬 빨라집니다.

📊 연구 결과: "모든 가게가 다 똑같지 않아"

저희 연구팀은 20 개의 다양한 AI 모델 (피자 가게) 을 조사했습니다. 결과는 놀라웠습니다.

일관성이 높은 가게 (GRIN-MoE, OLMoE 등):
- 손님이 "과일"을 말하면, 다음에도 계속 "과일" 관련 전문가가 일합니다.
- 비유: 이 가게는 창고에서 전문가를 거의 불러올 필요가 없습니다. 가게 안에 몇 명만 두면 충분합니다. 메모리 절약에 아주 좋습니다.
일관성이 낮은 가게 (Jamba-Mini, SwitchTransformers 등):
- "과일"을 말하다가 갑자기 "자동차"를 말하면, 완전히 다른 전문가가 필요합니다.
- 비유: 이 가게는 매번 창고에서 새로운 전문가를 불러와야 합니다. 메모리 절약이 어렵고 속도가 느려집니다.

🛠️ 무엇을 배웠나요? (세 가지 교훈)

이 연구를 통해 AI 개발자와 사용자들에게 중요한 세 가지 교훈을 얻었습니다.

1. "공유 전문가"는 오히려 방해가 될 수 있어요

일부 가게는 모든 전문가가 다 쓸 수 있는 '공용 전문가 (Shared Expert)'를 두기도 합니다. 하지만 연구 결과, 공용 전문가가 많을수록 다음에 누가 일할지 예측하기 어려워져서 (일관성이 낮아져서) 오히려 비효율적이었습니다.

2. "주제별 전문가"가 핵심입니다

가게에 '수학 전문가', '코딩 전문가'처럼 특정 주제에 특화된 전문가가 있다면, 그 주제에 대해 이야기할 때 일관성이 매우 높아집니다. 반면, 단순히 단어만 기억하는 전문가들은 일관성에 큰 도움이 되지 않습니다.

3. 창고 크기는 "활성화된 전문가의 2 배"가 적당해요

가게 안에 몇 명의 전문가를 두면 가장 효율적일까요? 연구 결과, 실제로 일하는 전문가 수의 약 2 배 정도를 창고 (메모리) 에 두면, 가장 효율적으로 작동한다는 것을 발견했습니다. 너무 적으면 자주 창고로 가야 하고, 너무 많으면 메모리 낭비입니다.

💡 결론: 더 똑똑한 AI 설계법

이 논문은 **"단순히 모델을 크게 만드는 것만으로는 부족하다"**고 말합니다.

메모리가 작은 기기 (스마트폰 등) 에서 AI 를 돌리려면,
연속된 문장에서 같은 전문가가 일할 확률이 높은 모델 (일관성이 높은 모델) 을 선택하거나,
그런 모델을 설계하는 것이 중요합니다.

이제 우리는 AI 모델을 고를 때, "이 모델이 메모리 절약형인지, 아니면 창고에서 전문가를 자주 불러와야 하는 모델인지"를 미리 알 수 있게 되었습니다. 이는 앞으로 우리가 스마트폰에서 더 빠르고 가벼운 AI 를 사용할 수 있는 길을 열어줍니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 ICLR 2026에 발표된 것으로, 혼합 전문가 (Mixture-of-Experts, MoE) 모델의 로컬 라우팅 일관성 (Local Routing Consistency) 을 분석하고, 이를 통해 메모리 제약이 있는 환경에서의 전문가 오프로딩 (Expert Offloading) 효율성을 평가하는 연구입니다.

주요 내용은 다음과 같습니다.

1. 연구 배경 및 문제 제기 (Problem)

MoE 모델의 확장성: MoE 아키텍처는 희소 활성화 (Sparse Activation) 를 통해 대규모 언어 모델 (LLM) 의 효율적인 확장을 가능하게 합니다.
메모리 제약과 오프로딩: 모바일 등 메모리가 제한된 장치에서 MoE 모델을 배포하기 위해 '전문가 오프로딩' 기술이 도입되었습니다. 이는 일부 전문가 (Expert) 만을 빠른 메모리 (GPU) 에 캐싱하고 나머지를 느린 메모리 (CPU/디스크) 에 두는 방식입니다.
기존 연구의 한계: 이전 연구들은 연속된 토큰들이 유사한 전문가를 활성화하는 '국소성 (Locality)'을 활용하여 캐싱 효율을 높이려 했습니다. 그러나 모든 MoE 모델이 이러한 연속적인 라우팅 패턴을 균일하게 보이는 것은 아니며, 모델 간 편차가 크고 이에 대한 체계적인 연구가 부족했습니다.
핵심 질문: 어떤 MoE 모델이 전문가 오프로딩에 더 적합한가? 이를 정량적으로 측정할 수 있는 방법은 무엇인가?

2. 방법론 (Methodology)

저자들은 MoE 모델의 로컬 라우팅 일관성을 측정하기 위해 두 가지 새로운 지표를 제안했습니다.

세그먼트 라우팅 최적 성능 (Segment Routing Best Performance, SRP):
- 연속된 토큰 세그먼트 내에서 고정된 전문가 그룹을 사용하여 원래 라우터의 결정을 얼마나 잘 모사할 수 있는지 측정합니다.
- 단일 전문가 또는 전문가 그룹의 활성화 패턴을 이진 분류 문제로 간주하여 F1 점수의 상한선을 계산합니다.
- 모델 파라미터 없이 세그먼트 길이만으로 모델 고유의 라우팅 일관성을 평가할 수 있습니다.
세그먼트 캐시 최적 히트율 (Segment Cache Best Hit Rate, SCH):
- 실제 오프로딩 시스템을 시뮬레이션한 지표입니다.
- 미래의 $m$ 개 토큰 동안 활성화 빈도를 기반으로 가장 덜 사용되는 전문가를 제거하는 오라클 (Oracle) 캐시 알고리즘을 가정합니다.
- 캐시 크기 제한 (활성화 전문가 수의 배수) 하에서의 히트율 (Hit Rate) 을 측정하여 실제 캐싱 효율성을 예측합니다.

실험 설정:

모델: 3B 에서 57B 파라미터까지 다양한 크기와 아키텍처를 가진 20 개의 MoE 기반 LLM (Mixtral, DeepSeek, Qwen, LLaMA-MoE 등) 을 분석했습니다.
Toy Model: 주요 요인 (로컬 로드 밸런스, 공유 전문가, 전문가 조합 공간 등) 의 영향을 검증하기 위해 OLMoE 기반의 소규모 모델을 직접 학습시켰습니다.
데이터: RedPajama 및 다양한 도메인 (코드, 수학, 과학 등) 의 하위 데이터셋을 포함하는 대규모 코퍼스를 사용했습니다.

3. 주요 결과 (Key Results)

A. 로컬 라우팅 일관성과 로드 밸런스의 트레이드오프

트레이드오프: 로컬 라우팅 일관성 (SRP) 이 높은 모델은 일반적으로 로컬 로드 밸런스 (Local Load Balance) 가 낮습니다. 즉, 특정 세그먼트 내에서 특정 전문가들만 집중적으로 활성화되는 경향이 있습니다.
글로벌 밸런스: 반면, 로컬 일관성이 높은 모델이라도 글로벌 로드 밸런스는 유지될 수 있습니다. 서로 다른 도메인 (예: 수학 vs 일반 텍스트) 에서 서로 다른 전문가들이 활성화되어 전체적으로는 모든 전문가가 고르게 사용되기 때문입니다.

B. 아키텍처적 영향 요인

공유 전문가 (Shared Experts): 공유 전문가를 사용하는 모델 (예: DeepSeekMoE) 은 라우팅 일관성이 낮았습니다. 이는 공유 전문가가 정보를 처리하여 MoE 부분의 중요도를 낮추거나, 전문가 조합의 공간을 축소하여 라우터의 연속적인 조정을 방해하기 때문입니다.
전문가 조합 공간: 활성화 가능한 전문가 조합의 공간이 클수록 (더 많은 전문가를 선택할 수 있을 때) 로컬 일관성이 높아지는 경향이 있습니다.

C. 전문가 전문화 (Specialization) 의 역할

도메인 전문화 vs 어휘 전문화: 도메인 전문화 (Domain Specialization) 가 높은 전문가 (예: 코딩이나 수학에 특화된 전문가) 는 로컬 라우팅 일관성에 훨씬 더 크게 기여합니다. 반면, 특정 어휘에 특화된 전문가의 영향력은 상대적으로 작습니다.
도메인별 차이: 수학이나 코딩 데이터셋에서 SRP 가 유의미하게 높은 모델들은 해당 도메인에 특화된 전문가를 보유하고 있음을 확인했습니다.

D. 최적 캐시 크기

2 배 규칙: SCH 분석 결과, 대부분의 모델에서 활성화되는 전문가 수의 약 2 배 (Cache Size $\approx$ 2x Active Experts) 크기의 캐시가 캐싱 효과와 배포 효율성 사이의 최적 균형을 이루는 것으로 나타났습니다.
SRP 와 SCH 의 상관관계: SRP 와 SCH 는 높은 상관관계를 보이며, SCH 는 실제 LRU(LRU) 나 LFU(LFU) 같은 일반적인 캐시 알고리즘의 히트율과도 높은 상관성을 가집니다.

4. 기여 및 의의 (Contributions & Significance)

정량적 측정 지표 제안: MoE 모델의 오프로딩 적합성을 평가할 수 있는 SRP 와 SCH 라는 두 가지 새로운 메트릭을 제안했습니다.
설계 가이드라인 제시:
- 로컬 일관성을 높이기 위해 공유 전문가를 피하고, 전문가 조합 공간을 확장하며, 도메인 전문화를 유도하는 것이 중요함을 밝혔습니다.
- 로컬 로드 밸런스를 일부 희생하더라도 로컬 일관성을 확보하는 것이 오프로딩 환경에서는 더 유리할 수 있음을 시사합니다.
실용적 인사이트: 메모리 제약이 있는 장치 (모바일 등) 에서 MoE 모델을 효율적으로 배포하기 위해 활성화 전문가 수의 2 배 크기의 캐시를 사용하는 것이 권장됨을 증명했습니다.
오픈소스: 실험 재현을 위한 코드와 데이터를 공개하여 후속 연구를 지원했습니다.

결론

이 논문은 "모든 MoE 모델이 전문가 오프로딩에 적합한 것은 아니다"라는 점을 강조하며, 모델의 로컬 라우팅 일관성을 분석함으로써 메모리 효율적인 MoE 설계와 배포 전략을 수립하는 데 필요한 이론적, 실증적 기반을 마련했습니다. 특히 도메인 전문화 된 전문가의 중요성과 최적 캐시 크기에 대한 발견은 실제 엣지 디바이스에서의 LLM 배포에 중요한 시사점을 제공합니다.