Each language version is independently generated for its own context, not a direct translation.

🎭 비유: "모두가 똑같은 일을 하는 요리사들"

상상해 보세요. 거대한 식당 (인공지능 모델) 이 있습니다. 이 식당에는 **100 명의 요리사 (전문가, Experts)**가 있습니다.

기존 방식 (문제점):
식당 주인은 "너희는 공평하게 일을 나눠!"라고만 지시합니다. (이를 '로드 밸런싱'이라고 합니다.)
하지만 결과는 어떨까요? 100 명의 요리사가 모두 비빔밥, 스테이크, 파스타를 똑같이 만들려고 노력합니다.
- 결과: "전문가"라고 불리지만, 사실은 모두 똑같은 만능 요리사가 되어버립니다. (이를 논문에서는 **'전문가 동질화 (Expert Homogenization)'**라고 부릅니다.)
- 문제: 비빔밥을 만들 때는 비빔밥에 특화된 요리사가, 스테이크를 만들 때는 스테이크에 특화된 요리사가 있어야 하는데, 모두 비슷비슷해서 최고의 맛을 내지 못합니다.
이 논문의 해결책 (Expert Divergence Learning):
이 연구팀은 새로운 지시를 내립니다.
"너희는 서로 다른 영역으로 가라! 비빔밥 팀은 비빔밥만, 스테이크 팀은 스테이크만, 디저트 팀은 디저트만 만들어라!"
- 이 방법은 데이터에 숨겨진 **'주제 (도메인)'**라는 라벨을 이용합니다. (예: 영어 뉴스, 중국어 소설, 수학 문제 등)
- AI 가 "아, 이건 수학 문제구나"라고 인식하면, 수학에 특화된 요리사들만 그 일을 맡게 하고, 다른 요리사들은 그 일을 하지 못하도록 유도합니다.
- 이렇게 하면 각 요리사 (전문가) 가 자신의 영역에서 최고의 실력을 발휘하게 되어, 전체 식당의 맛 (AI 성능) 이 훨씬 좋아집니다.

🔍 핵심 내용 3 가지

1. 왜 필요한가요? (기존의 한계)

기존의 AI 는 "다들 고르게 일해!"라고만 가르쳤습니다. 그래서 모든 전문가가 중복된 지식을 배우게 되었고, 이는 AI 의 능력을 제한했습니다. 마치 100 명의 변호사가 모두 같은 사건만 처리하려고 다투는 것과 같습니다.

2. 어떻게 해결했나요? (새로운 방법)

연구팀은 **"서로 다른 영역으로 갈라져라"**는 규칙을 추가했습니다.

비유: 식당에 들어온 손님이 "오늘은 한식 메뉴"라고 말하면, 한식 요리사들만 그 일을 맡고, 일식 요리사들은 쉬게 합니다.
기술적 원리: 데이터가 어떤 주제 (영어, 중국어, 수학 등) 에 속하는지 알고, 각 주제마다 서로 다른 전문가들이 선택되도록 AI 를 훈련시켰습니다. 이를 **'전문가 발산 학습 (Expert Divergence Learning)'**이라고 합니다.

3. 결과는 어땠나요? (성과)

더 맛있는 음식: AI 가 글을 쓰거나 문제를 풀 때, 훨씬 더 정확하고 똑똑한 답변을 냈습니다.
효율성: 컴퓨터 성능을 더 많이 쓰는 것 없이, 기존 방식보다 훨씬 좋은 결과를 얻었습니다. (비용은 그대로인데 성능은 업그레이드된 셈입니다.)
진짜 전문가 탄생: 실험 결과, 각 전문가들이 정말로 서로 다른 역할을 수행하게 되었습니다. (예: 어떤 전문가들은 수학 문제를, 다른 전문가들은 시를 쓰는 데 특화됨)

💡 요약 및 결론

이 논문은 **"인공지능의 전문가들 (MoE) 이 서로 경쟁하지 말고, 각자 맡은 분야를 깊이 파고들게 하라"**는 아이디어를 제시합니다.

기존: 모두 비슷하게 일하게 함 → 비효율적인 만능 전문가
이 논문: 각자 다른 분야로 갈라지게 함 → 각자 최고의 실력을 가진 진짜 전문가 팀

이 방법을 통해 AI 는 더 적은 비용으로 더 똑똑해졌으며, 앞으로 더 큰 규모의 AI 를 만들 때도 이 '역할 분담' 전략이 핵심이 될 것입니다. 마치 명품 팀을 꾸릴 때, 모든 직원을 똑같은 일꾼으로 뽑지 않고, 각자의 재능에 맞춰 팀을 구성하는 것과 같은 원리입니다.

Each language version is independently generated for its own context, not a direct translation.

전문가 분산 학습 (Expert Divergence Learning) 을 통한 MoE 기반 언어 모델 개선: 기술 요약

이 논문은 ICLR 2026 에 발표된 것으로, 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처의 잠재력을 제한하는 '전문가 동질화 (Expert Homogenization)' 문제를 해결하기 위해 제안된 새로운 학습 전략인 전문가 분산 학습 (Expert Divergence Learning, EDL) 에 대해 다룹니다.

1. 문제 정의 (Problem)

MoE 아키텍처는 대규모 언어 모델 (LLM) 을 확장하는 데 있어 사실상의 표준이 되었지만, 표준 학습 방식에는 근본적인 한계가 있습니다.

전문가 동질화 (Expert Homogenization): 기존 MoE 학습은 주로 '로드 밸런싱 (Load Balancing)' 손실 함수를 사용하여 모든 전문가가 고르게 사용되도록 강제합니다. 그러나 이는 각 전문가가 무엇을 학습해야 하는지에 대한 명시적인 지침을 제공하지 않습니다.
결과: 이로 인해 다양한 전문가들이 서로 중복된 기능과 데이터 분포를 학습하게 되어, 본래 의도했던 '다양한 전문가들의 앙상블'이 '유사한 일반주의 (Generalists) 의 집단'으로 붕괴됩니다. 이는 MoE 의 실제 용량 (Effective Capacity) 을 감소시키고, 복잡한 다도메인 데이터에 대한 적응력을 떨어뜨립니다.

2. 방법론 (Methodology)

저자들은 전문가의 기능적 전문화 (Functional Specialization) 를 우연에 맡기지 않고, 외부 신호를 통해 명시적으로 유도하는 전문가 분산 학습 (EDL) 을 제안합니다.

핵심 아이디어

대규모 사전 학습 코퍼스 (Corpus) 에 내재된 도메인 레이블 (예: 언어, 주제, 수학 등) 을 활용하여, 서로 다른 도메인 간의 라우팅 분포 (Routing Distribution) 간 분산 (Divergence) 을 최대화하는 보조 손실 함수를 도입합니다.

구체적 절차

도메인별 집계: 학습 배치 내의 토큰을 시퀀스 단위로, 다시 시퀀스를 도메인 단위로 그룹화합니다.
평균 라우팅 분포 계산: 각 도메인 $j$ 에 대해 해당 도메인의 모든 토큰이 각 전문가에게 할당될 확률 분포의 평균인 $p_j$ 를 계산합니다.
Jensen-Shannon (JS) 발산 최대화: 서로 다른 도메인 쌍 $\{j, k\}$ ${j, k}$ 간의 평균 분포 $p_j$ $p_{j}$ 와 $p_k$ $p_{k}$ 사이의 JS 발산을 계산하고, 이를 최대화하도록 전문가 분산 손실 (Expert Divergence Loss, $L_{ED}$ ) 을 정의합니다.
- 수식: $L_{ED} = \frac{1}{\binom{M_B}{2}} \sum_{\{j,k\}} -\log(D_{JS}(p_j || p_k) + \epsilon)$
최종 목적 함수: 기존 언어 모델링 손실 ( $L_{LM}$ $L_{L M}$ ) 과 로드 밸런싱 손실 ( $L_{LB}$ $L_{L B}$ ) 에 새로운 $L_{ED}$ $L_{E D}$ 를 가중치 $\beta$ $β$ 로 추가합니다.
- $L_{final} = L_{LM} + \alpha L_{LB} + \beta L_{ED}$

이론적 배경

저자는 총 라우팅 다양성 ( $D_{total}$ ) 을 도메인 간 다양성 ( $D_{inter}$ ) 과 도메인 내 다양성 ( $D_{intra}$ ) 으로 분해할 수 있음을 증명합니다. 기존 로드 밸런싱은 전체 다양성만 증진시키지만, EDL 은 이 다양성을 도메인 간 차이 ( $D_{inter}$ ) 에 집중시켜 각 도메인에 특화된 전문가가 형성되도록 유도합니다.

3. 주요 기여 (Key Contributions)

새로운 학습 전략 제안: 도메인 레이블을 활용한 지도 학습 기반의 보조 손실 함수를 도입하여 MoE 의 전문가 동질화 문제를 해결했습니다.
이론적 근거: 총 라우팅 다양성을 분해하여, EDL 이 도메인 간 분산을 증가시킴으로써 전문가의 기능적 전문화를 유도한다는 것을 수학적으로 증명했습니다.
대규모 실증 실험: 150 억 파라미터 (15B) 규모의 MoE 모델을 처음부터 (from scratch) 학습하여 방법론의 유효성을 검증했습니다.
효율성 입증: 추가적인 계산 오버헤드 없이 성능을 향상시킬 수 있음을 확인했습니다.

4. 실험 결과 (Results)

저자들은 Qwen3-MoE 아키텍처를 기반으로 3B, 8B, 15B 크기의 모델을 학습하고 다양한 벤치마크 (C-Eval, MMLU, CMMLU, ARC, RACE 등) 에서 평가했습니다.

성능 향상: EDL 을 적용한 모델은 표준 MoE 대비 언어 모델링 손실 ( $L_{LM}$ ) 이 감소했고, 모든 다운스트림 태스크에서 성능이 유의미하게 향상되었습니다.
- 특히 15B 모델에서 49 개 클래스 (세부 주제) 분산 전략을 적용했을 때 평균 점수가 35.59 에서 36.65 로 크게 향상되었습니다.
모델 크기 스케일링: 모델 크기가 클수록 EDL 의 이점이 더 크게 나타났습니다. 이는 큰 모델이 구조화된 전문화를 더 효과적으로 활용함을 시사합니다.
전문가 전문화 분석:
- 라우팅 교란 실험: 전문가의 라우팅을 무작위로 섞었을 때, EDL 모델은 베이스라인보다 훨씬 큰 퍼플렉시티 (Perplexity) 증가를 보였습니다. 이는 전문가들이 상호 교환 불가능한 고유한 기능을 학습했음을 의미합니다.
- 히트맵 분석: EDL 모델은 도메인별로 명확하게 다른 전문가들이 활성화되는 패턴을 보였으며, 특히 49 개 클래스 설정에서 이 효과가 극대화되었습니다.
효율성: 학습 및 추론 속도에 거의 영향을 주지 않는 경미한 오버헤드만 발생했습니다.

5. 의의 및 결론 (Significance)

이 연구는 MoE 모델의 성능 향상을 위해 전문가의 역할을 사전 학습 단계에서 명시적으로 가이드해야 함을 입증했습니다.

데이터 구조의 활용: 웹 규모의 코퍼스에서 내재된 도메인 구조 (주제, 언어 등) 를 활용하는 것이 MoE 의 잠재력을 unlocking 하는 강력한 전략임을 보였습니다.
미래 방향: 단순한 로드 밸런싱을 넘어, 데이터의 의미적 구조를 반영한 라우팅 전략이 차세대 MoE 모델 개발의 핵심 요소가 될 것입니다.
실용성: 계산 비용 증가 없이 MoE 의 효율성과 성능을 동시에 개선할 수 있는 실용적인 솔루션을 제시했습니다.

요약하자면, 이 논문은 MoE 모델이 '동질적인 일반주의'가 아닌 '다양한 전문가'로 성장할 수 있도록 돕는 도메인 기반 분산 학습을 제안함으로써, 대규모 언어 모델의 확장성과 성능 한계를 한 단계 끌어올렸습니다.

Expert Divergence Learning for MoE-based Language Models