MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

Each language version is independently generated for its own context, not a direct translation.

🏢 비유: 거대한 도서관과 '전문가 팀'

이론의 핵심을 이해하기 위해 거대한 도서관을 상상해 보세요.

기존 방식 (Top-K Routing):
- 도서관에는 천 명의 사서 (전문가) 가 있습니다. 하지만 손님이 질문을 하면, 시스템은 **"가장 점수가 높은 2 명"**만 뽑아 질문을 처리하게 합니다.
- 문제점: 이 2 명은 항상 똑같은 사람들입니다. "비 오는 날" 질문에는 비 전문가가 뽑히거나, "고양이" 질문에는 강아지 전문가가 뽑힐 수 있습니다. 또한, 항상 같은 2 명만 일하다 보니 그들은 특정 질문에만 너무 익숙해져서 (과적합), 다른 질문에는 엉뚱한 답을 할 수도 있습니다.
새로운 방식 (MoE-GRPO):
- 이 논문은 **"매번 질문할 때마다, 2 명을 뽑는 방식을 '도박'처럼 바꾸고, 그 결과를 보고 배우게 한다"**고 제안합니다.
- AI 는 한 번에 여러 번 시뮬레이션을 돌려봅니다. (예: "A 와 B 를 뽑으면?", "C 와 D 를 뽑으면?")
- 그리고 정답을 맞춘 조합은 **"잘했다!"**라고 칭찬하고 (보상), 틀린 조합은 **"다음엔 다른 사람을 뽑아라"**라고 가르칩니다.
- 이렇게 하면 AI 는 "아, 고양이 사진이 나올 때는 A 와 C 전문가가 가장 잘하는구나!"라고 스스로 깨닫게 됩니다.

🎯 핵심 기술 3 가지

이 논문은 이 방식을 더 잘 작동하게 만들기 위해 3 가지 중요한 장치를 도입했습니다.

1. GRPO (팀장님의 칭찬과 꾸지람)

비유: 학생이 시험을 볼 때, 정답지 하나만 보고 점수를 받는 게 아니라, 동일한 문제를 8 번씩 다른 방식으로 풀어보게 합니다.
그중에서 가장 잘 푼 8 개의 답안 중, 평균보다 잘 푼 답안은 "잘했어!"라고 하고, 평균보다 못 푼 답안은 "아직 부족해"라고 합니다.
이렇게 상대적인 비교를 통해 AI 는 "어떤 전문가 조합이 정답에 가까운지"를 빠르게 학습합니다.

2. 모달리티 인식 길잡이 (Modality-Aware Router Guidance)

비유: 도서관 사서 중에는 **'시각 전문가'**와 **'문자 전문가'**가 있습니다.
기존 방식은 "시각 질문"을 할 때도 가끔 '문자 전문가'를 뽑아 헤매게 만들었습니다.
새로운 장치: "지금 그림을 보고 있으니, 시각 전문가만 뽑아라!"라고 가이드를 해줍니다.
이렇게 하면 AI 는 엉뚱한 전문가를 뽑아 시간을 낭비하는 실수를 줄이고, 훨씬 더 빠르게 정답에 도달할 수 있습니다.

3. 다양한 전문가 활용 (Expert Specialization)

결과: 기존 방식은 항상 똑같은 2 명만 쓰느라 그들만 너무 특화되어 있었습니다.
하지만 MoE-GRPO 를 쓰면, **"이런 질문에는 A 와 B, 저런 질문에는 C 와 D"**처럼 상황에 따라 다양한 전문가 팀이 구성됩니다.
덕분에 AI 는 어떤 새로운 상황 (예:没见过 본 새로운 그림) 이 와도 유연하게 대처할 수 있게 됩니다.

📊 실험 결과: 실제로 효과가 있을까?

연구진은 이 방식을 적용해서 InternVL3.5라는 AI 모델을 훈련시켰습니다.

결과: 기존의 "가장 점수 높은 2 명만 뽑는 방식"이나 "무작위로 뽑는 방식"보다 모든 시험 (이미지 이해, 영상 이해 등) 에서 더 높은 점수를 받았습니다.
특이점: 특히 **새로운 데이터 (다른 나라의 그림, 다른 스타일의 영상)**가 들어와도 잘 적응하는 범용성이 크게 향상되었습니다.

💡 한 줄 요약

"AI 가 그림과 글을 볼 때, 항상 똑같은 전문가만 부르는 게 아니라, '상황에 맞는 다양한 전문가 팀'을 스스로 골라내는 방법을 '시행착오 (보상 학습)'를 통해 배워내게 했다."

이 기술은 AI 가 더 똑똑해지면서도 컴퓨터 자원 (전력, 메모리) 을 아낄 수 있게 해주는 아주 중요한 발전입니다.

Each language version is independently generated for its own context, not a direct translation.

1. 연구 배경 및 문제 정의 (Problem)

배경: 비전 - 언어 모델 (VLM) 의 확장성 향상을 위해 트랜스포머 아키텍처에 혼합 전문가 (Mixture-of-Experts, MoE) 구조가 도입되었습니다. MoE 는 각 토큰마다 소수의 파라미터만 활성화하여 계산 비용을 줄이면서도 높은 모델 용량을 유지합니다.
현재의 한계: 기존 MoE 아키텍처는 대부분 결정론적 (Deterministic) Top-K 라우팅 방식을 사용합니다. 이는 게이트 (gating) 점수가 가장 높은 K 개의 전문가를 무조건 선택하는 방식입니다.
- 문제점 1 (탐색 부족): 결정론적 방식은 다양한 전문가 조합의 탐색을 제한하여, 더 최적의 조합을 놓칠 수 있습니다.
- 문제점 2 (과적합): 모델이 소수의 전문가 집단에 과도하게 의존하게 되어 (Expert Overfitting), 일반화 성능이 저하될 수 있습니다.
- 문제점 3 (기존 개선법의 부족): 기존 연구들 (예: V-MoE) 은 게이트 점수에 가우시안 노이즈를 추가하는 등 휴리스틱한 확률적 요소를 도입했으나, 이는 '전문가 선택 정책 (Policy)'을 명시적으로 최적화하지 않아 한계가 있었습니다.

2. 제안 방법론 (Methodology)

저자들은 MoE 기반 VLM 의 전문가 라우팅을 강화 학습 (Reinforcement Learning, RL) 프레임워크인 MoE-GRPO로 최적화하는 것을 제안합니다.

2.1. MoE-GRPO 프레임워크

핵심 아이디어: 전문가 선택을 시퀀스 의사결정 문제로 정의하고, Group Relative Policy Optimization (GRPO) 알고리즘을 적용합니다.
작동 원리:
1. 롤아웃 (Rollout): 입력 토큰에 대해 게이트 네트워크가 K 개의 전문가를 확률적으로 샘플링하여 G 개의 서로 다른 라우팅 정책 (시퀀스) 을 생성합니다.
2. 보상 (Reward): 각 롤아웃에서 생성된 출력에 대해 정확도 기반의 보상 (정답 시 1, 오답 시 0) 을 계산합니다.
3. 정책 최적화: 그룹 내 상대적인 보상 (Relative Reward) 을 기반으로 이득 (Advantage) 을 계산하고, 높은 보상을 주는 전문가 조합은 강화하고 낮은 조합은 억제하는 방향으로 정책을 업데이트합니다.

2.2. 이중 최적화 목표 (Dual Objectives)

MoE-GRPO 는 토큰 생성과 라우팅을 동시에 최적화하기 위해 두 가지 하위 목적 함수를 결합합니다:

Token-GRPO: 토큰 수준의 생성 품질을 최적화합니다. (기존 GRPO 와 유사하지만, 전문가 선택 시퀀스를 조건으로 함)
Gate-GRPO: 레이어별 게이트 네트워크의 전문가 선택 정책을 직접 최적화합니다. 각 레이어의 게이트가 높은 보상을 주는 전문가를 선택하도록 밀도 있게 (Dense) 지도 신호를 제공합니다.
- 최종 목적 함수: $L_{MoE-GRPO} = L_{Token-GRPO} + L_{Gate-GRPO}$

2.3. 모달리티 인지 라우터 가이드 (Modality-Aware Router Guidance)

목적: RL 기반 탐색이 너무 광범위하여 학습이 불안정하거나 비효율적인 것을 방지하기 위함입니다.
방식: 각 전문가가 시각 (Visual) 또는 텍스트 (Text) 입력에 얼마나 자주 활성화되는지 '모달리티 인지 점수'를 계산합니다.
제약: 주어진 모달리티 (예: 이미지 처리 시) 에 대해 거의 활성화되지 않는 전문가들의 게이트 점수를 $-\infty$ 로 설정하여 탐색 공간에서 제외시킵니다. 이는 불필요한 탐색을 줄이고 학습 안정성을 높입니다.

3. 주요 기여 (Key Contributions)

RL 기반 전문가 선택 정책 최적화: MoE 기반 VLM 에서 전문가 선택을 시퀀스 의사결정 문제로 처음 정의하고, GRPO 를 통해 최적화하는 MoE-GRPO를 제안했습니다.
모달리티 인지 가이드 메커니즘: 특정 모달리티에 비활성화된 전문가의 탐색을 억제하여 학습 효율성과 안정성을 개선하는 새로운 가이드 방식을 도입했습니다.
성능 입증: 다양한 이미지 및 비디오 벤치마크에서 기존 결정론적 Top-K 라우팅 및 확률적 변형 기법들을 능가하는 성능을 보였으며, 전문가의 다양성 활용과 작업별 특화 (Task-level Specialization) 를 유도함을 입증했습니다.

4. 실험 결과 (Results)

벤치마크 성능: InternVL3.5-1B 아키텍처를 MoE 로 변환하여 실험한 결과, MME, MMBench, MMStar, VideoMME 등 9 개의 다중 모달 벤치마크에서 MoE-GRPO 가 모든 베이스라인 (Det-FT, Stoch-FT 등) 을 일관되게 상회했습니다. 평균 정확도에서 기존 방법 대비 1.7% ~ 2.3% 향상되었습니다.
일반화 능력 (Generalization):
- 교차 데이터셋 평가: ImageNet 에서 학습된 모델을 10 개의 타겟 데이터셋에 적용했을 때, MoE-GRPO 는 결정론적 파인튜닝 (Det-FT) 대비 평균 3.1% 높은 정확도를 기록하며 과적합을 효과적으로 완화했습니다.
- 도메인 일반화: ImageNet-V2, ImageNet-S 등 도메인 외 (Out-of-Domain) 데이터셋에서도 MoE-GRPO 가 가장 우수한 성능을 보였습니다.
분석 (Analysis):
- 다양성 증가: MoE-GRPO 는 토큰 수준에서 전문가 활성화 분포의 엔트로피를 1.05 에서 1.82 로 크게 증가시켜, 소수 전문가에 대한 의존도를 줄였습니다.
- 작업별 특화: 서로 다른 작업 (Task) 에 따라 다른 전문가 조합을 선택하는 경향이 뚜렷해져 (JSD 증가), 작업별 전문가 특화가 발생함을 확인했습니다.
- 학습 안정성: 모달리티 인지 가이드를 적용했을 때, 보상 평균이 더 빠르게 수렴하고 분산이 감소하여 학습이 더 안정적이었습니다.

5. 의의 및 결론 (Significance)

이 논문은 MoE 아키텍처의 라우팅 메커니즘을 단순한 게이트 점수 기반의 결정론적 선택에서 보상 기반의 강화 학습을 통한 적응적 정책 학습으로 전환하는 획기적인 접근을 제시했습니다.

기술적 의의: MoE 의 잠재력을 최대한 끌어내기 위해 '어떤 전문가를 언제 선택할지'에 대한 학습을 명시적으로 수행함으로써, 모델의 용량을 효율적으로 활용하면서도 과적합을 방지하는 새로운 패러다임을 제시했습니다.
실용적 가치: 계산 비용을 줄이면서도 (Sparsity 유지) 다중 모달 태스크에서의 일반화 성능을 극대화할 수 있어, 대규모 VLM 의 효율적인 배포와 확장성에 중요한 기여를 합니다.

요약하자면, MoE-GRPO는 RL 을 통해 MoE 의 '라우팅 두뇌'를 학습시켜, 모델이 상황에 따라 가장 적합한 전문가들을 유연하게 조합하도록 함으로써 VLM 의 성능과 일반화 능력을 비약적으로 향상시킨 연구입니다.