MoE-GRPO: Optimizing Mixture-of-Experts via Reinforcement Learning in Vision-Language Models

이 논문은 비전 - 언어 모델의 전문가 라우팅을 강화 학습 (GRPO) 기반의 적응형 의사결정 문제로 재구성하고, 모달리티 인식 가이드를 도입하여 전문가 과적합을 완화하고 다양한 전문가 선택을 촉진함으로써 기존 결정론적 Top-K 라우팅보다 우수한 성능을 달성하는 MoE-GRPO 프레임워크를 제안합니다.

Dohwan Ko, Jinyoung Park, Seoung Choi, Sanghyeok Lee, Seohyun Lee, Hyunwoo J. Kim

게시일 2026-03-27
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏢 비유: 거대한 도서관과 '전문가 팀'

이론의 핵심을 이해하기 위해 거대한 도서관을 상상해 보세요.

  1. 기존 방식 (Top-K Routing):

    • 도서관에는 천 명의 사서 (전문가) 가 있습니다. 하지만 손님이 질문을 하면, 시스템은 **"가장 점수가 높은 2 명"**만 뽑아 질문을 처리하게 합니다.
    • 문제점: 이 2 명은 항상 똑같은 사람들입니다. "비 오는 날" 질문에는 비 전문가가 뽑히거나, "고양이" 질문에는 강아지 전문가가 뽑힐 수 있습니다. 또한, 항상 같은 2 명만 일하다 보니 그들은 특정 질문에만 너무 익숙해져서 (과적합), 다른 질문에는 엉뚱한 답을 할 수도 있습니다.
  2. 새로운 방식 (MoE-GRPO):

    • 이 논문은 **"매번 질문할 때마다, 2 명을 뽑는 방식을 '도박'처럼 바꾸고, 그 결과를 보고 배우게 한다"**고 제안합니다.
    • AI 는 한 번에 여러 번 시뮬레이션을 돌려봅니다. (예: "A 와 B 를 뽑으면?", "C 와 D 를 뽑으면?")
    • 그리고 정답을 맞춘 조합은 **"잘했다!"**라고 칭찬하고 (보상), 틀린 조합은 **"다음엔 다른 사람을 뽑아라"**라고 가르칩니다.
    • 이렇게 하면 AI 는 "아, 고양이 사진이 나올 때는 A 와 C 전문가가 가장 잘하는구나!"라고 스스로 깨닫게 됩니다.

🎯 핵심 기술 3 가지

이 논문은 이 방식을 더 잘 작동하게 만들기 위해 3 가지 중요한 장치를 도입했습니다.

1. GRPO (팀장님의 칭찬과 꾸지람)

  • 비유: 학생이 시험을 볼 때, 정답지 하나만 보고 점수를 받는 게 아니라, 동일한 문제를 8 번씩 다른 방식으로 풀어보게 합니다.
  • 그중에서 가장 잘 푼 8 개의 답안 중, 평균보다 잘 푼 답안은 "잘했어!"라고 하고, 평균보다 못 푼 답안은 "아직 부족해"라고 합니다.
  • 이렇게 상대적인 비교를 통해 AI 는 "어떤 전문가 조합이 정답에 가까운지"를 빠르게 학습합니다.

2. 모달리티 인식 길잡이 (Modality-Aware Router Guidance)

  • 비유: 도서관 사서 중에는 **'시각 전문가'**와 **'문자 전문가'**가 있습니다.
  • 기존 방식은 "시각 질문"을 할 때도 가끔 '문자 전문가'를 뽑아 헤매게 만들었습니다.
  • 새로운 장치: "지금 그림을 보고 있으니, 시각 전문가만 뽑아라!"라고 가이드를 해줍니다.
  • 이렇게 하면 AI 는 엉뚱한 전문가를 뽑아 시간을 낭비하는 실수를 줄이고, 훨씬 더 빠르게 정답에 도달할 수 있습니다.

3. 다양한 전문가 활용 (Expert Specialization)

  • 결과: 기존 방식은 항상 똑같은 2 명만 쓰느라 그들만 너무 특화되어 있었습니다.
  • 하지만 MoE-GRPO 를 쓰면, **"이런 질문에는 A 와 B, 저런 질문에는 C 와 D"**처럼 상황에 따라 다양한 전문가 팀이 구성됩니다.
  • 덕분에 AI 는 어떤 새로운 상황 (예:没见过 본 새로운 그림) 이 와도 유연하게 대처할 수 있게 됩니다.

📊 실험 결과: 실제로 효과가 있을까?

연구진은 이 방식을 적용해서 InternVL3.5라는 AI 모델을 훈련시켰습니다.

  • 결과: 기존의 "가장 점수 높은 2 명만 뽑는 방식"이나 "무작위로 뽑는 방식"보다 모든 시험 (이미지 이해, 영상 이해 등) 에서 더 높은 점수를 받았습니다.
  • 특이점: 특히 **새로운 데이터 (다른 나라의 그림, 다른 스타일의 영상)**가 들어와도 잘 적응하는 범용성이 크게 향상되었습니다.

💡 한 줄 요약

"AI 가 그림과 글을 볼 때, 항상 똑같은 전문가만 부르는 게 아니라, '상황에 맞는 다양한 전문가 팀'을 스스로 골라내는 방법을 '시행착오 (보상 학습)'를 통해 배워내게 했다."

이 기술은 AI 가 더 똑똑해지면서도 컴퓨터 자원 (전력, 메모리) 을 아낄 수 있게 해주는 아주 중요한 발전입니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →