Each language version is independently generated for its own context, not a direct translation.

🚀 MoDES: 지능형 '스킵' 기술로 무거운 AI 를 가볍게 만드는 방법

이 논문은 **'모드스 (MoDES)'**라는 새로운 기술을 소개합니다. 이 기술은 거대하고 복잡한 멀티모달 AI(텍스트, 이미지, 영상을 동시에 이해하는 AI) 가 훨씬 더 빠르고 효율적으로 작동하도록 도와줍니다.

비유를 들어 쉽게 설명해 드릴게요.

1. 문제: "너무 많은 전문가들이 모여서 소란스럽다!" 🤯

상상해 보세요. 거대한 도서관에 **수백 명의 전문가 (Expert)**들이 모여 있습니다. 어떤 질문이 들어오면, AI 는 이 전문가들 중 일부를 불러서 문제를 해결합니다.

기존 방식 (MoE): 질문이 들어오면, AI 는 "어떤 전문가가 필요할까?"라고 고민하다가 **정해진 숫자만큼 (예: 6 명)**의 전문가를 무조건 불러모읍니다.
문제점: 하지만 질문이 아주 단순할 때는 6 명 모두 필요 없습니다. 2 명만 있어도 충분하죠. 그런데도 6 명을 모두 불러오면 시간과 에너지 (컴퓨팅 자원) 를 낭비하게 됩니다. 특히 사진이나 영상을 볼 때는 텍스트만 볼 때보다 더 많은 전문가가 필요해서 더 느려집니다.

2. 기존 해결책의 한계: "모두에게 똑같은 규칙을 적용하다" 📏

이전 연구자들은 "불필요한 전문가를 제외하자"라고 제안했습니다. 하지만 그들은 텍스트만 다루는 AI를 위해 만든 규칙을, 이미지와 영상까지 보는 AI에 그대로 적용했습니다.

실수 1: 모든 층 (Layer) 을 똑같이 취급함. (초반 층은 중요하고, 후반 층은 덜 중요한데 똑같이 다룸)
실수 2: 텍스트와 이미지를 똑같이 취급함. (이미지는 전문가가 덜 필요하고, 텍스트는 더 필요하다는 점을 모름)

결과: 전문가를 너무 많이 빼버려서 AI 가 멍청해지거나 (정답을 못 찾거나), 아예 효과가 없었습니다.

3. MoDES 의 해결책: "상황에 맞는 지능형 스킵" 🧠✨

MoDES 는 **"누가 언제 필요하고, 누가 필요 없는지"**를 훨씬 똑똑하게 판단합니다. 두 가지 핵심 아이디어를 사용합니다.

🌟 아이디어 1: "층별 중요도 파악하기" (Globally-Modulated Local Gating)

비유: 건물을 짓는다고 상상해 보세요.
- 1 층 (초반 층): 기초 공사가 중요합니다. 여기서는 전문가를 함부로 빼면 건물이 무너집니다.
- 20 층 (후반 층): 장식 작업입니다. 여기서는 전문가를 좀 빼도 건물이 무너지지 않습니다.
MoDES 의 행동: AI 는 "이 층은 기초 공사 단계라 전문가를 많이 남겨야 해!"라고 판단하고, "저 층은 장식 단계라 전문가를 좀 덜 불러도 돼!"라고 판단합니다. 전체적인 구조를 보고 전문가를 배분합니다.

🌟 아이디어 2: "텍스트 vs 이미지, 다르게 대우하기" (Dual-Modality Thresholding)

비유:
- 텍스트 (글자): 정교한 요리입니다. 셰프 (전문가) 가 많이 필요해요.
- 이미지 (사진): 간단한 스낵입니다. 셰프가 조금만 있어도 충분해요.
MoDES 의 행동:
- 글자가 들어오면: "이건 중요하니까 전문가를 좀 더 불러줘."
- 사진이 들어오면: "이건 간단하니까 전문가를 80% 이상 빼도 돼!"
- 이렇게 모달리티 (텍스트/이미지) 에 따라 기준을 다르게 설정합니다.

4. 결과: "스피드와 정확도, 두 마리 토끼를 다 잡았다" 🏆

이 기술을 적용한 결과 놀라운 일이 일어났습니다.

압도적인 속도:
- 생각하는 시간 (Prefill): 기존보다 2 배 이상 빨라졌습니다. (예: 1 초 걸리던 게 0.5 초로)
- 답변하는 시간 (Decoding): 기존보다 1.2 배 이상 빨라졌습니다.
정확도 유지:
- 전문가를 88% 나 빼버려도 (즉, 100 명 중 12 명만 사용), 원래 AI 의 성능을 97% 이상 유지했습니다.
- 오히려 기존 방법들보다 성능이 10% 이상 더 좋아진 경우도 있었습니다. (불필요한 전문가가 방해하는 것을 막았기 때문)

5. 요약: 왜 MoDES 가 특별한가요? 🎯

기존: "모든 질문에 대해 똑같은 수의 전문가를 부른다." (비효율적)
MoDES: "질문의 종류 (글자 vs 그림) 와 단계 (초반 vs 후반) 를 보고, 정확히 필요한 만큼만 전문가를 부른다." (지능적)

한 줄 요약:

MoDES 는 거대 AI 가 "불필요한 전문가"를 구별해 내어, 아무것도 잃지 않으면서 속도를 2 배 이상으로 끌어올리는 지능형 스케줄러입니다.

이제 AI 는 무거운 짐을 지고 천천히 걷는 대신, 필요한 것만 챙겨 들고 제트팩을 타고 날아다니는 것처럼 빠르고 똑똑해졌습니다! 🚀

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem)

배경: 혼합 전문가 (Mixture-of-Experts, MoE) 아키텍처를 적용한 멀티모달 대규모 언어 모델 (MLLM) 은 비전 - 언어 작업에서 뛰어난 성능을 보이지만, 추론 시 높은 계산 비용과 비효율성을 겪습니다.
기존 방법의 한계: 기존 연구들은 단일 모달리티 (텍스트만) LLM 을 위해 개발된 '전문가 스킵 (Expert Skipping)' 기법을 MLLM 에 적용하려 시도했습니다. 그러나 이는 다음과 같은 두 가지 핵심 요인을 간과하여 성능이 급격히 저하되는 문제가 발생했습니다.
1. 레이어 간 기여도 불균형 (Global Contribution Disregard): 모든 레이어에서 동일한 기준으로 전문가를 스킵하면, 전체 출력에 결정적인 영향을 미치는 얕은 레이어 (Shallow Layers) 의 전문가가 과도하게 제거되어 성능이 크게 떨어집니다.
2. 모달리티 간 차이 (Modality Gap): 텍스트 토큰과 비전 (이미지/영상) 토큰은 FFN(Feed-Forward Network) 을 통과할 때 서로 다른 행동을 보입니다. 비전 토큰은 텍스트 토큰에 비해 업데이트 폭이 작고 전문가 간 중복성이 더 높습니다. 기존 방법은 이러한 모달리티별 차이를 고려하지 않았습니다.

2. 제안 방법 (Methodology: MoDES)

저자들은 MoDES (Multimodal Dynamic Expert Skipping) 라는 훈련이 필요 없는 (Training-free) 프레임워크를 제안했습니다. 이는 다음 두 가지 핵심 메커니즘으로 구성됩니다.

가. 전역 조절 로컬 게이팅 (Globally-Modulated Local Gating, GMLG)

목적: 레이어별 전문가의 전역적 중요도를 반영하여 각 토큰의 전문가 중요도를 정확히 추정합니다.
작동 원리:
- 로컬 라우팅 확률 ( $\pi$ ): 토큰이 특정 전문가를 선택할 확률 (기존 방식).
- 전역 조절 인자 ( $\alpha$ ): 오프라인 보정 (Offline Calibration) 을 통해 각 레이어의 전문가가 최종 출력에 미치는 영향을 KL 발산 (KL Divergence) 으로 측정하여 계산합니다.
- 중요도 점수 ( $s$ ): $s = \alpha \cdot \pi$ 로 정의하여, 얕은 레이어의 중요한 전문가를 보호하고 깊은 레이어의 덜 중요한 전문가를 더 공격적으로 스킵할 수 있도록 조정합니다.

나. 이중 모달리티 임계값 (Dual-Modality Thresholding, DMT)

목적: 텍스트와 비전 토큰의 서로 다른 특성을 반영하여 모달리티별 최적의 스킵 임계값을 설정합니다.
작동 원리:
- 텍스트 토큰용 임계값 ( $\tau_t$ ) 과 비전 토큰용 임계값 ( $\tau_v$ ) 을 별도로 정의합니다.
- 각 토큰의 모달리티에 따라 해당 임계값을 적용하여 불필요한 전문가를 동적으로 스킵합니다.

다. 프론티어 탐색 알고리즘 (Frontier Search Algorithm)

목적: 주어진 계산 예산 (스킵 비율) 하에서 성능 손실을 최소화하는 최적의 임계값 ( $\tau_t, \tau_v$ ) 을 효율적으로 탐색합니다.
효율성: 성능과 효율성 간의 단조성 (Monotonicity) 특성을 활용하여, 기존 무차별 대입 탐색 (Exhaustive Search, $O(ND^2)$ ) 대비 약 45 배 빠른 $O(ND)$ 시간 복잡도로 최적의 임계값을 찾습니다. (수십 억 파라미터 모델의 경우 탐색 시간을 며칠에서 몇 시간으로 단축).

3. 주요 기여 (Key Contributions)

새로운 통찰: MLLM 에서 MoE 스킵 시 '레이어별 기여도 불균형'과 '모달리티 간 차이'가 핵심 요소임을 최초로 규명했습니다.
MoDES 프레임워크: 훈련 없이 적용 가능하며, GMLG 와 DMT 를 통해 MLLM 에 최적화된 동적 전문가 스킵을 가능하게 하는 최초의 프레임워크입니다.
효율적인 최적화: 프론티어 탐색 알고리즘을 통해 대규모 모델에서도 실시간에 가까운 속도로 최적의 스킵 전략을 도출합니다.
광범위한 검증: 3 개의 MoE MLLM 시리즈 (Kimi-VL, Qwen3-VL-MoE, InternVL) 와 13 개의 벤치마크에서 기존 SOTA 방법들을 압도하는 성능을 입증했습니다.

4. 실험 결과 (Results)

성능 향상:
- Qwen3-VL-MoE-30B-A3B-Instruct 모델에서 88% 의 전문가를 스킵했을 때, 기존 방법들은 10% 이상 성능이 하락한 반면, MoDES 는 97.33% 의 원래 성능을 유지하며 기존 방법 대비 10.67% 더 높은 성능을 기록했습니다.
- Kimi-VL-A3B-Instruct 모델에서도 83% 스킵 시 기존 방법 대비 7.93~10.67% 의 성능 향상을 보였습니다.
추론 속도 개선:
- Prefill 단계: 약 2.16 배 가속화.
- Decoding 단계: 약 1.26 배 가속화.
양자화와의 호환성: MoDES 는 모델 양자화 (Quantization) 와 결합 시에도 기존 방법 (MC-MoE 등) 보다 성능 저하가 훨씬 적게 발생하여 높은 호환성을 입증했습니다.

5. 의의 및 결론 (Significance)

MoDES 는 MoE 기반의 멀티모달 모델이 직면한 계산 병목 현상을 해결하는 획기적인 솔루션입니다. 단순히 파라미터를 줄이는 것을 넘어, 데이터의 모달리티와 모델 레이어의 구조적 특성을 정교하게 분석하여 불필요한 연산을 제거함으로써, 성능을 희생하지 않으면서도 추론 속도를 획기적으로 개선했습니다. 이는 고해상도 이미지 및 긴 영상 처리가 필요한 차세대 멀티모달 AI 시스템의 실용화와 배포를 가속화할 것으로 기대됩니다.

MoDES: Accelerating Mixture-of-Experts Multimodal Large Language Models via Dynamic Expert Skipping