OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "각자 잘하는 일만 하는 전문가들"

지금까지 AI 모델은 만드는 데 엄청난 시간과 돈이 들었습니다. 그래서 한 번 만들어진 모델은 잘 고쳐 쓰지 않고, 새로운 일을 배우려면 아예 처음부터 다시 훈련시키는 경우가 많았습니다.

하지만 요즘은 각자 다른 분야에서 뛰어난 실력을 가진 '전문가 AI'들이 쏟아져 나옵니다.

A 모델: 그림을 보고 질문에 답하는 데 천재 (VQA)
B 모델: 수학 기하 문제를 푸는 데 명수 (Geometry)
C 모델: 문서 속 글자를 읽어내는 데 특화 (OCR)

이들 각각은 훌륭하지만, A 모델에게 수학 문제를 내면 못 풀고, B 모델에게 그림을 보여주면 당황합니다. 이들을 모두 따로 저장하고 실행하려면 컴퓨터 메모리와 비용이 너무 많이 듭니다.

2. 해결책: "모델 합체 (Model Merging)"

이 논문은 **"각자 다른 전문가들을 섞어서, 모든 일을 다 잘하는 한 명의 '올라운더'를 만들자"**고 제안합니다. 마치 다음과 같은 상황과 비슷합니다.

비유:
요리사 A(일식), 요리사 B(중식), 요리사 C(양식) 가 따로따로 식당을 운영한다고 합시다. 손님이 "일식, 중식, 양식을 다 먹을 수 있는 식당"을 찾으면, 세 식당을 모두 다닐 수는 없죠.

기존 방식 (혼합 훈련): 세 요리사를 한 식당에 불러모아 다시 함께 훈련시키는 것. (시간과 비용이 많이 듦)
이 논문의 방식 (모델 합체): 세 요리사의 '레시피 노트 (모델 가중치)'만 가져와서 하나로 합치는 것. 새로운 재료를 사지 않고 (데이터 없이), 기존 노트만 섞어 새로운 '슈퍼 요리사'를 탄생시킵니다.

3. 핵심 기술: OptMerge (최적의 합체 비법)

단순히 레시피를 섞으면 맛이 이상해질 수 있습니다. (예: 초콜릿과 김치 섞기) 각 모델의 지식 (파라미터) 이 서로 충돌하거나, 불필요한 잡음 (노이즈) 이 섞여 성능이 떨어질 수 있습니다.

저자들은 이를 해결하기 위해 OptMerge라는 새로운 방법을 개발했습니다.

잡음 제거 (소금기 제거): 각 전문가의 노트에서 '불필요한 정보'나 '서로 충돌하는 부분'을 찾아서 지워냅니다. 마치 요리할 때 불필요한 양념을 걷어내듯, 핵심 지식만 남깁니다.
조화로운 섞기 (레시피 균형): 단순히 1:1 로 섞는 게 아니라, 어떤 레시피가 더 중요한지, 어떻게 섞어야 맛이 살아나는지 수학적으로 계산하여 최적의 비율을 찾습니다.
결과: 기존에 따로 훈련시켰을 때보다 더 잘하는, 데이터 없이 만든 '완벽한 슈퍼 모델'을 만들었습니다.

4. 새로운 도전: "오만 (Omni) 모델" 만들기

이 연구는 단순히 같은 분야 (예: 이미지) 의 전문가들을 합치는 것을 넘어, 서로 다른 감각을 가진 전문가들을 합치는 시도도 했습니다.

눈 (Vision) 모델 + 귀 (Audio) 모델 + 시각 (Video) 모델을 합쳐, **눈과 귀와 영상을 동시에 이해하는 '전능한 (Omni) 모델'**을 만들었습니다.
마치 눈이 좋은 사람, 귀가 좋은 사람, 영상 감각이 좋은 사람의 능력을 하나로 합쳐, "이 영상에서 배경음악과 등장인물의 표정, 그리고 대사를 동시에 분석해줘"라는 명령을 완벽하게 수행하는 AI 를 만든 것과 같습니다.

5. 왜 이것이 중요한가요?

비용 절감: 거대한 데이터를 다시 학습시킬 필요가 없어, 시간과 전기세 (컴퓨팅 비용) 를 획기적으로 아낄 수 있습니다.
개인정보 보호: 민감한 데이터 (개인 정보 등) 를 공유하지 않아도, 각자가 가진 모델만 합치면 새로운 능력을 얻을 수 있습니다.
지속 가능한 발전: 개발자들이 각자 좋은 모델을 만들어 공유하면, 누구나 이를 합쳐 더 좋은 모델을 만들 수 있어 AI 생태계가 더 빠르게 성장합니다.

요약

이 논문은 **"각자 잘하는 AI 전문가들의 지식을, 새로운 데이터 없이도 서로 섞어 더 똑똑한 '슈퍼 AI'로 만드는 방법"**을 제시했습니다. 마치 각자 다른 재능을 가진 친구들이 모여 하나의 완벽한 팀을 이루는 것처럼, OptMerge는 AI 모델들이 서로의 능력을 보완하며 더 강력해지는 길을 보여줍니다.

이제 우리는 거대한 AI 를 처음부터 다시 가르치지 않아도, 기존에 있는 '재능'들을 잘 섞어 더 똑똑한 미래를 만들 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

기반 모델의 느린 발전 vs 도메인 특화 모델의 빠른 진화: 대규모 기반 모델 (Foundation Models) 은 훈련에 막대한 자원이 소요되어 업데이트 주기가 길지만, 특정 도메인에 맞춰 미세 조정 (Fine-tuning) 된 모델들은 지속적으로 빠르게 발전하고 있습니다.
기존 모델 병합 (Model Merging) 의 한계: 기존 연구는 주로 시각 분류 모델이나 코드/수학 작업용 LLM 병합에 집중했습니다. 그러나 멀티모달 LLM(MLLM) 의 경우, 다양한 작업 (VQA, 기하학, 차트, OCR, Grounding 등) 과 다양한 모달리티 (비전, 오디오, 비디오) 를 통합하는 벤치마크가 부재했습니다.
데이터 의존성 및 비용: 새로운 모달리티 (오디오, 비디오 등) 를 통합하려면 고품질의 멀티모달 지시 데이터 생성이 필요하며, 이는 비용이 많이 들고 자원을 소모합니다. 또한, 기존 MLLM 은 주로 이중 모달리티 (비전 - 언어) 에 특화되어 있어, 추가 모달리티를 통합하기 위해 재학습을 해야 하는 문제가 있습니다.
핵심 질문: 학습 데이터 없이 (Data-free) 여러 전문가 모델 (Expert Models) 을 병합하여 단일의 강력한 Omni-모달리티 모델을 만들 수 있는가?

2. 제안 방법 (Methodology)

이 논문은 OptMerge라는 새로운 병합 방법론과 이를 평가하기 위한 MLLM 병합 벤치마크를 제안합니다.

A. MLLM 병합 벤치마크 (Benchmark)

세분화된 작업 분류: VQA(시각 질문 응답), Geometry(기하학), Chart(차트 이해), OCR(문자 인식), Grounding(지정 표현) 등 5 가지 주요 능력을 세분화하여 평가합니다.
다양한 모델 및 학습 전략: InternVL2.5(전체 미세 조정, Full Fine-tuning) 와 Qwen2-VL(LoRA 미세 조정) 두 가지 모델을 기반으로 각 작업별 전문가 모델을 학습시켰습니다.
모달리티 통합: 비전 - 언어, 오디오 - 언어, 비디오 - 언어 모델을 병합하여 Omni-모달리티 모델을 구축하는 시나리오를 포함합니다.

B. OptMerge 알고리즘

기존의 Task Arithmetic(작업 벡터 산술) 기반 방법론의 한계를 극복하기 위해 제안된 방법입니다.

작업 벡터의 노이즈 제거 및 저랭크 근사 (Low-Rank Approximation):
- 미세 조정된 모델과 기반 모델 간의 차이인 '작업 벡터 (Task Vector, $\tau$ )'에는 불필요한 노이즈와 중복 정보가 포함되어 있습니다.
- **SVD(특이값 분해)**를 적용하여 작업 벡터의 핵심 정보 (상위 특이값) 만 추출하고 노이즈를 제거합니다.
- 특히, **Eq. (3)**에서 보듯, 입력 subspace 를 $\tau_i$ 의 전치 행렬 대신 SVD 를 통해 추출된 주요 성분 ( $U_{1:k}\Sigma_{1:k}V_{1:k}^\top$ ) 으로 대체하여 더 정확한 최적화를 수행합니다.
LoRA 및 전체 미세 조정 모델에 대한 차별화된 최적화:
- 전체 미세 조정 (Full Fine-tuning): SVD 기반의 노이즈 제거와 저랭크 근사를 적용하여 작업 간 간섭을 줄입니다.
- LoRA 미세 조정: LoRA 의 저랭크 특성과 희소성으로 인해 옵티마이저가 평탄한 지역 (flat regions) 에 갇히거나 벡터 크기가 과도하게 커지는 문제가 발생합니다. 이를 해결하기 위해:
  - SGD 사용: Adam 대신 SGD 를 사용하여 평탄한 지역을 탈출하고 안정성을 확보합니다.
  - 초기화 전략: 병합 벡터를 작업 벡터의 평균으로 초기화하여 과도한 크기 증가를 방지합니다.
  - 직접적인 저랭크 근사: 중심화 (centering) 없이 직접 SVD 를 적용하여 노름 (Norm) 을 줄입니다.
이론적 기반:
- 학습률 ( $\eta$ ) 과 반복 횟수 ( $T$ ) 가 병합 성능에 미치는 영향을 이론적으로 분석했습니다. 과도한 미세 조정 (Convergence) 은 파라미터 드리프트를 유발하여 병합 성능을 저하시킬 수 있음을 증명했습니다.

3. 주요 기여 (Key Contributions)

최초의 MLLM 병합 벤치마크: MLLM 의 능력을 세분화하고, 다양한 모달리티 통합을 평가할 수 있는 포괄적인 벤치마크를 구축하고 오픈소스화했습니다.
OptMerge 방법론 제안: 작업 벡터에서 노이즈를 제거하고, SVD 와 SGD 기반의 최적화를 통해 병합 벡터의 강건성을 높인 새로운 알고리즘을 제안했습니다.
데이터 없는 (Data-free) Omni-모델 구축: 학습 데이터 없이도 여러 모달리티와 능력을 통합하여, 개별 전문가 모델이나 혼합 데이터 학습 (Mixture Training) 보다 우수한 성능을 달성함을 입증했습니다.

4. 실험 결과 (Results)

성능 향상:
- Capabilty Merging: OptMerge 는 InternVL2.5 와 Qwen2-VL 에서 평균 **2.48%**의 성능 향상을 보였습니다.
- 혼합 학습 (Mixture Training) 대비 우위: 병합된 모델은 별도의 혼합 데이터로 학습한 모델 (Mixture Training) 과 유사하거나 더 나은 성능을 보였습니다. 예를 들어, Qwen2-VL 기반 병합 모델은 Geometry(40.79 vs 28.95) 와 Chart(74.08 vs 61.08) 작업에서 개별 전문가 모델보다 월등히 높은 점수를 기록했습니다.
- 일반화 능력: MMMU, DocVQA 등 여러 능력을 요구하는 통합 벤치마크에서 단일 능력 모델 대비 평균 **10.85%**의 향상된 성능을 보였습니다.
모달리티 통합 (Modality Merging):
- 비전, 오디오, 비디오 모델을 병합한 결과, 개별 모달리티 모델이나 온라인 조합 (Online Composing) 방식보다 우수한 성능을 보여주어 모달리티 간 상호 보완성을 입증했습니다.
실제 Hugging Face 체크포인트 적용:
- 실제 커뮤니티에서 공개된 다양한 도메인 특화 모델 (수학 추론, 포켓몬, PDF 변환, OCR 등) 을 병합하여 OptMerge 가 실제 환경에서도 효과적임을 확인했습니다.
계산 효율성:
- 데이터 기반 혼합 학습에 비해 GPU 메모리 사용량이 10 배 이상 적고, 해결 시간 (Solving Time) 이 10 배 이상 단축되었습니다. (예: Qwen2-VL-7B 의 경우 25.38h vs 3.78h)

5. 의의 및 결론 (Significance)

MLLM 개발의 새로운 패러다임: 고비용의 대규모 데이터 재학습 없이, 기존에 공개된 다양한 전문가 모델들을 병합하여 고성능 Omni-모델을 구축할 수 있는 확장 가능한 경로를 제시했습니다.
모달리티의 상호 보완성 증명: 서로 다른 모달리티 (비전, 오디오, 비디오) 를 가진 모델들을 병합함으로써, 단일 모달리티 모델이 가지지 못한 통합적 이해 능력을 획득할 수 있음을 보여주었습니다.
지속 가능성: 모델 병합을 통해 저장 공간과 서빙 비용을 절감하고, 데이터 프라이버시를 보호하면서도 분산 개발을 지원할 수 있습니다.

이 논문은 모델 병합 기술이 MLLM 의 진화에서 핵심적인 역할을 할 수 있음을 이론적, 실험적으로 입증하며, 향후 데이터 효율적이고 비용 절감형 멀티모달 AI 개발의 방향성을 제시합니다.

OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

1. 문제 상황: "각자 잘하는 일만 하는 전문가들"

2. 해결책: "모델 합체 (Model Merging)"

3. 핵심 기술: OptMerge (최적의 합체 비법)

4. 새로운 도전: "오만 (Omni) 모델" 만들기

5. 왜 이것이 중요한가요?

요약

1. 문제 정의 (Problem Statement)

2. 제안 방법 (Methodology)

A. MLLM 병합 벤치마크 (Benchmark)

B. OptMerge 알고리즘

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Interpretable Tau-PET Synthesis from Multimodal T1-Weighted and FLAIR MRI Using Partial Information Decomposition Guided Disentangled Quantized Half-UNet

SUPERGLASSES: Benchmarking Vision Language Models as Intelligent Agents for AI Smart Glasses

MultiModalPFN: Extending Prior-Data Fitted Networks for Multimodal Tabular Learning

"Don't Do That!": Guiding Embodied Systems through Large Language Model-based Constraint Generation

OpenGLT: A Comprehensive Benchmark of Graph Neural Networks for Graph-Level Tasks