OptMerge: Unifying Multimodal LLM Capabilities and Modalities via Model Merging

이 논문은 멀티모달 LLM(MLLM) 을 위한 벤치마크를 구축하고 10 가지 모델 병합 알고리즘을 평가하며, 작업 벡터의 노이즈를 제거하고 상호작용 손실을 기반으로 한 새로운 병합 방법을 제안하여 데이터 없이도 다양한 모달리티를 통합한 성능 향상된 MLLM 을 구축할 수 있음을 입증합니다.

Yongxian Wei, Runxi Cheng, Weike Jin, Enneng Yang, Li Shen, Lu Hou, Sinan Du, Chun Yuan, Xiaochun Cao, Dacheng Tao

게시일 2026-03-04
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 문제 상황: "각자 잘하는 일만 하는 전문가들"

지금까지 AI 모델은 만드는 데 엄청난 시간과 돈이 들었습니다. 그래서 한 번 만들어진 모델은 잘 고쳐 쓰지 않고, 새로운 일을 배우려면 아예 처음부터 다시 훈련시키는 경우가 많았습니다.

하지만 요즘은 각자 다른 분야에서 뛰어난 실력을 가진 '전문가 AI'들이 쏟아져 나옵니다.

  • A 모델: 그림을 보고 질문에 답하는 데 천재 (VQA)
  • B 모델: 수학 기하 문제를 푸는 데 명수 (Geometry)
  • C 모델: 문서 속 글자를 읽어내는 데 특화 (OCR)

이들 각각은 훌륭하지만, A 모델에게 수학 문제를 내면 못 풀고, B 모델에게 그림을 보여주면 당황합니다. 이들을 모두 따로 저장하고 실행하려면 컴퓨터 메모리와 비용이 너무 많이 듭니다.

2. 해결책: "모델 합체 (Model Merging)"

이 논문은 **"각자 다른 전문가들을 섞어서, 모든 일을 다 잘하는 한 명의 '올라운더'를 만들자"**고 제안합니다. 마치 다음과 같은 상황과 비슷합니다.

비유:
요리사 A(일식), 요리사 B(중식), 요리사 C(양식) 가 따로따로 식당을 운영한다고 합시다. 손님이 "일식, 중식, 양식을 다 먹을 수 있는 식당"을 찾으면, 세 식당을 모두 다닐 수는 없죠.

기존 방식 (혼합 훈련): 세 요리사를 한 식당에 불러모아 다시 함께 훈련시키는 것. (시간과 비용이 많이 듦)
이 논문의 방식 (모델 합체): 세 요리사의 '레시피 노트 (모델 가중치)'만 가져와서 하나로 합치는 것. 새로운 재료를 사지 않고 (데이터 없이), 기존 노트만 섞어 새로운 '슈퍼 요리사'를 탄생시킵니다.

3. 핵심 기술: OptMerge (최적의 합체 비법)

단순히 레시피를 섞으면 맛이 이상해질 수 있습니다. (예: 초콜릿과 김치 섞기) 각 모델의 지식 (파라미터) 이 서로 충돌하거나, 불필요한 잡음 (노이즈) 이 섞여 성능이 떨어질 수 있습니다.

저자들은 이를 해결하기 위해 OptMerge라는 새로운 방법을 개발했습니다.

  • 잡음 제거 (소금기 제거): 각 전문가의 노트에서 '불필요한 정보'나 '서로 충돌하는 부분'을 찾아서 지워냅니다. 마치 요리할 때 불필요한 양념을 걷어내듯, 핵심 지식만 남깁니다.
  • 조화로운 섞기 (레시피 균형): 단순히 1:1 로 섞는 게 아니라, 어떤 레시피가 더 중요한지, 어떻게 섞어야 맛이 살아나는지 수학적으로 계산하여 최적의 비율을 찾습니다.
  • 결과: 기존에 따로 훈련시켰을 때보다 더 잘하는, 데이터 없이 만든 '완벽한 슈퍼 모델'을 만들었습니다.

4. 새로운 도전: "오만 (Omni) 모델" 만들기

이 연구는 단순히 같은 분야 (예: 이미지) 의 전문가들을 합치는 것을 넘어, 서로 다른 감각을 가진 전문가들을 합치는 시도도 했습니다.

  • 눈 (Vision) 모델 + 귀 (Audio) 모델 + 시각 (Video) 모델을 합쳐, **눈과 귀와 영상을 동시에 이해하는 '전능한 (Omni) 모델'**을 만들었습니다.
  • 마치 눈이 좋은 사람, 귀가 좋은 사람, 영상 감각이 좋은 사람의 능력을 하나로 합쳐, "이 영상에서 배경음악과 등장인물의 표정, 그리고 대사를 동시에 분석해줘"라는 명령을 완벽하게 수행하는 AI 를 만든 것과 같습니다.

5. 왜 이것이 중요한가요?

  1. 비용 절감: 거대한 데이터를 다시 학습시킬 필요가 없어, 시간과 전기세 (컴퓨팅 비용) 를 획기적으로 아낄 수 있습니다.
  2. 개인정보 보호: 민감한 데이터 (개인 정보 등) 를 공유하지 않아도, 각자가 가진 모델만 합치면 새로운 능력을 얻을 수 있습니다.
  3. 지속 가능한 발전: 개발자들이 각자 좋은 모델을 만들어 공유하면, 누구나 이를 합쳐 더 좋은 모델을 만들 수 있어 AI 생태계가 더 빠르게 성장합니다.

요약

이 논문은 **"각자 잘하는 AI 전문가들의 지식을, 새로운 데이터 없이도 서로 섞어 더 똑똑한 '슈퍼 AI'로 만드는 방법"**을 제시했습니다. 마치 각자 다른 재능을 가진 친구들이 모여 하나의 완벽한 팀을 이루는 것처럼, OptMerge는 AI 모델들이 서로의 능력을 보완하며 더 강력해지는 길을 보여줍니다.

이제 우리는 거대한 AI 를 처음부터 다시 가르치지 않아도, 기존에 있는 '재능'들을 잘 섞어 더 똑똑한 미래를 만들 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →