MARS: Harmonizing Multimodal Convergence via Adaptive Rank Search

이 논문은 멀티모달 대형 언어 모델의 미세 조정 시 모달리티 간 불균형한 학습 동역학을 해결하고 최적의 성능을 달성하기 위해, 이중 스케일링 법칙을 활용한 적응적 랭크 탐색 프레임워크인 MARS 를 제안합니다.

Minkyoung Cho, Insu Jang, Shuowei Jin, Zesen Zhao, Adityan Jothi, Ethem F. Can, Min-Hung Chen, Z. Morley Mao

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

MARS: Multimodal 대언어 모델의 '조화로운 춤'을 위한 지능형 리허설

이 논문은 MARS라는 새로운 방법을 소개합니다. MARS 는 "Multimodal Adaptive Rank Search(멀티모달 적응형 랭크 탐색)"의 약자로, 복잡한 인공지능 모델 (MLLM) 을 훈련시킬 때 발생하는 문제를 해결해 줍니다.

이 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 문제 상황: "서로 다른 템포로 뛰는 두 명의 마라톤 선수"

상상해 보세요. **시각 (눈)**을 담당하는 선수와 **언어 (입)**를 담당하는 선수가 한 팀이 되어 마라톤을 뛰고 있습니다. 이 두 선수는 함께 훈련을 해야 최고의 성적을 낼 수 있습니다.

  • 기존 방식의 문제점: 보통은 두 선수에게 똑같은 훈련 강도 (LoRA 랭크) 를 주고, "너는 조금 더 빨리 뛰고, 너는 조금 더 천천히 뛰라"고 **학습률 (Learning Rate)**만 조정했습니다.
    • 하지만 이는 마치 "발이 빠른 선수에게 신발을 벗게 하거나, 느린 선수에게 무거운 가방을 메게 하는" 것과 비슷합니다.
    • 결과: 한쪽이 너무 빨리 달리고 다른 쪽이 뒤처지면, 팀 전체의 속도는 느린 선수에 의해 결정됩니다. 더 나쁜 경우, 빠른 선수가 지쳐서 넘어지거나 (과적합), 느린 선수가 따라오지 못해 팀이 흩어지는 (수렴 불균형) 문제가 발생합니다.

2. MARS 의 해결책: "각자의 체력에 맞는 최적의 신발을 찾아주는 스마트 코치"

MARS 는 단순히 "빨리 뛰라/느리게 뛰라"고 지시하는 대신, **각 선수에게 가장 잘 맞는 '신발 크기 (랭크)'**를 자동으로 찾아줍니다.

  • 핵심 아이디어: 학습 속도 (학습률) 를 조절하는 것보다, **훈련할 수 있는 능력 (랭크)**을 조절하는 것이 더 근본적인 해결책입니다.
    • 눈이 빠른 선수에게는 조금 더 작은 신발 (적은 랭크) 을 신겨서 안정적으로 뛰게 하고,
    • 언어가 느린 선수에게는 더 큰 신발 (많은 랭크) 을 신겨서 힘을 실어줍니다.
    • 이렇게 하면 두 선수의 달리는 속도가 딱 맞춰져서 (수렴 시간 균형) 함께 최적의 지점에 도달할 수 있습니다.

3. MARS 가 어떻게 작동하나요? "예측 지도"를 이용한 지능형 탐색

그런데 신발 크기를 하나하나 다 맞춰보려면 (모든 조합을 시도해 보면) 시간이 너무 오래 걸립니다. MARS 는 이를 해결하기 위해 **'두 가지 예측 법칙 (Dual Scaling Laws)'**을 사용합니다.

① 첫 번째 법칙: "얼마나 걸릴까?" (수렴 법칙 - Scaling Law-C)

  • 비유: "이 신발 크기를 신으면, 이 코스를 완주하는 데 몇 시간이 걸릴까?"를 예측합니다.
  • 역할: 시각 선수와 언어 선수의 달리는 속도가 비슷해지도록 신발 크기를 먼저 조정합니다. 한쪽이 너무 앞서거나 뒤처지지 않는 '균형 잡힌 후보군'만 남깁니다.

② 두 번째 법칙: "누가 가장 잘할까?" (성능 법칙 - Scaling Law-P)

  • 비유: "속도가 딱 맞는 신발들 중에서, 누가 가장 좋은 기록을 낼까?"를 예측합니다.
  • 역할: 앞서 균형이 맞춰진 후보들 중에서 최고의 성적을 낼 수 있는 신발 조합을 최종 선택합니다.

4. 왜 이것이 중요한가요?

  • 시간 절약: 기존의 방식은 수많은 조합을 직접 훈련시켜 보며 실패와 성공을 반복해야 했지만 (100 시간 이상), MARS 는 11.5 배 이상 빠른 시간에 최적의 조합을 찾아냅니다.
  • 성능 향상: 두 선수의 템포가 맞춰지면, 팀 전체의 기록 (정확도) 이 크게 향상됩니다. 논문에서는 과학 퀴즈 (ScienceQA) 에서 정확도가 12% 이상 향상되었고, 언어 이해도 (Perplexity) 가 크게 개선되었다고 합니다.
  • 자동화: 사람이 일일이 "이건 빨라, 저건 느려"라고 수동으로 조정할 필요가 없어졌습니다.

5. 요약: MARS 의 핵심 메시지

MARS 는 **"모든 것을 똑같이 훈련시키는 것은 비효율적이다"**라고 말합니다. 대신, 각 부분 (눈과 언어) 의 특성을 분석하여, 서로의 속도가 딱 맞도록 '훈련 능력 (랭크)'을 자동으로 조절합니다.

마치 오케스트라에서 바이올린과 트럼펫의 소리가 어색하지 않게 조율하는 지휘자처럼, MARS 는 인공지능 모델의 각 부분이 서로 조화롭게 발전하도록 도와주는 스마트한 조율사 역할을 합니다.

이 방법을 통해 우리는 더 빠르고, 더 똑똑하며, 더 안정적인 인공지능을 만들 수 있게 되었습니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →