Each language version is independently generated for its own context, not a direct translation.

MERGETUNE: "잊어버린 지식을 되찾는 마법"

이 논문은 인공지능, 특히 이미지와 텍스트를 함께 이해하는 AI(비전 - 언어 모델) 가 새로운 일을 배우다가 원래 가지고 있던 지식을 잊어버리는 문제를 해결하는 새로운 방법을 소개합니다.

이 복잡한 기술을 누구나 이해할 수 있도록 요리사와 레시피에 비유해서 설명해 드릴게요.

1. 문제 상황: "전문 요리사가 된 AI 가 기본 레시피를 잊어버리다"

상상해 보세요. CLIP이라는 AI 는 인터넷에 있는 수억 장의 사진과 설명을 공부해서 만든 천재 요리사입니다. 이 요리사는 어떤 재료든 보고 "이건 토마토야", "이건 고양이야"라고 아주 정확하게 맞힐 수 있죠. (이를 Zero-shot, 즉 사전 학습된 상태라고 합니다.)

하지만 이 천재 요리사에게 "이제부터는 고양이 사진만 구별하는 대회에 나가서 우승해!"라고 시키면 어떨까요?

**기존 방법 **(Fine-tuning) 요리사는 고양이 대회에서 이기기 위해 새로운 레시피를 열심히 외웁니다.
문제점: 고양이 레시피를 너무 열심히 외우느라, 원래 알던 **수천 가지 다른 재료 **(토마토, 자동차, 꽃 등)를 잊어버리게 됩니다. 이를 **'재앙적 망각 **(Catastrophic Forgetting)이라고 합니다.

기존 연구들은 "잊지 않게 조심하라"는 방법을 많이 냈지만, 완벽하지는 않았습니다.

2. 새로운 해결책: MERGETUNE (계속해서 다듬기)

저자들은 "이미 잊어버렸다면, 다시 기억나게 하면 되지 않나?"라고 생각했습니다. 그래서 MERGETUNE이라는 새로운 방법을 제안했습니다.

🍳 비유: "두 명의 요리사를 하나로 합치는 마법"

MERGETUNE 은 다음과 같은 과정을 거칩니다.

준비:
- **A 요리사 **(Zero-shot) 원래의 천재 요리사 (CLIP). 모든 걸 잘 알지만, 고양이 대회에서는 1 등 못 할 수도 있음.
- **B 요리사 **(Fine-tuned) 고양이 대회에서 1 등 한 요리사. 고양이는 잘 보지만, 다른 건 못 봄.
목표: A 와 B 의 장점을 모두 가진 C 요리사를 만드는 것.
**방법 **(MERGETUNE)
- 단순히 A 와 B 를 섞는 것만으로는 안 됩니다. (두 요리사의 생각 방식이 너무 달라서 섞으면 둘 다 망가질 수 있음)
- 대신, C 요리사를 훈련시켜서 A 와 연결된 길과 B 와 연결된 길이 모두 매끄럽고 안전한 길이 되도록 만듭니다.
- 수학적으로는 **손실 함수 **(Loss Landscape)라는 지형도에서, A 와 B 사이를 잇는 **낮은 고개 **(Low-loss path)를 찾아서 그 고개에 C 요리사를 세우는 것입니다.

3. 핵심 기술: "기억을 되찾는 길 찾기"

이 과정에서 가장 어려운 점은 **A 요리사 **(원래 천재)입니다. 인터넷 전체 데이터를 다시 공부할 수는 없으니까요.

MERGETUNE 의 지혜: 데이터를 다시 볼 필요 없이, **수학적 추측 **(2 차 근사)을 사용합니다.
- "원래 천재 요리사 (A) 는 이미 완벽하니까, 그 위치에서 조금만 벗어나도 실력이 떨어질 거야. 그러니 A 에서 너무 멀어지지 않게 잡아주면 되겠지?"
- 이렇게 A 에 가깝게 유지하는 규칙과 B 와 연결된 안전한 길을 동시에 찾으면, C 요리사는 고양이도 잘 보고, 원래 지식도 잊지 않는 완벽한 요리사가 됩니다.

4. 왜 이것이 특별한가?

기존 방법과의 차이:
- 기존 방법: "잊지 않게 조심해" (예방 위주).
- MERGETUNE: "이미 잊었어도 다시 기억나게 해" (치료 및 회복 위주).
효과:
- 새로운 데이터 (고양이) 에 대한 성능은 유지하면서, 원래 지식 (다른 물건) 을 되찾았습니다.
- 기존에 "고양이 대회 1 등"이었던 AI 가, MERGETUNE 을 적용하면 다른 대회에서도 CLIP(원래 천재) 보다 더 잘하는 경우가 생겼습니다!
- 별도의 복잡한 구조 변경 없이, 이미 훈련된 모델에 **추가 훈련 **(Continued Fine-tuning)만 해주면 됩니다.

5. 요약: 한 줄로 정리하면?

MERGETUNE은 새로운 일을 배우다가 원래 지식을 잃어버린 AI 에게, "원래의 천재성과 새로운 실력을 동시에 가진 안전한 길을 찾아주어, 잊어버린 지식을 되찾게 하는 마법"입니다.

이 방법은 AI 가 특정 일에 특화될 때 잃어버리는 일반적인 지능을 되살려주어, AI 가 더 유연하고 똑똑하게 작동하도록 도와줍니다.

Each language version is independently generated for its own context, not a direct translation.

MERGETUNE: 비전 - 언어 모델의 지속적 미세 조정 (Continued Fine-Tuning) 에 대한 기술 요약

이 논문은 ICLR 2026 에 발표된 **'MERGETUNE: CONTINUED FINE-TUNING OF VISION-LANGUAGE MODELS'**로, 사전 훈련된 비전 - 언어 모델 (VLM, 예: CLIP) 을 하위 작업에 적응시키는 과정에서 발생하는 치명적인 망각 (Catastrophic Forgetting) 문제를 해결하기 위한 새로운 패러다임을 제시합니다.

1. 문제 정의 (Problem)

치명적인 망각: CLIP 과 같은 VLM 은 웹 규모의 이미지 - 텍스트 쌍으로 사전 훈련되어 강력한 제로샷 (zero-shot) 일반화 능력을 갖지만, 특정 하위 작업에 맞게 미세 조정 (fine-tuning) 하면 사전 훈련된 지식이 손실되는 '치명적인 망각'이 발생합니다.
기존 방법의 한계:
- PEFT (파라미터 효율적 미세 조정): 프롬프트 학습 (CoOp 등) 이나 어댑터 (Adapter) 를 사용하여 파라미터 수를 줄이지만, 여전히 사전 지식을 완전히 보존하지 못하며, 모든 데이터셋에서 CLIP 보다 뛰어난 성능을 내지 못하는 경우가 많습니다.
- 모델 앙상블 (Ensembling): 사전 훈련 모델과 미세 조정된 모델을 가중치 공간이나 예측 공간에서 결합하는 방법 (예: Wise-FT, VRF) 은 망각을 완화하려 하지만, 두 모델이 가중치 공간에서 너무 멀리 떨어져 있어 (weight-space gap) 선형 보간 시 성능이 불안정해지거나, 추론 비용이 증가하는 문제가 있습니다.
핵심 질문: 미세 조정이 완료된 후에 망각된 지식을 어떻게 복원할 수 있을까요?

2. 제안 방법: MERGETUNE (Methodology)

저자들은 **지속적 미세 조정 (Continued Fine-Tuning, CFT)**이라는 새로운 패러다임을 제안하며, 이를 구현하기 위해 MERGETUNE 알고리즘을 개발했습니다.

2.1 핵심 아이디어: 선형 모드 연결성 (Linear Mode Connectivity, LMC)

개념: 두 개의 서로 다른 모델 (제로샷 모델 $\hat{w}_1$ 과 미세 조정 모델 $\hat{w}_2$ ) 이 손실 함수의 낮은 경로 (low-loss path) 로 연결되어 있다면, 이 두 모델을 결합하여 새로운 모델 $w$ 를 찾을 수 있습니다.
목표: 미세 조정된 모델에서 시작하여, 제로샷 모델과 미세 조정 모델 모두로 향하는 두 개의 낮은 손실 경로를 가진 새로운 '지속된 모델 (continued model)' $w$ 를 탐색합니다. 이를 통해 사전 훈련 지식을 복원하면서도 하위 작업 적응 능력을 유지합니다.

2.2 알고리즘 및 손실 함수

MERGETUNE 은 기존 미세 조정 모델의 학습 가능한 파라미터 (소프트 프롬프트, 어댑터, 선형 헤드 등) 를 추가로 업데이트합니다. 목적 함수는 다음과 같습니다:

$\mathcal{L}(w) = \mathcal{L}_2(w) + \lambda \|w - \hat{w}_1\|^2 + \beta \mathbb{E}_{\alpha} [\mathcal{L}_2(\hat{w}_2 + \alpha(w - \hat{w}_2))]$

$\mathcal{L}_2(w)$ (하위 작업 손실): 현재 미세 조정된 모델 $w$ 가 하위 작업 (Task 2) 에서 잘 수행하도록 합니다.
$\lambda \|w - \hat{w}_1\|^2$ (2 차 서브레이트 손실):
- 문제: 원래 LMC 제약 조건은 제로샷 모델 ( $\hat{w}_1$ ) 을 훈련시킨 대량의 데이터 (예: CLIP 의 웹 코퍼스) 를 재생성 (replay) 해야 하므로 비현실적입니다.
- 해결: 2 차 테일러 전개 (Taylor expansion) 를 사용하여 제로샷 모델과의 거리를 근사하는 **2 차 서브레이트 (second-order surrogate)**를 도입했습니다. 이는 제로샷 모델에 가깝게 유지되도록 정규화 역할을 하며, 대규모 데이터 재생성 없이 사전 지식을 보존합니다.
$\beta \mathbb{E}_{\alpha} [\dots]$ (LMC 손실):
- $w$ 와 미세 조정 모델 $\hat{w}_2$ 사이의 선형 보간 경로 ( $\alpha \in [0, 1]$ ) 에서의 손실을 최소화합니다. 이는 두 모델이 손실 지형 (loss landscape) 상에서 연결되어 있음을 보장합니다.

2.3 특징

모델 중립성 (Model-agnostic): 어떤 미세 조정 방법 (CoOp, KgCoOp, MMA 등) 에도 적용 가능하며, 아키텍처 변경 없이 사후 (post hoc) 적용 가능합니다.
데이터 재생성 불필요: 2 차 서브레이트 기법으로 인해 사전 훈련 데이터가 없어도 작동합니다.

3. 주요 기여 (Key Contributions)

지속적 미세 조정 (CFT) 패러다임 제안: 미세 조정 중 망각을 막는 것이 아니라, 이미 망각이 일어난 후에 지식을 복원하는 새로운 접근법을 제시했습니다.
MERGETUNE 알고리즘 개발: LMC 를 학습 목표로 활용하고, 데이터 재생성 없이 작동하도록 2 차 서브레이트를 도입한 학습 기반 병합 (learning-based merging) 방법을 제안했습니다.
광범위한 실험 검증: 다양한 Few-shot 및 Many-shot 시나리오에서 기존 SOTA 방법들을 능가하는 성능을 입증했습니다.

4. 실험 결과 (Results)

논문은 11 개의 다양한 데이터셋과 여러 벤치마크에서 MERGETUNE 의 효과를 검증했습니다.

Base-to-Novel 일반화 (Few-shot):
- CoOp 기반 모델의 Harmonic Mean (HM) 을 +5.6% 향상시켰습니다.
- 기존 모델 (TIES, DARE 등) 은 병합 시 성능이 저하되는 경우가 많았으나, MERGETUNE 은 모든 베이스라인에서 일관된 개선을 보였습니다. 망각이 심할수록 (예: CoOp) 개선 폭이 컸습니다.
Cross-Dataset 일반화:
- ImageNet 에서 학습된 모델을 다른 10 개 데이터셋에 직접 적용했을 때, MERGETUNE 은 모든 베이스라인에서 평균 HM 을 향상시켰으며, 특히 FGVC Aircraft, DTD 등 어려운 데이터셋에서 두드러진 성능 향상을 보였습니다.
Robust Fine-tuning (ID-OOD 일반화):
- 분포 외 (OOD) 데이터셋 (ImageNet-V2, Sketch, Adversarial 등) 에서 기존 앙상블 방법 (VRF 등) 보다 우수한 성능을 보였습니다.
- MERGETUNE 단일 모델로도 CLIP 보다 우수한 성능을 내며, 제로샷 모델과 단순 앙상블 시 SOTA 결과를 달성했습니다.
- 추론 비용 감소: VRF 와 같은 복잡한 앙상블 방법과 달리 단일 모델을 사용하므로 추론 오버헤드가 없습니다.
모델 확장성: CLIP ViT-B/16 뿐만 아니라 ViT-B/32, CLIP-L/14, Siglip2 등 다양한 백본과 아키텍처에서도 일관된 성능 향상을 보였습니다.

5. 의의 및 결론 (Significance)

MERGETUNE 은 VLM 적응 분야에서 중요한 전환점을 제시합니다.

망각의 근본적 해결: 미세 조정 과정에서 망각을 피하는 데만 집중하던 기존 접근에서 벗어나, 망각 후 지식 복원이라는 새로운 관점을 제시했습니다.
실용성: 추가 파라미터를 도입하지 않고, 기존 미세 조정 모델에 바로 적용할 수 있어 실용성이 매우 높습니다. 또한 대규모 데이터 재생성이 필요하지 않아 계산 비용과 데이터 접근성 문제를 해결했습니다.
이론적 통찰: 선형 모드 연결성 (LMC) 을 학습 목표 (objective) 로 직접 활용하여, 서로 다른 작업 (사전 훈련 vs 하위 작업) 을 가진 모델들을 효과적으로 통합하는 방법을 증명했습니다.

결론적으로 MERGETUNE 은 VLM 의 적응 과정에서 발생하는 성능 - 일반화 트레이드오프를 해결하고, 사전 훈련 지식과 하위 작업 적응 능력을 동시에 극대화하는 강력한 도구로 평가됩니다.

MERGETUNE: Continued Fine-Tuning of Vision-Language Models