Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

Each language version is independently generated for its own context, not a direct translation.

🍳 1. 문제: "요리 레시피를 섞으면 맛이 망가질까?"

지금까지 AI 모델을 합치는 방식은 마치 서로 다른 요리사의 레시피를 단순히 반반씩 섞는 것과 비슷했습니다.

기존 방법 (유클리드 평균): "A 요리사는 소금을 10g, B 요리사는 20g 넣었으니, 합치면 15g 넣자!"라고 단순히 숫자를 평균냅니다.
문제점: 하지만 AI 는 숫자만 섞는 게 아니라, 그 숫자들이 만들어내는 **'맛 (기능)'**이 중요합니다. 서로 다른 전문가 (예: 수학 전문가, 문학 전문가, 코딩 전문가) 들을 무작정 섞으면, AI 가 혼란을 느껴 **"무슨 말인지 모르겠다"**거나 "기억력이 떨어지는" 현상이 발생합니다. 이를 논문에서는 **'표현의 붕괴 (Collapse)'**라고 부릅니다.

🧭 2. 해결책: "지구의 곡선을 따라 걷자"

이 논문은 **"단순히 직선으로 섞지 말고, 지구의 곡면을 따라 걷는 방식"**을 제안합니다.

비유: 지구 위의 여행
- 기존 방법 (직선): 서울과 뉴욕을 직선으로 잇는다고 가정해 보세요. 지구는 둥글기 때문에 직선으로 가려면 지하를 뚫고 가야 하거나, 실제로는 엉뚱한 곳으로 가게 됩니다. (AI 가 망가짐)
- 새로운 방법 (기하학/피셔 - 라오): 지구는 둥글기 때문에, 두 도시 사이를 이동할 때는 **지구의 곡면을 따라 가장 짧은 길 (대원)**을 따라가야 합니다.
- 이 논문은 AI 모델들을 '지구의 곡면' 위에 있다고 보고, 여러 전문가들의 위치를 가장 자연스러운 곡선 경로로 이어 합치는 방법을 개발했습니다.

🎯 3. 핵심 아이디어: "가장 맛있는 요리를 찾아서"

논문은 이 새로운 방법을 **'카르셔 평균 (Karcher Mean)'**이라는 수학 용어로 설명합니다. 쉽게 말해 **"여러 전문가의 의견을 종합했을 때, 가장 균형 잡히고 맛있는 요리를 만드는 지점"**을 찾는 것입니다.

기존 방식: 단순히 숫자를 더하고 나누는 것.
이 방식: "이 전문가의 지식과 저 전문가의 지식이 만났을 때, AI 가 가장 자연스럽게 이해할 수 있는 중간 지점"을 찾아냅니다.
효과: 이렇게 하면 AI 가 혼란스러워하지 않고, 각 전문가의 능력을 잃지 않은 채 하나로 통합됩니다.

📊 4. 실험 결과: "혼자서는 못했던 일도 함께는 잘한다"

연구진은 이 방법을 테스트해 보았습니다.

상황: 2 개의 모델을 합치는 것은 기존 방법도 잘했지만, 5 개, 10 개 이상의 다양한 전문가 모델을 합칠 때 기존 방법들은 완전히 망가졌습니다 (점수가 뚝 떨어짐).
결과: 하지만 이 새로운 방법 (KARCHER) 은 모델이 10 개가 되어도 안정적으로 좋은 점수를 유지했습니다. 마치 10 명의 요리사가 한 팀이 되어도 서로의 재료를 잘 섞어 더 맛있는 요리를 만드는 것과 같습니다.

💡 5. 요약: 왜 이 논문이 중요할까요?

단순한 합계가 아님: AI 를 합칠 때 단순히 숫자를 섞지 않고, AI 가 '무엇을 어떻게 생각할지' (기능) 를 고려합니다.
대량 병합 가능: 2 개만 합치는 게 아니라, 수십 개의 다양한 AI 를 합쳐도 성능이 떨어지지 않습니다.
붕괴 방지: AI 가 합쳐질 때 기억력이나 사고력이 사라지는 현상 (붕괴) 을 막아줍니다.

한 줄 요약:

"서로 다른 AI 전문가들을 단순히 섞는 게 아니라, 그들의 지식이 자연스럽게 공존할 수 있는 **'최적의 중간 지점'**을 찾아 하나로 합치는, 더 똑똑하고 안전한 AI 통합 방법입니다."

Each language version is independently generated for its own context, not a direct translation.

1. 문제 정의 (Problem Statement)

대규모 언어 모델 (LLM) 의 병합 (Merging) 은 추가적인 학습 없이 여러 파인튜닝된 모델을 하나의 모델로 통합하여 다양한 기능을 결합하는 것을 목표로 합니다. 그러나 기존 방법론들은 다음과 같은 근본적인 한계를 가지고 있습니다.

유클리드 공간의 휴리스틱 의존성: 기존 방법 (선형 평균, 태스크 벡터 등) 은 모델 파라미터 공간을 유클리드 공간으로 간주하여 단순한 평균을 계산합니다. 그러나 모델의 목표는 파라미터가 아닌 '기능 (예측 행동)'을 병합하는 것이므로, 이는 기능적 불일치를 초래합니다.
표현 붕괴 (Representation Collapse): 소스 모델들이 서로 멀리 떨어져 있거나 이질적일 때, 유클리드 공간에서의 선형 병합은 활성화 분산의 축소 (variance shrinkage) 와 유효 차원의 저하 (rank degradation) 를 유발합니다. 이는 모델의 정확도를 급격히 떨어뜨립니다.
확장성 부족: 많은 기하학적 방법 (예: SLERP) 은 두 모델 간의 보간에는 효과적이지만, $N > 2$ 개의 전문가 모델을 병합할 때 원칙적인 목적 함수를 통해 확장하기 어렵습니다.

2. 제안 방법론 (Methodology)

저자들은 모델 병합을 Fisher-Rao 다양체 (Manifold) 상의 (가중) 카르셔 (Karcher) 또는 프레체 (Fréchet) 평균 계산 문제로 재정의했습니다.

핵심 아이디어

기능적 거리 최소화: 모델 간의 거리를 파라미터 공간의 유클리드 거리가 아닌, 예측 분포 간의 KL 발산 (KL divergence) 기반의 함수적 거리로 정의합니다. Fisher-Rao 계량 (Metric) 은 파라미터 공간의 기하학과 분포 공간의 발산을 연결합니다.
$d^2_{FR}(\theta, \theta') \approx 2 KL(p_\theta \parallel p_{\theta'})$
카르셔 평균 (Karcher Mean): 주어진 $N$ 개의 전문가 모델 $\{\theta^{(i)}\}$ 에 대해, Fisher-Rao 다양체 상에서 모든 모델과의 지오데식 (geodesic) 거리의 제곱 합을 최소화하는 점 $\theta^*$ 를 찾습니다.
$\theta^* := \arg \min_{\theta} \sum_{i=1}^{N} \alpha^{(i)} d^2_{FR}(\theta, \theta^{(i)})$
이는 기대 KL 거리를 최소화하여 예측 분포가 모든 전문가 모델과 잘 정렬되도록 합니다.

실용적 알고리즘: 구면 프록시 (Spherical Proxy)

현대 LLM 에서 정확한 Fisher-Rao 로그/지수 맵을 계산하는 것은 불가능하므로, 다음과 같은 경량화된 근사법을 사용합니다.

구면 처리 (Spherical Projection): 각 파라미터 블록을 벡터로 간주하여 단위 구면 ( $S^{d-1}$ ) 으로 정규화합니다.
구면 카르셔 평균 계산: 구면 위의 닫힌 형식 (closed-form) 로그/지수 맵을 사용하여 방향성 바리센터 (directional barycenter) 를 계산합니다. 이는 2 모델 병합 시 SLERP 와 동일하게 작동하며, $N$ 개 모델로 자연스럽게 확장됩니다.
노름 보존 (Norm Preservation): 계산된 평균 벡터를 소스 모델들의 대표 노름 (예: 평균 노름) 으로 다시 스케일링합니다. 이는 유클리드 평균에서 발생하는 노름 축소 문제를 해결합니다.
피셔 가중치 (선택적): Fisher 정보 행렬의 대각 추정치를 사용하여 민감한 하위 공간에서의 파괴적 간섭을 줄이는 자연 경사 (natural gradient) 스타일의 전처리를 적용할 수 있습니다.

3. 주요 기여 (Key Contributions)

새로운 공식화: 모델 병합을 유클리드 평균이 아닌 Fisher-Rao 다양체 상의 카르셔 평균 계산 문제로 공식화하여, KL 기반의 기능적 거리를 직접적으로 최소화합니다.
확장 가능한 알고리즘: 2 모델 병합 (SLERP) 에서 $N > 2$ 모델 병합까지 확장 가능한 고정점 반복 알고리즘을 유도했습니다. 이 알고리즘은 경량화되어 있으며 튜닝이 거의 필요 없습니다.
실험적 검증: 병합 모델의 수와 이질성이 증가하는 상황에서도 기존 방법들보다 안정적이며, 표현 붕괴 (variance/rank collapse) 를 효과적으로 완화함을 입증했습니다.

4. 실험 결과 (Results)

저자들은 Qwen2.5 계열 모델을 기반으로 다양한 벤치마크 (HellaSwag, BBH, MMLU-Pro, MuSR, GPQA-Diamond) 에서 실험을 수행했습니다.

성능 비교 (m=2 및 m=5):
- 제안된 KARCHER 방법은 2 모델 병합 시 기존 최상위 방법 (LERP, SLERP, TIES 등) 보다 평균 성능이 높았습니다.
- 특히 5 개 모델 병합 시 기존 방법들은 성능이 급격히 떨어지는 (collapse) 반면, KARCHER 는 성능을 유지하거나 오히려 향상시켰습니다 (Avg 0.610 vs baselines ~~0.24~~0.55).
확장성 (Scalability):
- 병합 모델 수 ( $m$ ) 가 2 에서 11 로 증가함에 따라, 기존 유클리드 기반 방법들 (LERP, TIES 등) 은 $m \approx 5$ 부근에서 성능이 붕괴되었습니다.
- 반면 KARCHER 는 $m=11$ 까지 안정적인 성능을 유지하며, 모델 간 거리가 멀어질수록 그 이점이 더 커지는 것을 확인했습니다.
붕괴 진단 (Collapse Diagnostics):
- 활성화 분산 (Activation Variance) 및 유효 랭크 (EffRank): 선형 병합 (LERP, TIES) 은 중층 (mid-to-deep layers) 에서 활성화 분산과 유효 랭크가 급격히 감소하는 붕괴 현상을 보인 반면, KARCHER 는 원본 모델에 가까운 높은 분산과 랭크를 유지했습니다. 이는 모델이 저차원 영역으로 수렴하는 것을 방지함을 의미합니다.
모델 스케일: 135M, 360M, 1.7B 등 다양한 크기의 모델에서도 일관되게 우수한 성능을 보였습니다.

5. 의의 및 결론 (Significance & Conclusion)

이 논문은 모델 병합 분야에서 **파라미터 공간의 기하학적 구조 (Fisher-Rao 다양체)**를 고려한 첫 번째 체계적인 접근 중 하나입니다.

이론적 통찰: 모델 병합이 단순히 가중치를 평균내는 것이 아니라, 예측 분포 간의 기하학적 거리를 최소화하는 과정임을 명확히 했습니다.
실용적 가치: 복잡한 Fisher 정보 행렬을 정확히 계산하지 않고도, 구면 프록시를 통해 고품질의 병합 모델을 생성할 수 있는 실용적인 알고리즘을 제시했습니다.
미래 방향: 특히 이질적인 모델들을 많이 병합해야 하는 상황 (예: 여러 도메인의 전문가 모델 통합) 에서 기존 방법의 한계를 극복하고, 표현 붕괴 없이 안정적인 통합 모델을 구축할 수 있는 길을 열었습니다.

결론적으로, KARCHER는 유클리드 공간의 단순한 선형 결합을 넘어, 모델의 기능적 유사성과 기하학적 구조를 보존하는 새로운 병합 패러다임을 제시합니다.

Functionality-Oriented LLM Merging on the Fisher--Rao Manifold

🍳 1. 문제: "요리 레시피를 섞으면 맛이 망가질까?"

🧭 2. 해결책: "지구의 곡선을 따라 걷자"

🎯 3. 핵심 아이디어: "가장 맛있는 요리를 찾아서"

📊 4. 실험 결과: "혼자서는 못했던 일도 함께는 잘한다"

💡 5. 요약: 왜 이 논문이 중요할까요?

1. 문제 정의 (Problem Statement)

2. 제안 방법론 (Methodology)

핵심 아이디어

실용적 알고리즘: 구면 프록시 (Spherical Proxy)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Comparison of Outlier Detection Algorithms on String Data

Structure-Aware Epistemic Uncertainty Quantification for Neural Operator PDE Surrogates

Interventional Time Series Priors for Causal Foundation Models

Fingerprinting Concepts in Data Streams with Supervised and Unsupervised Meta-Information

Graph Tokenization for Bridging Graphs and Transformers