Do We Really Need Permutations? Impact of Model Width on Linear Mode Connectivity

Each language version is independently generated for its own context, not a direct translation.

🍕 비유: 두 명의 요리사와 거대한 주방

상상해 보세요. **두 명의 요리사 (모델 A 와 모델 B)**가 각각 독립적으로 같은 요리를 배웠습니다. 하지만 두 사람이 사용하는 **주방 (모델의 구조)**이 너무 작고 좁다면, 두 사람이 만든 요리를 섞으려고 하면 맛이 망가집니다.

기존 연구들은 "두 요리사의 요리를 섞으려면, 주방의 모든 식기 (파라미터) 를 정확히 맞춰서 재배치해야 한다"고 했습니다. 즉, 요리사 A 의 칼을 요리사 B 의 숟가락 자리에 맞추고, A 의 냄비를 B 의 프라이팬 자리에 옮겨야만 두 요리를 섞어도 맛이 살아난다는 거죠. 이걸 **'순열 (Permutation)'**이라고 합니다.

하지만 이 논문은 **"그렇게 귀찮게 식기를 재배치할 필요 없어요. 그냥 주방을 엄청나게 넓게만 만들어 보세요"**라고 말합니다.

🌟 핵심 발견 1: 넓으면 자연스럽게 섞인다

연구진은 두 요리사의 주방을 점점 더 넓게 (모델의 너비를 늘려서) 만들었습니다. 그랬더니 놀라운 일이 일어났습니다.

작은 주방: 두 요리를 섞으면 맛이 엉망이 됩니다. (손실 함수의 장벽이 높음)
거대한 주방: 식기를 재배치하지 않고 그냥 두 요리를 섞어도 (가중치 평균), 맛이 거의 원래 요리와 똑같아집니다.

즉, 모델이 충분히 넓어지면, 두 모델이 **자연스럽게 같은 '맛의 세계 (손실 함수의 골짜기)'**에 있게 되어, 복잡한 정렬 작업 없이도 잘 섞인다는 것입니다.

🧠 핵심 발견 2: 왜 그럴까? (LEWC 의 마법)

그렇다면 왜 넓어지면 이렇게 될까요? 논문은 **'층별 지수 가중 연결성 (LEWC)'**이라는 개념으로 설명합니다.

비유: 두 요리사가 만든 요리를 섞을 때, 단순히 50:50 으로 섞는 게 아니라, 층마다 조금씩 다른 비율로 섞이는 마법이 일어납니다.
- 첫 번째 층에서는 거의 50:50 이지만,
- 두 번째 층에서는 75:25,
- 세 번째 층에서는 87.5:12.5 처럼 한쪽 요리사의 영향력이 점점 커지거나 줄어드는 식입니다.

이게 왜 중요하냐면, 이렇게 섞여도 최종 결과물 (요리) 은 두 요리사의 요리를 합친 '앙상블 (Ensemble)'과 같은 맛을 내기 때문입니다. 마치 두 명의 요리사가 힘을 합쳐 더 훌륭한 요리를 만든 것처럼 말이죠.

🔍 핵심 발견 3: '저랭크 (Low-rank)' 구조의 비밀

그런데 왜 넓어지면 이런 마법이 일어날까요? 여기에는 **'저랭크 (Low-rank)'**라는 숨겨진 이유가 있습니다.

비유: 좁은 주방에서는 요리사들이 모든 식기를 다 사용해야 하므로, 서로의 식기 사용 패턴이 겹치고 충돌합니다. 하지만 주방이 너무 넓어지면, 각 요리사는 자신만의 특정 식기들만 집중적으로 사용하게 됩니다.
- 요리사 A 는 '왼쪽 반'의 식기만 쓰고,
- 요리사 B 는 '오른쪽 반'의 식기만 씁니다.

이렇게 사용하는 영역이 겹치지 않게 (직교하게) 되면, 두 요리를 섞어도 서로 방해하지 않고 자연스럽게 합쳐집니다. 논문은 모델이 넓어질수록 가중치 행렬이 이런 '저랭크' 구조를 갖게 되어, 서로 겹치지 않는 영역을 사용하게 된다고 설명합니다.

📉 중요한 단서: '온도 조절' (Softmax Temperature)

한 가지 작은 트릭이 있습니다. 넓어진 모델의 요리를 섞을 때, **약간의 '온도 조절 (Softmax Temperature Calibration)'**을 해주면 맛이 더 완벽해집니다.

비유: 두 요리를 섞으면 양이 많아지거나 농도가 약해질 수 있는데, 이때 **약간의 소금 (온도 조절)**을 추가하면 원래 요리와 똑같은 맛을 낼 수 있습니다. 논문에 따르면, 이 간단한 조절만으로도 두 모델 사이의 '손실 장벽'을 거의 0 으로 만들 수 있습니다.

💡 결론: 왜 이 연구가 중요한가요?

단순함의 승리: 모델을 합칠 때 복잡한 알고리즘으로 식기를 재배치할 필요 없이, 모델을 충분히 크게만 키우면 자동으로 잘 섞인다는 것을 증명했습니다.
모델 병합 (Model Merging) 의 미래: 서로 다른 곳에서 훈련된 두 모델을 합쳐서 더 좋은 성능을 내는 '모델 병합' 기술이 훨씬 쉬워질 수 있습니다.
신경망의 비밀: 신경망이 왜 그렇게 잘 작동하는지에 대한 새로운 통찰을 줍니다. 넓어지면 모델들이 서로 다른 영역을 사용하게 되어 충돌이 사라지고, 자연스럽게 하나의 큰 '맛의 골짜기'로 합쳐진다는 것입니다.

한 줄 요약:

"두 개의 모델을 합칠 때 복잡한 정렬 작업을 하지 않아도, 모델을 충분히 넓게 키우고 약간의 온도 조절만 해주면, 두 모델은 자연스럽게 완벽한 파트너가 되어 더 좋은 성능을 낸다!"

Each language version is independently generated for its own context, not a direct translation.

이 논문은 ICLR 2026에 발표된 "DO WE REALLY NEED PERMUTATIONS? IMPACT OF MODEL WIDTH ON LINEAR MODE CONNECTIVITY"로, 신경망 모델 병합 (Model Merging) 에서 모델의 폭 (Width) 증가가 **선형 모드 연결성 (Linear Mode Connectivity, LMC)**을 달성하는 데 있어 순열 (Permutation) 정렬보다 더 결정적인 역할을 할 수 있음을 실증적으로 증명하고 이론적으로 설명한 연구입니다.

다음은 논문의 주요 내용을 기술적으로 요약한 것입니다.

1. 연구 배경 및 문제 정의 (Problem)

배경: 두 개의 독립적으로 학습된 신경망 모델을 병합할 때, 단순히 가중치를 평균내는 것만으로는 성능이 급격히 떨어지는 경우가 많습니다. 이는 두 모델이 서로 다른 손실 지형 (Loss Landscape) 의 우물 (Basin) 에 위치하기 때문입니다.
기존 접근법 (LMC): 최근 연구 (Ainsworth et al., 2023 등) 에 따르면, 두 모델의 은닉층 유닛 간 **순열 대칭성 (Permutation Symmetry)**을 찾아 적절히 정렬 (Weight Matching) 한 후 선형 보간하면 손실 장벽 (Loss Barrier) 이 거의 없이 연결될 수 있습니다. 이를 선형 모드 연결성 (LMC) 이라고 합니다.
기존의 통념: 이러한 LMC 를 달성하기 위해서는 모델이 충분히 넓어야 (Wide) 하며, 순열 정렬을 수행하기 위해 후보 순열의 공간이 충분히 커야 한다고 믿어졌습니다. 예를 들어, ResNet-20 의 경우 폭을 32 배 늘려야 LMC 가 성립한다고 보고되었습니다.
연구 질문: 정말로 LMC 를 달성하기 위해 복잡한 순열 정렬 (Permutation Search) 이 필수적인가? 아니면 단순히 모델을 **충분히 넓게 (Widening)**만 해도 순열 없이도 LMC 가 성립하는가?

2. 방법론 및 핵심 개념 (Methodology & Key Concepts)

저자들은 모델 폭을 증가시켰을 때 순열 없이도 LMC 가 성립하는 현상을 설명하기 위해 **계층별 지수 가중 연결성 (Layerwise Exponentially Weighted Connectivity, LEWC)**이라는 새로운 개념을 도입했습니다.

2.1 LEWC (Layerwise Exponentially Weighted Connectivity)

두 모델 $\theta_a, \theta_b$ 를 선형 보간한 모델 $\theta_c = \lambda\theta_a + (1-\lambda)\theta_b$ 의 $l$ 번째 계층 출력 $f_l$ 이 다음과 같이 표현될 때 LEWC 가 성립한다고 정의합니다:
$f_l(x; \theta_c) \approx \lambda^l f_l(x; \theta_a) + (1-\lambda)^l f_l(x; \theta_b)$

의미: 병합된 모델의 출력은 원래 두 모델의 출력의 가중 평균으로 표현됩니다. 여기서 가중치는 계층 깊이에 따라 지수적으로 감소합니다 ( $\lambda^l, (1-\lambda)^l$ ).
결과: 이는 병합된 모델이 두 모델의 **앙상블 (Ensemble)**과 유사한 예측 성능을 보임을 의미하며, 따라서 분류 정확도 측면에서 LMC 가 성립함을 의미합니다.
손실 보정: 지수적 감소로 인해 로짓 (Logit) 의 크기가 줄어들 수 있으므로, **Softmax 온도 보정 (Temperature Scaling)**을 통해 손실 장벽을 0 에 가깝게 만들 수 있음을 보입니다.

2.2 LEWC 성립을 위한 충분 조건

LEWC 가 성립하기 위해서는 두 가지 조건이 충족되어야 함을 이론적으로 유도했습니다:

ReLU 활성화의 약한 가법성 (Weak Additivity): 두 모델의 사전 활성화 (Pre-activation) 를 보간할 때 ReLU 함수가 선형적으로 동작해야 합니다. 즉, $\sigma(\lambda z_a + (1-\lambda)z_b) \approx \lambda\sigma(z_a) + (1-\lambda)\sigma(z_b)$ .
상호 직교성 (Reciprocal Orthogonality): 한 모델의 가중치가 다른 모델의 활성화 벡터와 곱해졌을 때 0 이 되어야 합니다 ( $W^{(a)} z^{(b)} \approx 0$ ). 이는 두 모델이 서로 다른 특징 공간 (Feature Space) 을 사용함을 의미합니다.

3. 주요 실험 결과 (Key Results)

저자들은 MNIST, FMNIST, CIFAR-10, CIFAR-100 데이터셋과 MLP, VGG-11, ResNet-20 아키텍처를 사용하여 실험을 수행했습니다.

순열 없이 폭 증가만으로 LMC 달성:
- 모델을 충분히 넓게 (예: ResNet-20 의 32 배) 확장하면, 어떤 순열 정렬도 적용하지 않고 단순히 가중치를 평균낸 모델이 원래 모델과 유사한 테스트 정확도를 달성했습니다.
- 적절한 온도 보정 (Inverse Temperature Calibration) 을 적용하면, 손실 장벽 (Loss Barrier) 이 0 에 수렴하여 LMC 가 명확히 성립함을 확인했습니다.
LEWC 의 실증적 검증:
- 모델 폭이 증가함에 따라 병합된 모델의 계층별 출력과 두 원본 모델 출력의 가중합 사이의 **코사인 유사도 (Cosine Similarity)**가 1 에 가까워졌습니다. 이는 LEWC 가 실제로 성립함을 의미합니다.
- 폭이 커질수록 ReLU 활성화의 선형성 (Weak Additivity) 과 상호 직교성 (Reciprocal Orthogonality) 이 모두 향상되었습니다.
저랭크 구조 (Low-Rank Structure) 의 역할:
- 폭이 증가하면 가중치 행렬의 **상대적 랭크 (Relative Rank)**가 감소하여 저랭크 (Low-Rank) 구조를 형성하게 됩니다.
- 이 저랭크 구조는 두 모델의 활성화 패턴이 겹치지 않게 (Non-overlap) 하여 ReLU 의 선형성을 유도하고, 상호 직교성을 만족시킵니다.
- 가중치 감쇠 (Weight Decay) 실험: 가중치 감쇠를 약하게 하면 가중치 랭크가 높아지고, 이 경우 LEWC 와 LMC 가 깨지는 것을 확인했습니다. 이는 LMC 성립이 SGD 로 얻은 해의 저랭크 특성에 의존함을 보여줍니다.
무작위 순열의 영향:
- 충분히 넓은 모델에서는 무작위 순열을 적용해도 성능 저하가 거의 없었습니다. 이는 폭이 충분히 크면 순열 정렬이 필수적이지 않음을 시사합니다.

4. 기여도 및 의의 (Contributions & Significance)

LMC 에 대한 새로운 통찰: 기존에는 LMC 를 달성하기 위해 "적절한 순열 정렬"이 필수라고 여겨졌으나, 본 논문은 "모델 폭의 증가" 자체가 LMC 를 가능하게 하는 더 근본적인 요인임을 처음으로 증명했습니다.
LEWC 개념 제안: 순열 정렬 기반의 LMC 설명 (Layerwise Linear Feature Connectivity, LLFC) 과 구별되는, **지수 가중 연결성 (LEWC)**을 제안하고 이를 통해 폭이 넓은 모델에서 LMC 가 발생하는 메커니즘을 설명했습니다.
실용적 함의:
- 모델 병합 (Model Merging): 복잡한 순열 정렬 알고리즘 (Weight Matching 등) 없이도, 충분히 넓은 모델을 학습하고 가중치를 평균내는 것만으로도 효과적인 모델 병합이 가능함을 시사합니다.
- 연속 학습 및 분산 학습: 독립적으로 학습된 모델을 통합할 때 순열 정렬의 계산 비용을 줄일 수 있는 새로운 가능성을 제시합니다.
이론적 기여: ReLU 의 약한 가법성과 상호 직교성이 모델 폭과 가중치 랭크에 의해 어떻게 조절되는지에 대한 실증적, 이론적 분석을 제공했습니다.

5. 결론

이 논문은 "모델이 충분히 넓다면 순열 (Permutation) 이 정말 필요한가?"라는 질문에 **"아니오, 넓기만 하면 된다"**는 강력한 실증적 증거를 제시합니다. 모델 폭의 증가는 가중치 행렬의 저랭크 구조를 유도하여 두 모델이 서로 직교하는 특징 공간을 형성하게 만들고, 이는 자연스럽게 선형 보간 시에도 성능이 유지되는 LMC 를 가능하게 합니다. 이 발견은 신경망의 학습 역학 이해와 모델 병합 기술의 발전에 중요한 이정표가 될 것입니다.