Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

Each language version is independently generated for its own context, not a direct translation.

🎒 비유: "무거운 가방을 든 학생과 가벼운 가방을 든 학생"

인공지능 모델을 공부하는 학생이라고 상상해 보세요. 이 학생은 시험 (데이터) 을 보고 정답을 찾아야 합니다.

기존 방식 (GD - 경사 하강법):
- 이 학생은 **"가장 눈에 띄고 큰 특징"**만 봅니다.
- 예를 들어, 고양이 사진을 볼 때 귀와 수염처럼 크고 뚜렷한 부분만 보고 "이건 고양이야!"라고 외칩니다.
- 작은 특징 (털의 결이나 배경의 그림자) 은 아예 무시하거나 나중에야 알아차립니다.
- 결과: 항상 같은 방향으로만 공부해서, 큰 특징을 먼저 잡습니다.
새로운 방식 (SAM - 날카로움 인식 최소화):
- 이 학생은 **"만약 내가 조금만 실수하면 어떨까?"**를 상상하며 공부합니다. (즉, 학습할 때 약간의 혼란을 겪어보며 더 튼튼한 답을 찾습니다.)
- 흥미로운 점: 이 학생은 학습 초기에는 아주 작은 특징부터 먼저 잡으려 합니다.
- 고양이 사진을 볼 때, 귀나 수염 같은 큰 특징은 나중에 배우고, 배경의 어두운 그림자나 털의 미세한 결 같은 '작은 특징'을 먼저 집중해서 분석합니다.
- 시간이 지나거나 공부하는 양 (초기 설정) 이 커지면, 비로소 큰 특징으로 주의를 돌립니다.

🔍 이 논문의 핵심 발견 3 가지

1. 깊이가 얕으면 똑같지만, 깊어지면 달라집니다 (층수 1 vs 2)

층수가 1 인 경우 (단순한 모델): SAM 과 기존 방식 (GD) 은 똑같이 행동합니다. 큰 특징을 먼저 봅니다.
층수가 2 이상인 경우 (깊은 신경망): 여기서 SAM 이 기이한 행동을 시작합니다. 작은 특징을 먼저 배우는 '순차적 특징 증폭' 현상이 발생합니다.
- 비유: 마치 도서관에서 책을 찾을 때, 먼저 구석진 작은 책 (작은 특징) 을 찾아보다가, 나중에 중앙에 있는 큰 책 (큰 특징) 으로 이동하는 것과 같습니다.

2. '작은 특징'을 먼저 배우는 이유: SAM 의 독특한 눈

SAM 은 학습 과정에서 데이터의 '노이즈'나 '작은 신호'를 증폭시키는 필터를 가지고 있습니다.

초기에는: 작은 신호를 크게 부풀려서 먼저 학습합니다. (왜냐하면 SAM 은 "이 작은 부분도 중요할지 모른다"고 생각하기 때문입니다.)
나중에는: 큰 신호가 압도적으로 커지면, 비로소 큰 특징에 집중합니다.
결과: 학습이 끝날 때 최종 답은 GD 와 같아지지만, 학습하는 과정 (동역학) 이 완전히 다릅니다.

3. 초기 설정 (초기화) 에 따라 결과가 바뀝니다

초기값이 너무 작으면: 학생이 아예 공부를 시작하지 못하고 제자리 (0) 에 머뭅니다. (Regime 1)
초기값이适中 (적당) 하면: 작은 특징 → 중간 특징 → 큰 특징 순서로 천천히 배우며 이동합니다. (Regime 2, 가장 흥미로운 부분)
초기값이 너무 크면: 바로 큰 특징부터 배우고 GD 와 비슷해집니다. (Regime 3)

🖼️ 실생활 예시: 고양이 사진 인식하기

논문의 실험 (MNIST, SVHN 등) 에서 이 현상을 확인했습니다.

GD(기존) 가 보는 고양이:
- 고양이 얼굴의 **흰색 부분 (큰 특징)**에 집중합니다. "여기가 고양이 얼굴이야!"라고 확신합니다.
SAM 이 보는 고양이:
- 처음에는 **검은 배경이나 그림자 (작은 특징)**에 집중합니다. "아, 이 그림자도 고양이와 관련이 있나?"라고 생각하며 배경을 자세히 살핍니다.
- 나중에야 얼굴로 시선을 옮깁니다.

왜 이것이 중요할까요?
기존에는 "학습이 끝났을 때 최종 답이 무엇이냐"만 중요하다고 생각했습니다. 하지만 이 논문은 **"학습하는 과정 (어떤 순서로 배우느냐) 이 최종 성능과 일반화 능력에 큰 영향을 준다"**고 말합니다. SAM 이 작은 특징을 먼저 배우는 이 과정이, 모델이 더 유연하고 튼튼하게 작동하게 만드는 비결일 수 있습니다.

💡 한 줄 요약

"SAM 은 깊은 신경망에서 학습 초기에 '작은 특징'을 먼저 집중적으로 배우는 독특한 성향을 가지며, 이는 기존 방식 (GD) 과는 완전히 다른 학습 경로를 만들어냅니다."

이처럼 SAM 은 단순히 정답을 찾는 것을 넘어, **어떤 순서로 세상을 바라볼지 (어떤 특징을 먼저 볼지)**를 결정하는 새로운 방식을 제시했습니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 Sharpness-Aware Minimization (SAM) 알고리즘의 **암묵적 편향 (Implicit Bias)**이 선형 대각선 네트워크 (Linear Diagonal Networks) 에서 어떻게 작동하는지, 특히 **네트워크의 깊이 (Depth)**가 이 편향에 어떤 영향을 미치는지 이론적으로 분석한 연구입니다. 저자들은 ICLR 2026 에 제출된 이 논문에서 SAM 이 기존 경사 하강법 (GD) 과는 다른 독특한 동역학을 보이며, 특히 초기화 (Initialization) 와 데이터의 특성에 따라 '주요 (Major)' 특징보다 '부차적 (Minor)' 특징을 우선적으로 학습하는 현상을 발견했습니다.

다음은 논문의 상세한 기술적 요약입니다.

1. 연구 문제 (Problem)

현대 딥러닝 모델은 과매개변수화 (Over-parameterization) 상태에서도 잘 일반화되는데, 이는 최적화 과정이 손실 함수의 '평탄한 (Flat)' 지역으로 수렴하기 때문이라는 가설이 있습니다. SAM 은 이러한 평탄한 지역을 찾기 위해 고안된 알고리즘입니다.
기존 연구들은 SAM 의 암묵적 편향을 주로 1 층 선형 모델이나 MSE 손실 함수와 같은 단순한 설정에서 분석했습니다. 그러나 **로그istic 손실 함수 (Logistic Loss)**를 사용하는 선형 분리 가능한 이진 분류 문제에서, 심층 (Deep, $L \ge 2$ ) 선형 대각선 네트워크를 사용할 때 SAM 의 행동이 어떻게 변하는지는 명확히 규명되지 않았습니다. 특히, 무한 시간 ( $t \to \infty$ ) 의 극한 행동뿐만 아니라 유한 시간 (Finite-time) 동역학에서의 편향이 어떻게 나타나는지 이해하는 것이 핵심 문제였습니다.

2. 방법론 (Methodology)

저자들은 다음과 같은 설정에서 SAM 의 동역학을 분석했습니다:

모델: $L$ 층 선형 대각선 네트워크 (Linear Diagonal Networks). 가중치 벡터 $\theta = (w^{(1)}, \dots, w^{(L)})$ 이며, 예측값은 $\beta(\theta) = \bigodot_{\ell=1}^L w^{(\ell)}$ 로 정의됩니다.
데이터: 선형 분리 가능한 이진 분류 데이터 (단일 예제 $\{(\mu, +1)\}$ 또는 다중 예제).
손실 함수: Logistic Loss.
알고리즘 비교:
- GD (Gradient Descent): 표준 경사 하강법.
- $\ell_\infty$ -SAM: $\ell_\infty$ 노름 기반의 perturbation 을 사용하는 SAM.
- $\ell_2$ -SAM: $\ell_2$ 노름 기반의 perturbation 을 사용하는 SAM (실제 적용이 가장 흔한 형태).
분석 도구:
- 연속 시간 흐름 (Continuous-time Flows): 이산적인 업데이트를 미분 방정식 (ODE) 으로 근사하여 분석.
- 재스케일링 흐름 (Rescaled Flows): 손실 함수의 미분 항을 제거하여 공간적 궤적 (Spatial Trajectory) 분석을 단순화.
- 초기화 스케일 ( $\alpha$ ) 분석: 모든 층의 가중치를 $\alpha \mathbf{1}$ 로 초기화하여 초기화 크기가 동역학에 미치는 영향을 체계적으로 조사.

3. 주요 기여 및 발견 (Key Contributions & Findings)

A. 깊이 1 (단순 선형 모델, $L=1$ )

결과: $\ell_\infty$ -SAM 과 $\ell_2$ -SAM 모두 GD 와 동일한 $\ell_2$ 최대 마진 (Max-margin) 방향으로 수렴합니다.
의미: 1 층 모델에서는 SAM 이 GD 와 동일한 암묵적 편향을 가지며, 초기화나 perturbation 반경 ( $\rho$ ) 에 의존하지 않습니다.

B. 깊이 2 이상 ( $L \ge 2$ ) 및 $\ell_\infty$ -SAM

발견: 깊이가 2 이상일 때, $\ell_\infty$ -SAM 은 GD 와 완전히 다른 행동을 보입니다.
초기화 민감성: GD 는 항상 데이터의 '주요 특징 (Major feature, $\mu$ 의 값이 큰 좌표)'을 선택하는 반면, $\ell_\infty$ -SAM 은 초기화 값과 perturbation 반경 $\rho$ 의 상대적 크기에 따라 **부차적 특징 (Minor feature)**을 선택하거나, 심지어 0 으로 수렴할 수 있습니다.
메커니즘: 각 좌표가 $\rho$ 보다 큰지 작은지에 따라 수렴 방향이 결정되며, 초기화 스케일이 $\rho$ 보다 작으면 해당 좌표는 소멸하고, 크면 지수적으로 성장합니다. 이는 GD 와 달리 초기화에 매우 민감한 편향을 만듭니다.

C. 깊이 2 및 $\ell_2$ -SAM: "연속적 특징 증폭 (Sequential Feature Amplification)"

이 논문에서 가장 중요한 발견은 2 층 $\ell_2$ -SAM 에서 관찰된 연속적 특징 증폭 현상입니다.

무한 시간 극한 vs 유한 시간 동역학:
- 극한 ( $t \to \infty$ ): 손실이 0 으로 수렴하면, $\ell_2$ -SAM 의 최종 방향은 GD 와 마찬가지로 $\ell_1$ 최대 마진 해 (주요 특징) 로 수렴합니다.
- 유한 시간 (Finite-time): 훈련 초기 및 중간 단계에서는 부차적 특징 (Minor features) 이 먼저 증폭되고, 시간이 지남에 따라 또는 초기화 스케일이 커짐에 따라 점차 주요 특징으로 전환됩니다.
세 가지 영역 (Regimes) 구분:
- Regime 1 (작은 초기화): 모델이 원점 (Origin) 에 갇혀 손실이 감소하지 않음.
- Regime 2 (중간 초기화): 연속적 특징 증폭 발생. 훈련 시간 ( $t$ $t$ ) 이 증가하거나 초기화 스케일 ( $\alpha$ $α$ ) 이 커짐에 따라, 예측자가 의존하는 좌표가 작은 $\mu$ $μ$ (부차적) 에서 큰 $\mu$ $μ$ (주요) 로 순차적으로 이동합니다.
  - 시간적 측면: 훈련 초기에는 부차적 특징이, 후기에는 주요 특징이 우세해짐.
  - 초기화 측면: $\alpha$ 가 작을수록 부차적 특징이 더 오래 우세하게 증폭됨.
- Regime 3 (큰 초기화): 처음부터 주요 특징이 우세하게 증폭됨 (GD 와 유사한 행동).
이론적 원인:
- $\ell_2$ -SAM 의 perturbation 항에 포함된 그라디언트 정규화 인자가 핵심입니다.
- 초기 단계 (작은 $\beta$ ) 에서는 이 인자가 주요 특징 ( $\mu_j$ 가 큰 좌표) 을 억제하고 부차적 특징을 상대적으로 증폭시킵니다.
- 시간이 지나거나 초기화 스케일이 커지면 이 효과가 약화되어 주요 특징이 지배적이 됩니다.

4. 실험 결과 (Results)

합성 데이터: 단일 예제 및 다중 예제 데이터셋에서 위 이론적 예측 (특히 Regime 2 의 순차적 증폭) 이 정확히 재현됨을 확인했습니다.
실제 데이터 (MNIST, SVHN, CIFAR-10): CNN 모델에서 Grad-CAM 을 사용하여 시각화한 결과, GD 는 이미지의 밝은 부분 (주요 특징) 에 집중하는 반면, SAM (특히 중간 초기화 스케일) 은 어두운 배경이나 약한 신호 (부차적 특징) 에 더 집중하는 경향을 보였습니다. 이는 이론에서 예측한 "부차적 특징 우선 증폭" 현상이 실제 비선형 네트워크에서도 발생함을 시사합니다.

5. 의의 및 결론 (Significance & Conclusion)

무한 시간 분석의 한계 극복: 기존 연구들이 주로 $t \to \infty$ 극한에서의 편향 (예: $\ell_1$ 또는 $\ell_2$ 마진) 에만 집중했다면, 이 논문은 훈련 과정 중의 유한 시간 동역학이 실제 모델의 학습 경로와 일반화 성능에 결정적인 영향을 미친다는 점을 강조합니다.
SAM 의 독특한 편향: SAM 은 단순히 "평탄한 최소점"을 찾는 것을 넘어, 초기화 스케일과 네트워크 깊이에 따라 학습 순서를 제어하는 강력한 암묵적 편향을 가집니다. 이는 SAM 이 초기에는 노이즈가 많거나 약한 신호 (부차적 특징) 를 먼저 학습하게 하여, 이후 주요 특징으로 전환되는 독특한 학습 경로를 만든다는 것을 의미합니다.
실제 적용: 이 발견은 SAM 을 사용할 때 초기화 스케일 ( $\alpha$ ) 과 perturbation 크기 ( $\rho$ ) 를 신중하게 선택해야 함을 시사하며, SAM 이 왜 특정 작업에서 GD 보다 더 좋은 일반화 성능을 보이는지에 대한 새로운 이론적 통찰을 제공합니다.

요약하자면, 이 논문은 SAM 이 깊은 네트워크에서 초기화 조건에 따라 "부차적 특징을 먼저 학습하고 나중에 주요 특징으로 전환하는" (Minor First, Major Last) 독특한 동역학을 보인다는 것을 이론적으로 증명하고 실험적으로 입증했습니다. 이는 딥러닝 최적화 이론에서 SAM 의 동작 원리를 이해하는 데 중요한 이정표가 됩니다.

Minor First, Major Last: A Depth-Induced Implicit Bias of Sharpness-Aware Minimization

🎒 비유: "무거운 가방을 든 학생과 가벼운 가방을 든 학생"

🔍 이 논문의 핵심 발견 3 가지

1. 깊이가 얕으면 똑같지만, 깊어지면 달라집니다 (층수 1 vs 2)

2. '작은 특징'을 먼저 배우는 이유: SAM 의 독특한 눈

3. 초기 설정 (초기화) 에 따라 결과가 바뀝니다

🖼️ 실생활 예시: 고양이 사진 인식하기

💡 한 줄 요약

1. 연구 문제 (Problem)

2. 방법론 (Methodology)

3. 주요 기여 및 발견 (Key Contributions & Findings)

A. 깊이 1 (단순 선형 모델, L=1L=1L=1)

B. 깊이 2 이상 (L≥2L \ge 2L≥2) 및 ℓ∞\ell_\inftyℓ∞​-SAM

C. 깊이 2 및 ℓ2\ell_2ℓ2​-SAM: "연속적 특징 증폭 (Sequential Feature Amplification)"

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance & Conclusion)

유사한 논문

Robust Multi-agent Communication via Multi-view Message Certification

DySCo: Dynamic Semantic Compression for Effective Long-term Time Series Forecasting

Sven: Singular Value Descent as a Computationally Efficient Natural Gradient Method

Forecasting Supply Chain Disruptions with Foresight Learning

UQ-SHRED: uncertainty quantification of shallow recurrent decoder networks for sparse sensing via engression

A. 깊이 1 (단순 선형 모델, $L=1$ )

B. 깊이 2 이상 ( $L \ge 2$ ) 및 $\ell_\infty$ -SAM

C. 깊이 2 및 $\ell_2$ -SAM: "연속적 특징 증폭 (Sequential Feature Amplification)"