The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

Each language version is independently generated for its own context, not a direct translation.

🍳 핵심 비유: "맛있는 요리를 만드는 요리사들"

딥러닝 모델을 훈련한다는 것은, 수많은 재료 (데이터) 를 가지고 **가장 맛있는 요리 (최고의 성능)**를 만드는 과정입니다. 이때 '최적화 알고리즘'은 요리를 만드는 요리사 역할을 합니다.

요리사들은 처음에는 재료를 어떻게 섞어야 할지 모릅니다. 하지만 계속 맛을 보고 (오류를 계산하고) 재료를 조금씩 바꾸면서 (파라미터 업데이트) 점점 더 맛있는 요리를 만들어냅니다.

이 논문은 **"각 요리사 (Adam, Muon 등) 가 무의식적으로 어떤 스타일의 요리를 선호하는가?"**를 연구했습니다.

1. 모든 요리사의 공통된 목표: "최고의 간 (Margin)"

요리사들이 궁극적으로 추구하는 것은 **'최고의 간 (Margin)'**입니다.

**간 (Margin)**이란: "이 요리는 확실히 '맛있다'고 말할 수 있는 정도"입니다. 간을 충분히 맞췄다면, 조금만 재료가 달라져도 맛이 망가지지 않습니다 (일반화 성능이 좋음).
연구 결과, 어떤 요리사를 쓰든 결국 최고의 간을 가진 요리에 도달한다는 것은 이미 알려져 있었습니다.

2. 문제는 "간을 맞추는 방식" (Norm)

여기서 재미있는 점은, 어떤 기준 (Norm) 으로 '간'을 재느냐에 따라 요리사의 성향이 달라진다는 것입니다.

기존의 연구 (Gradient Descent): "재료의 양 (ℓ2 노름)"을 기준으로 간을 맞춥니다. 모든 재료를 골고루 섞는 스타일입니다.
이 논문의 발견:
- Adam 요리사: "가장 강한 맛 (ℓ∞ 노름)"을 기준으로 간을 맞춥니다. 즉, 가장 강한 재료 한 가지만 극대화하는 스타일입니다. (예: 소금만 아주 강하게 넣는 것)
- Muon 요리사: "재료의 구조적 균형 (스펙트럼 노름)"을 기준으로 간을 맞춥니다. 재료들이 서로 어떻게 조화를 이루는지 (행렬의 구조) 를 중시합니다.
- Muon-Adam: 이 두 가지 스타일을 섞어서, 구조적 균형과 강한 맛을 동시에 고려합니다.

3. 이 논문의 주요 발견 (간단히)

이 논문은 수학적으로证明了 (증명했습니다):

학습 속도를 천천히 줄이면 (Decaying Learning Rate):
요리사가 천천히, 신중하게 재료를 섞을 때 (학습률을 줄여가며), Adam 이나 Muon 은 결국 자신만의 기준 (Norm) 에 따라 가장 완벽한 간을 맞춘 요리에 도달한다는 것을 증명했습니다.
무엇이 중요한가?
- Adam을 쓰면, 모델은 특정 데이터 포인트에 대해 매우 강력한 결정 기준을 갖게 됩니다.
- Muon을 쓰면, 모델은 데이터의 구조적 패턴을 더 잘 포착하는 방향으로 학습됩니다.
- 즉, **"어떤 요리사 (옵티마이저) 를 쓰느냐에 따라, 최종적으로 만들어지는 요리의 맛 (모델의 성향) 이 달라진다"**는 것입니다.
실제 실험:
MNIST(손글씨 숫자) 데이터를 가지고 실험을 해보니, 이론대로 Adam 은 ℓ∞ 간을, Muon 은 스펙트럼 간을 극대화하는 것을 확인했습니다.

4. 왜 이것이 중요한가요? (일상적인 결론)

우리가 매일 쓰는 AI 모델 (챗봇, 이미지 생성 등) 은 보통 Adam이나 Muon으로 훈련됩니다.

이 논문의 결론은 **"우리가 어떤 알고리즘을 선택하느냐는 단순히 '빠르게' 학습하는 문제가 아니라, AI 가 '어떤 성향'을 가지게 될지 결정한다"**는 것입니다.
마치 **소금기 (Adam)**를 강조한 요리와 **재료의 조화 (Muon)**를 강조한 요리는 결국 다른 맛을 낸다는 것과 같습니다.

한 줄 요약:

"딥러닝을 훈련시킬 때 쓰는 Adam이나 Muon 같은 도구는, 단순히 빠르게 학습하는 게 아니라 **각자 자신만의 독특한 '성향 (Bias)'**을 가지고 모델을 완성합니다. 이 논리는 그 성향이 수학적으로 어떤 '최적의 간 (Margin)'을 만드는지 증명하여, 우리가 더 나은 AI 를 설계하는 데 도움을 줍니다."

이제 이 논문을 읽으실 때, **"아, 이 요리사 (옵티마이저) 는 어떤 맛 (Norm) 을 추구하는구나!"**라고 생각하시면 됩니다.

Each language version is independently generated for its own context, not a direct translation.

이 논문은 스무스 동차 (smooth homogeneous) 신경망 모델에서 **무게 기반 최적화 알고리즘 (Momentum-based optimizers)**인 Adam과 Muon의 **암시적 편향 (Implicit Bias)**을 연구한 학술지입니다. 저자는 이 알고리즘들이 명시적인 정규화 없이도 훈련 데이터의 특정 마진 (margin) 을 최대화하는 방향으로 수렴한다는 것을 이론적으로 증명하고 실험적으로 검증했습니다.

주요 내용은 다음과 같습니다.

1. 연구 배경 및 문제 정의

배경: 과매개변수화된 딥러닝 모델이 명시적인 정규화 없이도 뛰어난 일반화 성능을 보이는 현상은 최적화 알고리즘이 특정 해 (일반화 잘 되는 해) 로 수렴하는 암시적 편향 때문입니다. 기존 연구들은 주로 경사 하강법 (Gradient Descent, GD) 이 $\ell_2$ 마진을 최대화한다는 것을 보였습니다.
문제: 최근 대규모 언어 모델 (LLM) 과 비전 트랜스포머 훈련에 널리 사용되는 Adam과 Muon과 같은 모멘텀 기반 최적화 알고리즘들의 암시적 편향이 무엇인지, 그리고 이들이 어떤 종류의 마진 (Norm) 을 최대화하는지 명확히 규명되지 않았습니다.
목표: 동차 (Homogeneous) 모델에서 Adam 과 Muon 이 어떤 마진 최대화 문제의 KKT (Karush-Kuhn-Tucker) 점으로 수렴하는지 분석하고, 이를 일반화하여 다양한 최적화 알고리즘의 편향을 설명하는 통합 프레임워크를 제시하는 것.

2. 방법론 (Methodology)

저자는 다음과 같은 수학적 도구를 사용하여 분석을 진행했습니다.

모델 가정:
- 동차성 (Homogeneity): 모델 $f(x; \alpha\theta) = \alpha^L f(x; \theta)$ 를 만족하는 스무스 (Smooth) 모델 (ReLU, Squared ReLU 등 포함).
- 손실 함수: 지수 꼬리 (Exponentially tailed) 를 가진 로그 볼록 손실 함수 (Exponential loss, Logistic loss 등).
핵심 개념: 근사 최강 하강법 (Approximate Steepest Descent)
- 기존 연구는 정확한 최강 하강법 (Steepest Descent) 에 집중했으나, Adam 과 Muon 은 모멘텀 항을 포함하여 정확한 최강 하강법 궤적이 아닙니다.
- 저자는 학습률이 감소하는 (Decaying learning rate) 환경에서 모멘텀 기반 알고리즘이 점근적으로 (Asymptotically) 특정 노름 (Norm) 에 대한 최강 하강법 궤적을 근사함을 증명했습니다.
- 이를 위해 $\nu(t)$ (학습률 또는 업데이트 크기) 와 $R_{max}$ (상한) 를 정의하여 알고리즘이 "근사 최강 하강법"의 조건을 만족함을 보였습니다.
알고리즘별 분석:
- Muon: 가중치 행렬의 스펙트럼 노름 (Spectral norm) 기반의 모멘텀 하강으로 해석되며, **Max-Spectral Norm ( $\|\cdot\|_{msp}$ )**에 대한 마진 최대화 편향을 가짐.
- Signum: $\ell_\infty$ 노름에 대한 최강 하강법과 동일.
- Adam (안정화 상수 $\epsilon$ 제거 시): 모멘텀 추정치와 제곱된 모멘텀 추정치의 비율로 업데이트가 이루어지며, 이는 $\ell_\infty$ 노름에 대한 마진 최대화 편향을 가짐.
- Muon-Adam: 행렬 파라미터에는 Muon, 벡터 파라미터에는 Adam 을 적용한 하이브리드 알고리즘으로, 하이브리드 노름 ( $\max\{\alpha\|W\|_{msp}, \|u\|_\infty\}$ ) 을 최대화함.

3. 주요 기여 (Key Contributions)

정규화된 최강 하강법의 일반화: 학습률 스케줄이 있는 정규화된 최강 하강법 (Normalized Steepest Descent) 에 대해, 손실이 감소하면 파라미터 방향이 해당 노름에 대한 최대 마진 문제의 KKT 점으로 수렴함을 증명. (기존 Tsilivis et al. (2025) 의 결과를 확장).
모멘텀 알고리즘의 편향 증명:
- Muon이 스펙트럼 노름 기반의 마진 최대화 편향을 가진다는 것을 증명.
- Adam (안정화 상수 제거 시) 이 $\ell_\infty$ 마진 최대화 편향을 가진다는 것을 증명. (기존 선형 모델 연구 결과를 스무스 동차 모델로 확장).
- Muon-Signum 및 Muon-Adam과 같은 복합 알고리즘이 각각의 노름을 결합한 하이브리드 노름의 마진을 최대화함을 증명.
통합 프레임워크 제시: 다양한 모멘텀 기반 최적화 알고리즘을 "근사 최강 하강법"이라는 하나의 프레임워크로 통합하여 분석할 수 있는 이론적 기반을 마련함.

4. 실험 결과 (Results)

데이터셋 및 설정: MNIST 숫자 (짝수/홀수 분류) 를 사용하여 2 층 동차 신경망 (ReLU 및 Squared ReLU 활성화 함수) 을 훈련.
비교 대상: 정규화된 경사 하강법 (NGD), Signum, Adam, Muon, Muon-Adam.
결과:
- NGD: $\ell_2$ 마진 최대화.
- Signum & Adam: $\ell_\infty$ 마진 최대화. (Signum 이 Adam 보다 $\ell_\infty$ 마진 최대화 성능이 약간 더 뛰어남).
- Muon: $\|\cdot\|_{msp}$ (Max-Spectral Norm) 마진 최대화.
- Muon-Adam: 행렬 부분과 벡터 부분의 노름을 결합한 하이브리드 마진 최대화.
- 방향 수렴성: 모든 알고리즘에서 훈련 후반부에 파라미터 방향이 수렴하며 (Cosine Similarity > 0.99), 마진이 0 이 아닌 양수 값을 유지함을 확인하여 이론적 가정 (Directional Convergence) 을 지지.

5. 의의 및 결론 (Significance)

이론적 확장: 기존에 선형 모델이나 단순한 GD 에 국한되었던 암시적 편향 연구가, 현대 딥러닝에서 널리 쓰이는 Adam과 Muon과 같은 복잡한 최적화 알고리즘으로 확장되었습니다.
실용적 통찰: 최적화 알고리즘의 선택이 모델이 학습하는 해의 기하학적 특성 (어떤 노름의 마진을 최대화하는지) 을 결정한다는 것을 보여줍니다. 이는 모델의 일반화 성능이나 적대적 견고성 (Adversarial Robustness) 을 이해하는 데 중요한 단서가 됩니다.
미래 연구 방향: 비스무스 모델 (예: ReLU 네트워크) 에 대한 이론적 증명 강화, 방향 수렴성 (Directional Convergence) 보장 증명, 그리고 이러한 편향이 실제 일반화 성능이나 적대적 공격에 미치는 영향에 대한 후속 연구를 제안합니다.

요약하자면, 이 논문은 Adam 과 Muon 이 특정 노름 ( $\ell_\infty$ , Spectral Norm 등) 에 대한 마진 최대화 문제의 해로 수렴한다는 것을 엄밀하게 증명함으로써, 현대 딥러닝 최적화 알고리즘의 작동 원리에 대한 깊은 이해를 제공했습니다.

The Implicit Bias of Adam and Muon on Smooth Homogeneous Neural Networks

🍳 핵심 비유: "맛있는 요리를 만드는 요리사들"

1. 모든 요리사의 공통된 목표: "최고의 간 (Margin)"

2. 문제는 "간을 맞추는 방식" (Norm)

3. 이 논문의 주요 발견 (간단히)

4. 왜 이것이 중요한가요? (일상적인 결론)

1. 연구 배경 및 문제 정의

2. 방법론 (Methodology)

3. 주요 기여 (Key Contributions)

4. 실험 결과 (Results)

5. 의의 및 결론 (Significance)

유사한 논문

Horseshoe Priors and MDP

Observable Geometry of Singular Statistical Models

Conditional Independence under Infinite Measures and Poisson Point Processes

Sharp Debiasing for Smooth Functional Estimation in Banach Spaces

Opponent-Adjusted Evaluation of NFL Pass Blocking and Pass Rushing Performance