On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer
이 논문은 행렬 연산자 노름의 관점에서 신경망 옵티마이저의 폭 확장성을 분석하고, 층별 합성 가능한 평균 정규화 노름을 도입하여 폭에 무관한 학습률 전이를 가능하게 하는 새로운 옵티마이저 MOGA 를 제안하며, 대규모 사전 학습에서 Muon 과 경쟁력 있으면서도 더 빠른 성능을 입증합니다.
열 정규화 (Column Normalization):(1,mean)→(q,mean) 기하학에 기반합니다.
μP와의 관계: Adam/SignSGD 의 경우 MOGA 스케일링은 기존의 μP (Maximal Update Parametrization) 스케일링과 일치하지만, MOGA 는 스펙트럼 조건이 아닌 최적화 기하학 (Lipschitz 및 Smoothness) 관점에서 이를 유도하여 더 넓은 범위의 옵티마이저에 적용 가능합니다.
3. 주요 기여 (Key Contributions)
이론적 통찰: 신경망 옵티마이저를 행렬 연산자 노름 하의 가파른 하강으로 통일하여 해석하고, 기존 p→q 노름이 너비 확장 시 왜곡되는 이유를 층간 노름 불일치로 규명했습니다.
새로운 기하학 제안: 너비 불변의 Lipschitz 및 Smoothness 상수를 보장하는 평균 정규화 연산자 노름을 도입했습니다.
Muon 의 한계 규명: Muon 옵티마이저가 너비가 커질수록 Worst-case L-smoothness 가 O(w)로 증가할 수 있음을 이론적으로 증명하여, 대규모 모델에서의 잠재적 불안정성을 지적했습니다.
MOGA 옵티마이저 개발: 행/열 정규화를 기반으로 한 너비 인식 학습률 스케일링 규칙을 포함한 새로운 옵티마이저를 제안했습니다. 이는 μP를 일반화하면서도 더 넓은 클래스의 옵티마이저에 적용 가능합니다.
4. 실험 결과 (Results)
GPT-2 와 LLaMA 아키텍처를 사용한 대규모 사전 학습 실험을 통해 검증되었습니다.
학습률 전이 (Learning Rate Transfer):
MOGA(행 정규화) 를 사용하여 GPT-2 Small(1.24 억 파라미터) 에서 XL(15 억 파라미터) 까지 다양한 크기의 모델을 학습시켰습니다.
결과: 모델 크기가 크게 달라져도 최적의 피크 학습률 (peak learning rate) 이 거의 동일하게 유지되었습니다. 이는 작은 모델에서 튜닝된 학습률을 큰 모델에 그대로 적용할 수 있음을 의미합니다.
특히 p=3과 같이 μP의 스펙트럼 가정을 만족하지 않는 경우에도 안정적인 전이가 이루어져, 제안된 프레임워크의 보편성을 입증했습니다.
학습 효율성 (Training Efficiency):
표준 토큰 예산: GPT-2 Small 및 LLaMA-130M 에서 AdamW 보다 빠르고 Muon 과 유사한 성능을 보였습니다.
대규모 토큰 예산 (Large Token Budget): Chinchilla 최적 토큰 수의 약 8 배에 해당하는 데이터로 학습 시, MOGA(행 정규화) 는 학습 후반부 (low-loss regime) 에서 Muon 보다 더 빠른 수렴 속도와 더 낮은 손실 값을 기록했습니다. 이는 최적화 안정성이 중요한 대규모 모델 배포 시나리오에서 MOGA 가 우월함을 보여줍니다.
5. 의의 및 결론 (Significance & Conclusion)
하이퍼파라미터 전이의 이론적 기반: 이 연구는 단순히 경험적 규칙이 아닌, **최적화 기하학 (Lipschitz 및 Smoothness)**을 통해 학습률 전이의 원리를 설명합니다.
실용적 가치: 대규모 언어 모델 (LLM) 의 사전 학습 비용이 매우 높은 상황에서, 작은 모델에서 튜닝된 학습률을 큰 모델에 그대로 적용하여 튜닝 비용을 획기적으로 줄일 수 있습니다.
Muon 대안: Muon 이 가진 잠재적인 너비 의존성 문제를 해결하면서도, 행 정규화를 통해 표현력 (representational capacity) 과 최적화 안정성 사이의 균형을 더 잘 잡은 새로운 옵티마이저 (MOGA) 를 제시했습니다.
요약하자면, 이 논문은 신경망의 너비 확장에 따른 최적화 불안정성을 행렬 연산자 노름의 기하학적 재정의로 해결하고, 이를 통해 학습률 전이와 대규모 모델 학습 효율성을 동시에 개선하는 실용적인 방법론을 제시했습니다.