On the Width Scaling of Neural Optimizers Under Matrix Operator Norms I: Row/Column Normalization and Hyperparameter Transfer

이 논문은 행렬 연산자 노름의 관점에서 신경망 옵티마이저의 폭 확장성을 분석하고, 층별 합성 가능한 평균 정규화 노름을 도입하여 폭에 무관한 학습률 전이를 가능하게 하는 새로운 옵티마이저 MOGA 를 제안하며, 대규모 사전 학습에서 Muon 과 경쟁력 있으면서도 더 빠른 성능을 입증합니다.

Ruihan Xu, Jiajin Li, Yiping Lu

게시일 Wed, 11 Ma
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏗️ 1. 문제 상황: "집을 키우면 문이 좁아지는 이유"

상상해 보세요. 여러분이 작은 오두막을 짓고 있습니다. 이때 문 (학습률) 은 1 미터 정도면 충분합니다. 하지만 이 집을 100 층짜리 마천루로 키우려 할 때, 문이 그대로라면 어떻게 될까요?

  • 기존의 문제: 기존 최적화 알고리즘 (AdamW, Muon 등) 은 건물의 크기 (모델의 너비, ww) 가 커질수록 문이 상대적으로 너무 좁아지거나 너무 넓어집니다.
    • 문이 너무 좁으면 (학습률이 너무 작으면) 사람들이 (데이터가) 천천히 지나가서 공사 (학습) 가 매우 느려집니다.
    • 문이 너무 넓으면 (학습률이 너무 크면) 사람들이 서로 부딪혀 넘어지고 (발산), 건물이 무너집니다.
  • 현실: 그래서 연구자들은 건물을 키울 때마다 문 크기를 일일이 다시 재고 조정해야 했습니다. 이는 매우 비효율적이고 비용이 많이 듭니다.

🔍 2. 새로운 관점: "기하학적 눈으로 보기"

저자들은 이 문제를 **기하학 (Geometry)**의 관점에서 바라봤습니다.
"우리가 모델을 업데이트할 때, 어떤 '규칙'을 따라 움직이는가?"

  • 기존 방식: 대부분의 알고리즘은 "가장 가파른 경사"를 따라 내려가는 방식 (최강 하강법) 을 사용하지만, 이때 사용하는 '거리 측정 도구' (노름, Norm) 가 건물의 크기에 따라 왜곡되었습니다.
  • 저자의 통찰: 건물의 층이 높아질수록, 층과 층 사이의 연결 고리가 늘어나는데, 기존의 측정 도구는 이 연결 고리에서 발생하는 '왜곡'을 잡아내지 못했습니다. 마치 1 층에서는 평평한 땅으로 보이지만, 100 층으로 올라가면 땅이 기울어져 보이는 것과 같습니다.

💡 3. 해결책: "평균화된 자 (Mean-Normalized Ruler)"

저자들은 새로운 측정 도구, 즉 **'평균화된 자 (Mean-Normalized Norm)'**를 개발했습니다.

  • 비유: 기존의 자는 건물이 커질수록 눈금이 늘어나서 (너비가 ww일 때 ww배 커짐) 거리를 잘못 재게 했습니다.
  • 새로운 자: 이 새로운 자는 건물이 커질수록 눈금을 자동으로 보정합니다. "아, 건물이 2 배 커졌구나? 그럼 내 눈금도 2 배로 줄여서 실제 거리는 똑같이 재자!"라고 말합니다.
  • 결과: 이 자를 사용하면 건물이 작든 크든, 문 (학습률) 의 크기를 똑같이 유지해도 됩니다. 100 층 건물이든 1000 층 건물이든, 처음에 정한 문 크기가 그대로 통합니다.

🚀 4. 제안된 방법: "MOGA (모가)"

이 이론을 바탕으로 저자들은 **MOGA(Matrix Operator Geometry Aware)**라는 새로운 최적화 기법을 제안했습니다.

  • 핵심 아이디어: 모델의 각 층에서 행렬 (데이터) 의 **행 (Row)**이나 **열 (Column)**을 평균화하여 정규화하는 것입니다.
  • 특히 '행 정규화 (Row Normalization)'가 강력합니다:
    • 기존에 인기 있던 Muon이라는 방법은 건물이 커질수록 바닥이 점점 울퉁불퉁해져서 (수학적 용어로 '스무스함'이 떨어짐) 학습이 불안정해질 수 있다는 이론적 한계가 있었습니다.
    • 반면, MOGA(행 정규화) 는 건물이 커져도 바닥이 항상 평평하게 유지되도록 설계되었습니다.

🧪 5. 실험 결과: "실제 건물에서 증명되다"

저자들은 GPT-2 와 LLaMA 같은 거대 언어 모델을 이용해 실험했습니다.

  1. 학습률 이동 (Transfer): 작은 모델 (GPT-2 Small) 에서 찾은 최적의 문 크기 (학습률) 를 그대로 큰 모델 (GPT-XL) 에 적용했습니다. 결과는? 완벽하게 작동했습니다. 다시 튜닝할 필요가 없었습니다.
  2. 속도와 안정성:
    • Muon 과 비교: Muon 과 비슷한 성능을 내면서도, 특히 학습이 끝날 때쯤 (손실 값이 낮아질 때) 더 빠르고 안정적이었습니다.
    • AdamW 와 비교: 기존 표준인 AdamW 보다 훨씬 빠르게 수렴했습니다.

📝 요약: 왜 이것이 중요한가요?

  1. 시간과 돈 절약: 모델을 키울 때마다 학습률을 다시 찾아야 하는 번거로움이 사라집니다. 작은 모델에서 실험한 결과를 큰 모델에 바로 적용할 수 있습니다.
  2. 더 큰 모델, 더 빠른 학습: 건물이 커질수록 학습이 불안정해지는 문제를 해결하여, 더 큰 규모의 AI 모델을 더 효율적으로 훈련할 수 있게 합니다.
  3. 이론적 근거: 단순히 "실험해보니까 잘 됐다"가 아니라, "왜 잘 되는지"에 대한 수학적이고 확실한 이유 (기하학적 안정성) 를 제시했습니다.

한 줄 결론:
이 논문은 **"AI 모델의 크기가 커져도 학습 속도를 조절할 필요가 없게 만드는, 더 똑똑하고 안정적인 새로운 나침반 (MOGA)"**을 개발했다고 말할 수 있습니다.