What do near-optimal learning rate schedules look like?

이 논문은 학습률 스케줄의 최적 형태를 찾기 위한 탐색 절차를 제안하여, 웜업과 감쇠가 필수적이며 기존에 널리 쓰이는 스케줄들은 최적이지 않으며 가중치 감소가 최적 형태에 큰 영향을 미친다는 것을 다양한 작업에서 입증했습니다.

Hiroki Naganuma, Atish Agarwala, Priya Kasimbeg, George E. Dahl

게시일 2026-03-12
📖 4 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

학습률 스케줄: AI 를 가르칠 때의 '리듬'을 찾아서

이 논문은 인공지능 (AI) 을 훈련시킬 때 가장 중요한 요소 중 하나인 **'학습률 (Learning Rate)'**을 어떻게 조절해야 가장 잘 학습할 수 있는지에 대한 비밀을 파헤친 연구입니다.

비유하자면, AI 를 가르치는 것은 마라톤 선수를 훈련시키는 것과 같습니다.

  • 학습률은 선수가 한 걸음에 얼마나 힘껏 뛰는지 (보폭) 를 결정합니다.
  • 학습률 스케줄은 훈련 기간 동안 이 보폭을 어떻게 변화시켜야 하는지에 대한 훈련 일정표입니다.

지금까지 연구자들은 "처음엔 천천히 시작해서 (워밍업), 중간에 최고 속도로 뛰고, 마지막엔 천천히 줄여서 (쿨다운)"라는 대략적인 원칙만 알고 있었습니다. 하지만 **"정확히 어떤 곡선으로 속도를 조절해야 가장 빨리, 가장 잘 finish 할 수 있을까?"**에 대해서는 명확한 답이 없었습니다. 이 논문은 바로 그 '완벽한 리듬'을 찾기 위해 수많은 실험을 진행했습니다.


1. 연구의 핵심: "최고의 리듬 찾기"

연구진은 다양한 AI 모델 (이미지 인식, 언어 모델 등) 을 훈련시키며, 학습률의 모양을 수학적으로 변형해 보는 대규모 검색 실험을 진행했습니다. 마치 요리사가 레시피의 '불 조절'을 수천 번 바꿔가며 최고의 맛을 찾는 것과 비슷합니다.

그들이 발견한 놀라운 사실들은 다음과 같습니다.

🏁 결론 1: "시작은 천천히, 끝은 부드럽게"가 정답이다

가장 좋은 학습률 스케줄은 거의 항상 두 가지 특징을 가졌습니다.

  1. 워밍업 (Warmup): 훈련 시작 시에는 학습률을 0 에 가깝게 시작해 서서히 높입니다. (마치 자동차를 시동 걸고 서서히 가속하는 것)
  2. 감쇠 (Decay): 훈련이 진행될수록 학습률을 서서히 줄여 마지막에는 거의 0 이 됩니다. (마치 결승선 근처에서 속도를 줄여 안전하게 멈추는 것)

흥미로운 점은, 연구진이 워밍업이나 감쇠를 강제하지 않은 아주 자유로운 형태의 스케줄을 검색했을 때도, AI 가 스스로 **"아, 역시 시작은 천천히 하고 끝은 부드럽게 줄여야 하는구나!"**라고 깨닫고 똑같은 패턴을 찾아냈다는 것입니다. 이는 이 두 가지가 AI 학습의 불변의 진리임을 보여줍니다.

📉 결론 2: 선형 회귀 (수학 문제) 와 딥러닝 (복잡한 문제) 은 다르다

연구진은 먼저 아주 단순한 수학 문제 (선형 회귀) 에 대해 최적의 스케줄을 찾아냈습니다.

  • 단순 수학 문제: 워밍업이 필요 없었고, 중간에는 일정한 속도로 달렸다가 마지막에 갑자기 멈추는 것이 최고였습니다. (마치 경주용 자동차가 직선 도로에서 브레이크를 꽉 밟는 것)
  • 복잡한 AI 문제 (이미지/언어): 워밍업이 필수였고, 마지막에 부드럽게 감속해야 했습니다.

이 차이는 AI 학습이 단순한 수학 공식 풀이와는 완전히 다른, 훨씬 복잡한 과정임을 보여줍니다. 그래서 수학 이론만으로 AI 학습을 설명하려는 시도는 위험할 수 있습니다.

🎛️ 결론 3: '스케줄 모양'보다 '기본 속도'가 더 중요하다

학습률 스케줄의 모양 (곡선) 을 아무리 예쁘게 만들더라도, **기본 학습률 (Base Learning Rate)**이라는 '최고 속도' 설정이 잘못되면 아무 소용이 없습니다.

  • 비유: 아무리 훌륭한 운전 기술 (스케줄) 을 갖췄어도, 차의 엔진 출력 (기본 학습률) 이 너무 약하거나 너무 강하면 목적지에 도달할 수 없습니다.
  • 연구진은 "스케줄 모양을 미세하게 조정하기 전에, 기본 속도를 잘 맞추는 것이 훨씬 더 중요하다"고 강조했습니다.

⚖️ 결론 4: '가중치 감소 (Weight Decay)'라는 조종사가 리듬을 바꾼다

AI 학습에는 '가중치 감소'라는 다른 중요한 설정이 있습니다. 연구진은 이 설정을 바꿨을 때 최적의 학습률 스케줄 모양이 확 달라진다는 것을 발견했습니다.

  • 비유: 가중치 감소 설정을 바꾸는 것은 마치 운전하는 차의 종류를 바꾸는 것과 같습니다. 경주용 차 (가중치 감소가 큰 경우) 에는 급가속과 급정거가 잘 맞지만, 가족용 승용차 (가중치 감소가 작은 경우) 에는 부드럽게 가속하고 서서히 멈추는 것이 더 좋습니다.
  • 즉, AI 모델의 설정에 따라 최적의 '리듬'도 달라져야 합니다.

2. 이 연구가 우리에게 주는 교훈

이 논문은 AI 개발자들에게 다음과 같은 실용적인 조언을 줍니다.

  1. 워밍업과 감쇠는 필수입니다: 무조건적인 속도 유지보다는 시작과 끝을 잘 조절하세요.
  2. 기본 속도를 먼저 잡으세요: 스케줄 모양을 예쁘게 만들기 전에, 기본 학습률을 잘 튜닝하세요.
  3. 단순한 공식에 의존하지 마세요: "코사인 (Cosine) 함수" 같은 정해진 공식이 항상 최고는 아닙니다. 상황에 따라 조금 더 유연한 모양 (예: 스플라인 곡선) 이 더 나을 수 있습니다.
  4. 다른 설정과 함께 고려하세요: 학습률 스케줄은 다른 설정 (가중치 감소 등) 과 떼려야 뗄 수 없는 관계입니다.

요약하자면

이 연구는 AI 를 가르칠 때 **"어떻게 뛰어야 가장 잘 달릴까?"**라는 질문에 답하기 위해, 수많은 시도를 통해 최적의 훈련 리듬을 찾아냈습니다. 그 결과, **"시작은 부드럽게, 끝은 천천히, 그리고 상황에 따라 리듬을 바꿔라"**는 것이 가장 좋은 전략임을 증명했습니다.

이제 우리는 AI 를 훈련시킬 때, 단순히 정해진 공식을 따르는 것이 아니라, 모델의 특성에 맞춰 더 정교한 리듬을 설계할 수 있는 길을 알게 되었습니다.