Random Scaling and Momentum for Non-smooth Non-convex Optimization

이 논문은 SGDM 업데이트에 지수 분포를 따르는 무작위 스케일링을 도입하여 비볼록 비매끄러운 최적화 문제에 대한 최적 수렴 보장을 제공하는 새로운 프레임워크를 제시합니다.

Qinzi Zhang, Ashok Cutkosky

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🏔️ 비유: 안개 낀 산에서 정상 찾기

우리가 AI(신경망) 를 훈련시킨다는 것은, 안개가 자욱한 산에서 가장 낮은 골짜기 (최소값) 를 찾아 내려가는 것과 같습니다.

  1. 기존의 문제 (부드러운 산 vs 거친 산)

    • 과거의 수학자들은 이 산이 매끄러운 잔디밭이라고 가정했습니다. 잔디밭이라면 발을 디딜 때마다 경사가 어느 방향인지 정확히 알 수 있어 (미분 가능), 가장 빠르게 내려갈 수 있습니다.
    • 하지만 실제 AI 가 다루는 산은 바위와 가시덤불이 가득한 험한 지형입니다 (비볼록, 비매끄러움). 여기서는 발을 디딜 때마다 경사가 갑자기 변하거나, 아예 경사가 없는 수직 벽이 나올 수도 있습니다.
    • 기존의 방법들은 이런 험한 지형에서는 "이곳이 정상인가?"를 확인하기 위해 너무 조심스럽게 움직여야 했습니다. 마치 발을 살짝 살짝 떼어보며 주변을 수색해야 했기 때문에 속도가 매우 느렸습니다.
  2. 이 논문의 핵심 아이디어: "주사위를 굴려라!"

    • 저자들은 이 문제를 해결하기 위해 아주 작지만 기발한 변화를 제안합니다. 바로 **"매번 이동할 때, 무작위로 주사위를 굴려 이동 거리를 조절한다"**는 것입니다.
    • 구체적으로는 이동할 때마다 **지수 분포 (Exponential Distribution)**라는 특별한 확률 분포를 가진 숫자 (주사위 값) 를 곱해서 이동합니다.
    • 왜这么做할까요?
      • 보통은 "조심스럽게" 움직여야 한다고 생각하지만, 이 방법은 가끔은 대담하게 크게 점프하되, 그 확률 분포가 수학적으로 완벽하게 계산되어 있어 "실수"를 하지 않도록 설계되었습니다.
      • 마치 안개 낀 산에서 "가끔은 멀리 뛰어넘어 보자"라고 결심하는 것과 같습니다. 이 무작위성이 오히려 수학적 오차를 없애주어, 험한 지형에서도 가장 빠른 속도로 최적의 지점을 찾을 수 있게 해줍니다.
  3. 결과: 우리가 이미 쓰고 있던 방법 (SGDM) 의 변신

    • 이 논문의 가장 놀라운 점은, 이 새로운 방법을 적용하면 우리가 이미 10 년 넘게 쓰고 있는 **가장 유명한 훈련 알고리즘 (SGDM)**과 거의 똑같은 형태가 된다는 것입니다.
    • 다만, 한 가지 차이점이 있습니다. 기존 알고리즘은 이동 거리를 고정된 값으로 정했지만, 이 새로운 방법은 매번 무작위 주사위 값을 곱해서 이동합니다.
    • 결론: 우리가 이미 알고 있던 "모멘텀 (Momentum, 관성)"을 가진 알고리즘이, 약간의 무작위성만 추가되면 이론적으로도 완벽하게 최적의 속도로 작동한다는 것을 증명한 것입니다.

📝 핵심 요약 (일상 언어로)

  • 문제: AI 훈련은 거친 지형 (비매끄러운 함수) 에서 길을 찾는 것과 같아서, 기존의 정교한 지도 (수학적 분석) 가 통하지 않았습니다.
  • 해결책: "조심스럽게" 움직이는 대신, **무작위 주사위 (지수 분포)**를 이용해 이동 거리를 조절하는 새로운 방식을 도입했습니다.
  • 효과: 이 방식은 기존에 쓰던 알고리즘 (SGDM) 과 거의 똑같지만, 이론적으로 가장 빠른 속도로 정답에 도달할 수 있음을 증명했습니다.
  • 비유: "안개 낀 산에서 길을 찾을 때, 너무 조심스럽게 발을 옮기기보다, 무작위로 큰 점프를 하되 그 확률을 수학적으로 잘 계산해 두면, 오히려 더 빠르고 안전하게 골짜기에 도착할 수 있다"는 뜻입니다.

💡 왜 이것이 중요한가요?

이 연구는 "왜 우리가 실제로 쓰는 알고리즘 (SGDM) 이 그렇게 잘 작동하는지"에 대한 이론적 근거를 제공했습니다. 또한, 앞으로 더 복잡한 AI 모델 (비매끄러운 구조를 가진 모델) 을 훈련시킬 때, 별도의 복잡한 수정 없이 이 간단한 무작위성만 추가하면 최적의 성능을 낼 수 있음을 보여줍니다.

즉, **"기존의 훌륭한 방법을 아주 조금만 다듬으면, 이론적으로도 완벽해진다"**는 것을 발견한 것입니다.