A Convergence Analysis of Adaptive Optimizers under Floating-point Quantization

이 논문은 그라디언트, 가중치, 옵티마이저 상태의 부동소수점 양자화 하에서 Adam 과 Muon 같은 적응형 옵티마이저의 수렴성을 분석하는 최초의 이론적 프레임워크를 제시하며, 양자화 오차가 수렴률에 미치는 영향을 규명하고 Muon 이 Adam 보다 양자화에 더 강건할 수 있음을 보여줍니다.

Xuan Tang, Jichu Li, Difan Zou

게시일 2026-03-03
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

이 논문은 **"왜 거대한 인공지능 (LLM) 을 만들 때, 컴퓨터가 계산하는 숫자의 정밀도를 낮춰도 (저정밀도) 여전히 잘 작동하는지?"**에 대한 수학적 해답을 제시합니다.

기존 이론은 "모든 계산이 완벽하게 정확해야 한다"고 가정했지만, 실제로는 메모리를 아끼기 위해 숫자를 잘게 자르거나 (양자화) 반올림하는 방식을 씁니다. 이 논문은 그 '잘못된' 계산이 왜 오히려 큰 문제를 일으키지 않는지, 그리고 어떤 최적화 알고리즘이 더 튼튼한지를 증명했습니다.

이 복잡한 내용을 일상적인 비유로 쉽게 설명해 드릴게요.


1. 배경: 거대한 도시 건설과 '빠른 공사' (저정밀도 학습)

거대한 언어 모델 (LLM) 을 훈련시키는 것은 거대한 도시를 건설하는 것과 같습니다.

  • 기존 방식 (고정밀도): 모든 자재 (데이터) 를 미터 단위로 정확히 재서 쓰면 실수는 없지만, 시간이 너무 오래 걸리고 자재비 (메모리) 가 너무 비쌉니다.
  • 새로운 방식 (저정밀도): "대충 1 미터면 돼, 1.0001 미터까지 재지 마!"라고 합니다. 자재는 줄고 공사 속도는 빨라집니다. 하지만 **정확하지 않게 재면 건물이 무너지지 않을까?**라는 걱정이 있었습니다.

실제로는 건물이 잘 지어지는데, 왜 그런지 이론적으로 설명하는 사람이 없었습니다. 이 논문이 바로 그 **'이유'**를 찾아낸 것입니다.

2. 두 명의 건축 감독 (Adam vs Muon)

도시 건설에는 두 가지 다른 감독 (최적화 알고리즘) 이 있습니다.

① 감독 '아담 (Adam)': 꼼꼼하지만 예민한 베테랑

  • 특징: 과거의 실수 (기울기) 를 기억해서 다음 계획을 세웁니다. 특히 "과거의 실수가 얼마나 컸는지"를 아주 세심하게 기록합니다 (β2\beta_2 파라미터).
  • 문제점: 이 감독은 정밀도가 조금만 떨어져도 매우 예민하게 반응합니다. 마치 "과거의 실수 기록을 100% 정확히 기억해야만 다음 계획을 잘 세울 수 있다"고 믿는 것처럼, 숫자를 반올림하면 그 오차가 증폭되어 건물이 흔들릴 수 있습니다.
  • 논문이 말한 것: 아담이 잘 작동하려면, 과거 기록 (2 차 모멘트) 과 자재 (가중치) 의 정밀도는 아주 높아야 합니다. 그래야만 "대충" 계산해도 건물이 무너지지 않습니다.

② 감독 '뮤온 (Muon)': 유연하고 튼튼한 천재

  • 특징: 아담처럼 과거의 실수 크기를 세세하게 쫓기보다, 방향 (벡터) 을 잘 맞추는 데 집중합니다. 수학적으로 '특이값 분해 (SVD)'라는 강력한 도구를 써서 방향을 잡습니다.
  • 장점: 이 감독은 정밀도가 조금 떨어져도 크게 신경 쓰지 않습니다. 숫자를 대충 반올림해도 방향만 맞으면 건물이 잘 지어집니다.
  • 논문이 말한 것: 뮤온은 아담보다 오차에 훨씬 덜 민감합니다. 그래서 저정밀도 환경 (메모리가 부족한 상황) 에서 더 잘 견디고, 더 빠르게 건물을 지을 수 있습니다.

3. 핵심 발견: "숫자 자르는 정도"가 중요해

논문은 **"숫자를 얼마나 잘게 자르느냐 (부동소수점의 맨티사 길이)"**가 핵심이라고 말합니다.

  • 비유: 자를 때 1mm 단위까지 재는지 (정밀함), 1cm 단위만 재는지 (대충) 의 차이입니다.
  • 결과:
    • 아담: 1cm 단위로 재면 건물이 흔들립니다. 최소 1mm 단위는 지켜줘야 합니다.
    • 뮤온: 1cm 단위로 재도 건물이 튼튼합니다.
    • 놀라운 사실: 만약 우리가 반복 횟수가 늘어날수록 자르는 정밀도를 아주 조금씩만 높여준다면 (로그 스케일), 아담도 뮤온도 원래의 완벽한 정밀도와 똑같은 속도로 건물을 지을 수 있다는 것을 수학적으로 증명했습니다.

4. 실험: 실제 시뮬레이션

저자들은 컴퓨터로 여러 실험을 해보았습니다.

  • 인공 산 (로젠브록 함수): 아담은 정밀도가 낮아지면 산 정상에 도달하는 데 걸리는 시간이 길어지거나 아예 못 갔지만, 뮤온은 정밀도가 낮아도 정상에 잘 올라갔습니다.
  • 실제 이미지 (CIFAR-10) 와 언어 모델 (nanoGPT): 실제 데이터를 이용해 훈련시켰을 때도 같은 결과가 나왔습니다. 뮤온이 아담보다 저정밀도 환경에서 더 강인하게 작동했습니다.

5. 결론: 왜 이 논문이 중요한가?

이 논문은 **"왜 우리가 메모리를 아끼기 위해 숫자를 대충 계산해도 AI 가 잘 작동하는지"**에 대한 첫 번째 확실한 이론적 근거를 제시했습니다.

  • 기존의 오해: "정확하지 않으면 안 될 거야."
  • 이 논문의 진실: "적당한 오차는 허용되지만, 어떤 알고리즘을 쓰느냐에 따라 그 오차를 견디는 능력이 다릅니다."

한 줄 요약:

"거대한 AI 를 만들 때, **아담 (Adam)**은 정밀한 자를 필요하지만, **뮤온 (Muon)**은 대충 자르는 자로도 잘 작동합니다. 그래서 앞으로는 메모리를 아끼고 빠르게 AI 를 훈련시킬 때 뮤온이 더 좋은 선택지가 될 수 있습니다."

이 연구는 앞으로 더 크고 빠른 AI 를 개발할 때, 하드웨어의 한계를 넘어서는 새로운 길을 열어줍니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →