Smoothing DiLoCo with Primal Averaging for Faster Training of LLMs

이 논문은 Nesterov 모멘텀의 보간 상수를 분리하여 메모리 효율성을 높이고 매 단계에서 부드러운 평균화를 가능하게 하는 '일반화된 원소 평균화 (GPA)'를 제안함으로써, 단일 작업자 DiLoCo 및 AdamW 대비 LLM 및 비전 모델 학습 속도를 크게 향상시키고 수렴 보장을 증명합니다.

Aaron Defazio, Konstantin Mishchenko, Parameswaran Raman, Hao-Jun Michael Shi, Lin Xiao

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

1. 배경: 왜 새로운 방법이 필요할까요?

거대한 언어 모델 (LLM) 을 훈련시키는 것은 마치 수백만 권의 책 (데이터) 을 읽어서 지식을 쌓는 과정과 같습니다.
기존에 가장 많이 쓰이던 방법 (AdamW) 은 한 번에 한 페이지씩 꼼꼼히 읽는 방식입니다. 안정적이지만, 시간이 너무 오래 걸립니다.

최근 등장한 DiLoCo라는 방법은 조금 더 똑똑해 보였습니다.

  • DiLoCo 의 방식: "일단 32 장을 빠르게 훑어보고 (내부 단계), 그 내용을 머릿속에 정리한 뒤, 한 번에 큰 결론을 내서 다음 단계로 넘어가자 (외부 단계)."
  • 장점: 훨씬 빠르게 학습이 진행됩니다.
  • 단점: 이 방법은 **'이중 루프 (두 단계 구조)'**라는 복잡한 시스템을 사용합니다. 마치 메모리 (기억 공간) 를 두 배나 많이 쓰는 방식이라, 컴퓨터가 무거워지고 설정을 맞추기 매우 어렵습니다. 또한, 32 장을 읽는다는 규칙이 너무 딱딱해서 상황에 따라 유연하게 대처하지 못합니다.

2. 해결책: GPA (Generalized Primal Averaging)

저자들은 DiLoCo 의 아이디어는 좋지만, 그 '복잡한 두 단계 구조'를 없애고 매 순간 부드럽게 이어지는 방법을 개발했습니다. 이것이 바로 GPA입니다.

🏂 비유: 스케이트보드 타기

  • 기존 방법 (DiLoCo): 스케이트보드를 타다가 32 초마다 멈춰서 "지금까지의 평균 속도를 계산하고, 그걸로 방향을 크게 틀어라"라고 합니다. 멈추고 계산하는 동안 속도가 느려지고, 방향 전환이 거칠 수 있습니다.
  • 새로운 방법 (GPA): 멈추지 않고 매 순간 "지금까지의 흐름을 부드럽게 평균내면서 방향을 살짝씩 조정해라"라고 합니다.
    • DiLoCo 가 **'갑작스러운 방향 전환'**을 한다면, GPA 는 **'부드러운 커브'**를 그립니다.
    • 이 부드러운 흐름 덕분에 컴퓨터가 더 빠르게, 더 안정적으로 목적지 (최적의 성능) 에 도달합니다.

3. GPA 의 핵심 아이디어 3 가지

  1. 두 가지 '나침반'을 따로 다룹니다 (Decoupling):

    • 기존 방법은 '계산할 때 쓰는 나침반'과 '결과를 보는 나침반'이 같은 값을 사용했습니다.
    • GPA 는 이 둘을 별개로 조절합니다.
      • 학습용 나침반 (µy): 데이터를 얼마나 빠르게 반영할지 결정합니다.
      • 결과용 나침반 (µx): 지금까지의 학습을 얼마나 부드럽게 평균낼지 결정합니다.
    • 마치 운전할 때 핸들 (방향) 과 브레이크 (속도 조절) 를 따로 조절하듯이, 더 정교하게 컨트롤할 수 있습니다.
  2. 메모리 절약 (Memory Efficiency):

    • DiLoCo 는 두 개의 큰 메모리 공간 (모델의 상태) 을 동시에 유지해야 해서 무거웠습니다.
    • GPA 는 이 과정을 하나의 공간으로 합쳐서 계산합니다. 마치 한 손에 들고 다니는 노트북으로 모든 일을 처리하는 것처럼, 컴퓨터의 부담을 크게 줄여줍니다.
  3. 설정이 더 쉽습니다:

    • DiLoCo 는 "내부 단계 수", "외부 학습률", "모멘텀" 등 설정할 게 많았습니다.
    • GPA 는 설정할 게 적고, 어떤 모델 (작은 모델 vs 큰 모델) 이든 잘 작동하도록 설계되었습니다.

4. 실제 성과: 얼마나 빨라졌나요?

논문의 실험 결과, GPA 는 기존 방법들보다 약 8~10% 더 빠른 속도로 학습 목표를 달성했습니다.

  • 작은 모델 (160M 파라미터): 8.71% 빨라짐.
  • 중간 모델 (1B 파라미터): 10.13% 빨라짐.
  • 큰 모델 (8B 파라미터): 9.58% 빨라짐.
  • 이미지 인식 (ImageNet): 작은 배치에서는 7%, 큰 배치에서는 무려 **25.5%**나 빨라졌습니다.

이는 마치 기차 여행에서 10 분을 아껴서 더 일찍 목적지에 도착하는 것과 같습니다. AI 개발자들에게는 이 10 분이 수천만 원의 비용 절감으로 이어집니다.

5. 결론: 왜 이 논문이 중요한가요?

이 논문은 **"복잡한 두 단계 구조 (DiLoCo) 를 유지하면서 얻는 장점만 가져오고, 단점 (메모리 과부하, 설정 어려움) 은 없애버렸다"**는 점에서 획기적입니다.

  • **GPA 는 DiLoCo 의 '부드러운 버전'**입니다.
  • **GPA 는 Schedule-Free(학습률 조절이 필요 없는 방법) 의 '유연한 버전'**입니다.

결론적으로, 이 기술은 앞으로 더 크고 똑똑한 AI 를 만들 때 시간과 돈을 아껴주며, 더 안정적인 학습을 가능하게 해주는 핵심 열쇠가 될 것입니다.


한 줄 요약:

"AI 학습을 위해 복잡한 '중간 휴식'을 없애고, 매 순간 부드럽게 평균을 내며 달리는 새로운 방법 (GPA) 을 개발하여, 기존보다 10% 이상 빠르고 메모리도 아껴주는 성과를 냈다."

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →