veScale-FSDP: Flexible and High-Performance FSDP at Scale

이 논문은 기존 FSDP 시스템의 구조 인식 훈련 및 비 요소 단위 옵티마이저 지원 한계를 해결하고, 유연한 'RaggedShard' 포맷과 구조 인식 계획 알고리즘을 도입하여 처리량을 5~66% 향상시키고 메모리 사용량을 16~30% 절감하며 대규모 GPU 환경에서 효율적으로 확장 가능한 'veScale-FSDP'를 제안합니다.

Zezhou Wang, Youjie Li, Zhiqi Lin, Jiacheng Yang, Cong Xie, Guanyu Feng, Zheng Zhong, Ziyue Huang, Hongyu Zhu, Zhi Zhang, Yanghua Peng, Xin Liu

게시일 2026-03-02
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

거대 AI 모델을 훈련시키는 새로운 비법: veScale-FSDP

안녕하세요! 오늘 소개해 드릴 논문은 **"veScale-FSDP"**라는 이름의 새로운 기술입니다. 이 기술은 거대한 인공지능 (AI) 모델을 가르치는 (훈련시키는) 방식을 완전히 바꾼 혁신적인 시스템입니다.

이걸 이해하기 쉽게, 거대한 레고 성을 짓는 상황에 비유해 설명해 드릴게요.


1. 문제: 왜 기존 방식은 힘들었을까? (레고 조각이 너무 작아서)

거대 AI 모델을 훈련시킨다는 건, 수조 개의 레고 조각 (데이터와 지식) 을 수천 개의 작업자 (GPU) 가 나눠서 조립하는 것과 같습니다.

  • 기존 방식 (FSDP): 과거에는 이 레고 조각들을 무작위로 잘게 부숴서 각 작업자에게 나누어 주었습니다.
    • 문제 1 (잘못된 자르기): 어떤 레고 조각은 '벽돌' 단위로 잘려야 하는데, 기존 방식은 '벽돌의 반'이나 '조각' 단위로 잘라버렸습니다. 그래서 작업자가 조립할 때, "아! 이 조각은 내 것이 아니야, 옆 친구에게서 가져와야 해!"라고 계속 주고받으며 시간이 낭비되었습니다.
    • 문제 2 (비효율적인 공간): 작업대 (메모리) 가 너무 좁아서, 필요한 레고 조각만 가져오려고 하면 쓸데없는 빈 공간까지 차지하게 되어, 작업자가 "여기 공간이 부족해!"라고 외치며 멈추는 경우가 많았습니다.
    • 문제 3 (새로운 도구 사용 불가): 최근에는 '벽돌 전체'를 한 번에 다루는 새로운 도구 (특수한 최적화 알고리즘) 가 나왔는데, 기존 방식은 조각이 너무 잘게 나뉘어 있어 이 도구를 쓸 수 없었습니다.

2. 해결책: veScale-FSDP 의 등장 (똑똑한 레고 정리사)

이 문제를 해결하기 위해 등장한 것이 veScale-FSDP입니다. 이 시스템은 두 가지 핵심 아이디어로 작동합니다.

① 'RaggedShard(불규칙한 조각)' 방식: 상황에 맞춰 잘라라!

기존에는 무조건 똑같은 크기로만 잘랐다면, veScale-FSDP 는 레고 조각의 모양에 맞춰서 잘라줍니다.

  • 비유: 만약 어떤 레고 블록이 '벽돌 10 개' 단위라면, 10 개 단위로 딱 잘라 작업자에게 줍니다. '벽돌 3 개' 단위라면 3 개 단위로 줍니다.
  • 효과: 작업자는 조각을 다시 조립할 필요가 없으니, 조립 속도 (훈련 속도) 가 훨씬 빨라집니다. 또한, 새로운 도구 (Muon 옵티마이저 등) 를 쓰더라도 조각이 깨지지 않아 바로 사용할 수 있습니다.

② 'DBuffer(공유 창고)'와 '스마트 계획': 공간과 시간을 아껴라!

  • DBuffer (공유 창고): 각 작업자가 따로따로 창고를 쓰는 대신, 거대한 공유 창고를 만들어서 레고를 바로 꺼내 쓸 수 있게 했습니다. 이렇게 하면 레고를 옮기는 (복사하는) 시간이 거의 사라집니다.
  • 스마트 계획 알고리즘: "누가 어떤 레고를 몇 개씩 가져가야 가장 빨리, 그리고 가장 적게 공간만 차지할까?"를 계산하는 초지능 계획사가 있습니다. 이 계획사는 불필요한 빈 공간 (패딩) 을 최소화하고, 작업자들 간의 이동 경로를 최적화합니다.

3. 실제 성과: 얼마나 빨라졌을까?

이 새로운 시스템을 도입한 결과, 놀라운 변화가 일어났습니다.

  • 속도: 기존 시스템보다 5% 에서 최대 66% 까지 더 빠릅니다. (레고 성을 짓는 속도가 거의 두 배에 가까워진 셈입니다.)
  • 공간: 필요한 메모리 (작업대 공간) 가 16% 에서 30% 까지 줄었습니다. 같은 공간으로 더 많은 작업을 할 수 있게 된 것입니다.
  • 확장성: 이제 **수만 개의 GPU(작업자)**가 함께 일해도 효율이 떨어지지 않습니다. 마치 10,000 명의 레고 장인들이 함께 일해도 서로 부딪히지 않고 질서 있게 일하는 것과 같습니다.

4. 왜 이것이 중요한가요?

이 기술은 단순히 "더 빠르다"는 것을 넘어, AI 연구자들이 더 자유롭게 상상할 수 있게 해줍니다.

  • 자유로운 설계: 연구자들은 "내 모델은 이렇게 생겼으니, 조각을 이렇게 잘라줘"라고 말하면 시스템이 알아서 맞춰줍니다. 기존처럼 시스템에 맞춰 모델을 고칠 필요가 없습니다.
  • 새로운 기술 수용: 앞으로 나올 더 복잡한 AI 모델이나 새로운 학습 방법도 이 시스템이 자연스럽게 받아들여줍니다.

요약

veScale-FSDP는 거대 AI 모델을 훈련시킬 때, 레고 조각을 무작위로 자르지 않고 모양에 맞춰 똑똑하게 잘라주고, 공유 창고를 효율적으로 관리하며, 최적의 이동 경로를 계획해주는 시스템입니다. 덕분에 우리는 더 빠르고, 더 저렴하게, 더 큰 AI 모델을 만들 수 있게 되었습니다.

이 기술은 이미 실제 산업 현장에서 수만 개의 GPU 를 활용해 검증되었으며, 앞으로 우리가 만나게 될 더 똑똑한 AI 들의 기반이 될 것입니다.

이런 논문을 받은편지함으로 받아보세요

관심사에 맞는 일간 또는 주간 다이제스트. Gist 또는 기술 요약을 당신의 언어로.

Digest 사용해 보기 →