MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

이 논문은 다중 소스 대규모 기초 모델 학습 시 발생하는 워크로드 불균형과 메모리 과소비 문제를 해결하여 학습 처리량을 4.5 배, CPU 메모리 사용량을 13.5 배 개선한 분산 데이터 로딩 아키텍처 'MegaScale-Data'를 제안합니다.

Juntao Zhao, Qi Lu, Wei Jia, Borui Wan, Lei Zuo, Junda Feng, Jianyu Jiang, Yangrui Chen, Shuaishuai Cao, Jialing He, Kaihua Jiang, Yuanzhe Hu, Shibiao Nong, Yanghua Peng, Haibin Lin, Chuan Wu

게시일 2026-03-17
📖 3 분 읽기☕ 가벼운 읽기

Each language version is independently generated for its own context, not a direct translation.

🍽️ 배경: 거대한 식당의 문제점

거대한 AI 모델을 훈련시킨다는 건, 수천 명의 요리사 (GPU) 가 모여서 수억 개의 재료를 섞어 거대한 요리를 만드는 것과 같습니다.

하지만 기존 방식에는 두 가지 치명적인 문제가 있었습니다.

  1. 요리사들의 업무 불균형 (Workload Imbalance)

    • 상황: 어떤 재료를 다듬는 데는 1 초가 걸리고, 어떤 건 10 분이 걸립니다.
    • 문제: 모든 요리사가 똑같은 양의 재료를 받으면, 빠른 재료를 다듬은 요리사는 빈손으로 기다리고, 느린 재료를 다듬는 요리사는 뒤처집니다.
    • 결과: 식당 전체가 가장 느린 요리사를 기다리게 되어, 전체 요리 속도가 느려집니다. (AI 에서는 '어텐션' 연산이 길이가 다른 데이터에 따라 계산량이 기하급수적으로 달라져서 이런 일이 일어납니다.)
  2. 냉장고 과부하 (Memory Redundancy)

    • 상황: 식당에 100 가지 종류의 재료가 들어옵니다. 그런데 요리사 100 명이 모두 각자 100 가지 재료의 목록과 포장 상태를 따로따로 기억하고 있어야 합니다.
    • 문제: 요리사들이 모두 같은 정보를 중복해서 기억하고 있어서, 냉장고 (메모리) 가 금방 꽉 차버립니다.
    • 결과: 재료를 더 많이 넣을 공간이 없어지고, 시스템이 느려집니다.

🚀 해결책: MegaScale-Data (스마트 주방 시스템)

이 문제를 해결하기 위해 개발된 MegaScale-Data는 주방을 완전히 재설계한 3 가지 혁신을 제안합니다.

1. 역할 분담과 전문화 (Disaggregated Preprocessing)

  • 비유: 예전에는 모든 요리사가 재료를 사러 가고, 손질하고, 썰고, 섞는 일을 다 했습니다. 하지만 MegaScale-Data 는 **'전문가 팀'**을 만듭니다.
    • 소스 로더 (Source Loader): 특정 재료 (예: 고기만, 채소만) 만 전문적으로 손질하는 팀.
    • 데이터 건설자 (Data Constructor): 손질된 재료를 받아서 요리사들이 바로 쓸 수 있도록 접시에 담고 섞는 팀.
  • 효과: 각 팀이 자신의 일만 하니까, 재료를 사러 가는 길 (데이터 접근) 이 중복되지 않습니다. 냉장고에 같은 정보를 여러 번 저장할 필요가 없어져서 공간이 엄청나게 절약됩니다.

2. 중앙 지휘소와 스마트 메뉴판 (Centralized Data Plane)

  • 비유: 이제 모든 요리사가 각자 메뉴를 정하는 게 아니라, **중앙 지휘소 (Planner)**가 전체 상황을 보고 메뉴를 짜줍니다.
    • "오늘은 긴 국수 (긴 데이터) 가 많으니, 국수 요리사들에게 더 많은 양을 주고, 짧은 면 요리사들에게는 조금만 주자."
    • "이미지 데이터가 많으니 이미지 전문 팀을 더 투입하자."
  • 효과: 요리사들이 서로의 속도를 맞춰서 일할 수 있게 됩니다. 어떤 요리사가 뒤처지지 않도록, 지휘소가 미리 재료를 골고루 배분해 줍니다.

3. 상황에 따른 자동 인원 조절 (Auto-Scaling)

  • 비유: 손님이 갑자기 많아지면 (데이터 양이 늘면) 자동으로 요리사를 더 부르고, 손님이 줄면 인원을 줄입니다.
    • 특히 어떤 재료가 처리하는 데 시간이 오래 걸리면, 그 재료를 담당하는 팀의 인원을 자동으로 늘려서 병목 현상을 막습니다.
  • 효과: 자원을 낭비하지 않으면서도, 어떤 재료가 들어와도 주방이 멈추지 않습니다.

🏆 성과: 얼마나 좋아졌을까요?

이 시스템을 도입한 결과, 거대한 AI 식당은 다음과 같은 놀라운 성과를 거두었습니다.

  • 요리 속도 4.5 배 빨라짐: 요리사들이 기다리는 시간이 줄어들어, 하루에 만드는 요리 양이 4.5 배나 늘어났습니다.
  • 냉장고 공간 13.5 배 절약: 불필요한 정보 저장으로 인한 낭비가 사라져서, 같은 냉장고에 훨씬 더 많은 재료를 넣을 수 있게 되었습니다.

💡 한 줄 요약

MegaScale-Data는 거대한 AI 를 가르칠 때, **"누가 무엇을, 언제, 어떻게 처리할지"**를 지능적으로 조정하고, "불필요한 중복 작업을 없애는" 똑똑한 주방 관리 시스템입니다. 덕분에 AI 는 더 빠르고, 더 적은 비용으로 더 똑똑해질 수 있게 되었습니다.

연구 분야의 논문에 파묻히고 계신가요?

연구 키워드에 맞는 최신 논문의 일일 다이제스트를 받아보세요 — 기술 요약 포함, 당신의 언어로.

Digest 사용해 보기 →