Each language version is independently generated for its own context, not a direct translation.

🍽️ 배경: 거대한 식당의 문제점

거대한 AI 모델을 훈련시킨다는 건, 수천 명의 요리사 (GPU) 가 모여서 수억 개의 재료를 섞어 거대한 요리를 만드는 것과 같습니다.

하지만 기존 방식에는 두 가지 치명적인 문제가 있었습니다.

요리사들의 업무 불균형 (Workload Imbalance)
- 상황: 어떤 재료를 다듬는 데는 1 초가 걸리고, 어떤 건 10 분이 걸립니다.
- 문제: 모든 요리사가 똑같은 양의 재료를 받으면, 빠른 재료를 다듬은 요리사는 빈손으로 기다리고, 느린 재료를 다듬는 요리사는 뒤처집니다.
- 결과: 식당 전체가 가장 느린 요리사를 기다리게 되어, 전체 요리 속도가 느려집니다. (AI 에서는 '어텐션' 연산이 길이가 다른 데이터에 따라 계산량이 기하급수적으로 달라져서 이런 일이 일어납니다.)
냉장고 과부하 (Memory Redundancy)
- 상황: 식당에 100 가지 종류의 재료가 들어옵니다. 그런데 요리사 100 명이 모두 각자 100 가지 재료의 목록과 포장 상태를 따로따로 기억하고 있어야 합니다.
- 문제: 요리사들이 모두 같은 정보를 중복해서 기억하고 있어서, 냉장고 (메모리) 가 금방 꽉 차버립니다.
- 결과: 재료를 더 많이 넣을 공간이 없어지고, 시스템이 느려집니다.

🚀 해결책: MegaScale-Data (스마트 주방 시스템)

이 문제를 해결하기 위해 개발된 MegaScale-Data는 주방을 완전히 재설계한 3 가지 혁신을 제안합니다.

1. 역할 분담과 전문화 (Disaggregated Preprocessing)

비유: 예전에는 모든 요리사가 재료를 사러 가고, 손질하고, 썰고, 섞는 일을 다 했습니다. 하지만 MegaScale-Data 는 **'전문가 팀'**을 만듭니다.
- 소스 로더 (Source Loader): 특정 재료 (예: 고기만, 채소만) 만 전문적으로 손질하는 팀.
- 데이터 건설자 (Data Constructor): 손질된 재료를 받아서 요리사들이 바로 쓸 수 있도록 접시에 담고 섞는 팀.
효과: 각 팀이 자신의 일만 하니까, 재료를 사러 가는 길 (데이터 접근) 이 중복되지 않습니다. 냉장고에 같은 정보를 여러 번 저장할 필요가 없어져서 공간이 엄청나게 절약됩니다.

2. 중앙 지휘소와 스마트 메뉴판 (Centralized Data Plane)

비유: 이제 모든 요리사가 각자 메뉴를 정하는 게 아니라, **중앙 지휘소 (Planner)**가 전체 상황을 보고 메뉴를 짜줍니다.
- "오늘은 긴 국수 (긴 데이터) 가 많으니, 국수 요리사들에게 더 많은 양을 주고, 짧은 면 요리사들에게는 조금만 주자."
- "이미지 데이터가 많으니 이미지 전문 팀을 더 투입하자."
효과: 요리사들이 서로의 속도를 맞춰서 일할 수 있게 됩니다. 어떤 요리사가 뒤처지지 않도록, 지휘소가 미리 재료를 골고루 배분해 줍니다.

3. 상황에 따른 자동 인원 조절 (Auto-Scaling)

비유: 손님이 갑자기 많아지면 (데이터 양이 늘면) 자동으로 요리사를 더 부르고, 손님이 줄면 인원을 줄입니다.
- 특히 어떤 재료가 처리하는 데 시간이 오래 걸리면, 그 재료를 담당하는 팀의 인원을 자동으로 늘려서 병목 현상을 막습니다.
효과: 자원을 낭비하지 않으면서도, 어떤 재료가 들어와도 주방이 멈추지 않습니다.

🏆 성과: 얼마나 좋아졌을까요?

이 시스템을 도입한 결과, 거대한 AI 식당은 다음과 같은 놀라운 성과를 거두었습니다.

요리 속도 4.5 배 빨라짐: 요리사들이 기다리는 시간이 줄어들어, 하루에 만드는 요리 양이 4.5 배나 늘어났습니다.
냉장고 공간 13.5 배 절약: 불필요한 정보 저장으로 인한 낭비가 사라져서, 같은 냉장고에 훨씬 더 많은 재료를 넣을 수 있게 되었습니다.

💡 한 줄 요약

MegaScale-Data는 거대한 AI 를 가르칠 때, **"누가 무엇을, 언제, 어떻게 처리할지"**를 지능적으로 조정하고, "불필요한 중복 작업을 없애는" 똑똑한 주방 관리 시스템입니다. 덕분에 AI 는 더 빠르고, 더 적은 비용으로 더 똑똑해질 수 있게 되었습니다.

Each language version is independently generated for its own context, not a direct translation.

MegaScale-Data: 다중 소스 대규모 파운데이션 모델 훈련을 위한 데이터 로더 확장 기술 요약

본 논문은 대규모 파운데이션 모델 (LFM) 훈련, 특히 다중 소스 (Multisource) 데이터를 처리할 때 발생하는 데이터 로딩 및 오케스트레이션의 병목 현상을 해결하기 위해 ByteDance Seed 와 홍콩대학교가 제안한 MegaScale-Data라는 산업 수준의 분산 데이터 로딩 아키텍처를 소개합니다.

1. 문제 정의 (Problem)

대규모 파운데이션 모델 (LLM, VLM 등) 훈련은 데이터 병렬성 (Data Parallelism) 을 기반으로 하며, 각 로더가 훈련 데이터의 불연속적인 부분집합을 처리합니다. 그러나 다양한 소스 (텍스트, 이미지, 비디오 등) 로부터 데이터를 혼합하여 훈련할 때 다음과 같은 근본적인 문제가 발생합니다.

작업 부하 불균형 (Workload Imbalance): 어텐션 (Attention) 연산의 이차적 계산 복잡도 ( $O(L^2)$ ) 로 인해, 샘플 길이가 균일하지 않은 경우 데이터 병렬 랭크 (Rank) 간에 심각한 작업 부하 불균형이 발생합니다. 이는 '스트래글러 (Straggler)'를 유발하여 전체 훈련 효율을 저하시킵니다.
메모리 과다 소비 (Memory Overhead): 수백 개의 데이터 소스를 처리할 때, 각 로더가 독립적으로 파일 접근 상태 (소켓, 메타데이터, I/O 버퍼 등) 를 유지하면 소스 수에 비례하여 메모리 사용량이 선형적으로 증가합니다. 또한, 파이프라인 병렬 (PP) 이나 컨텍스트 병렬 (CP) 과 같은 하이브리드 병렬 전략에서 동일한 데이터가 여러 GPU 에서 중복으로 로딩되고 전처리되어 메모리 낭비가 심화됩니다.
동적 데이터 혼합의 어려움: 커리큘럼 러닝 (Curriculum Learning) 과 같이 훈련 중 데이터 혼합 비율이 동적으로 변경되는 경우, 기존 로더는 이를 유연하게 지원하지 못하며, 이질적인 전처리 비용 (예: 텍스트 토크나이징 vs 이미지 디코딩) 을 처리하기 위해 과잉 프로비저닝이 필요합니다.

2. 방법론 (Methodology)

MegaScale-Data 는 데이터 전처리와 최종 전달을 분리 (Disaggregation) 하고, 중앙 집중식 데이터 플레인을 도입하여 위 문제들을 해결합니다.

핵심 아키텍처 구성 요소

분리된 전처리 아키텍처 (Disaggregated Preprocessing):
- Source Loader (소스 로더): 특정 데이터 소스 전용으로 동작하는 역할 기반 (Actor) 프로세스입니다. 샘플 단위 변환 (예: JPEG 디코딩, 텍스트 토크나이징) 을 수행하며, 파일 접근 상태를 격리하여 소스별 중복 메모리 사용을 제거합니다.
- Data Constructor (데이터 생성자): 랭크 (Rank) 단위의 데이터 싱크 역할을 합니다. Source Loader 들의 출력을 집계하여 배치 단위 연산 (패딩, 패킹) 및 병렬성 변환 (Parallelism Transformation) 을 수행합니다. 이를 통해 동일한 CP 그룹 내 랭크 간 데이터 공유가 가능해지고, PP 단계에서 불필요한 메타데이터를 제외할 수 있습니다.
중앙 집중식 선언형 데이터 플레인 (Centralized Declarative Data Plane):
- DGraph: 데이터 샘플의 수명 주기와 의존성을 추적하는 상태 기반 데이터 흐름 그래프입니다.
- ClientPlaceTree: 훈련 장치 (GPU) 의 토폴로지를 계층적으로 표현하여 하이브리드 병렬 전략 (DP, PP, CP, TP) 을 인지한 스케줄링을 가능하게 합니다.
- Planner: DGraph 와 ClientPlaceTree 를 기반으로 로드 타임 (Load-time) 에 데이터 혼합 (Mixing), 로드 밸런싱, 스케줄링 계획을 생성합니다.
적응형 멀티소스 자동 스케일링 (Adaptive Multisource Scaling):
- 오프라인 자동 파티셔닝: 이질적인 전처리 비용과 메모리 요구사항에 따라 소스 로더를 자동으로 파티셔닝하고 워크워커 수를 결정합니다.
- 온라인 혼합 기반 스케일링: 훈련 중 데이터 혼합 비율이 변경될 때, Planner 가 실시간으로 Source Loader 의 리소스를 확장/축소하여 데이터 공급 속도를 최적화합니다.
내결함성 및 탄력성:
- Shadow Loader: 장애 발생 시 즉시 페일오버 (Failover) 를 위한 대기열 로더를 유지합니다.
- 차등 체크포인팅 (Differential Checkpointing): 대용량 버퍼 스냅샷 오버헤드를 줄이기 위해 Planner 와 Source Loader 간의 체크포인팅 주기를 다르게 설정하고, Planner 상태의 결정론적 재생 (Replay) 을 통해 복구합니다.

3. 주요 기여 (Key Contributions)

분리된 다중 소스 전처리 아키텍처: Actor 모델 기반의 파이프라인을 설계하여 LFM 다중 소스 데이터 전처리에서의 중복 데이터 접근과 메모리 오버헤드를 제거했습니다.
선언형 로드 타임 데이터 오케스트레이션: DGraph 와 ClientPlaceTree 추상화를 통해 하이브리드 병렬성을 인지하는 데이터 오케스트레이션을 최소한의 코딩 노력으로 구현할 수 있게 했습니다.
적응형 멀티소스 스케일링: 이질적인 소스 전처리 비용과 변화하는 데이터 혼합 비율에 따라 CPU 활용도를 동적으로 최적화하는 확장 가능한 알고리즘을 제안했습니다.
실제 환경 검증: 최대 4,096 개의 GPU 클러스터에서 배포 및 운영 경험을 공유하며, 내결함성 메커니즘을 포함한 실제 운영 사례를 제시했습니다.

4. 실험 결과 (Results)

MegaScale-Data 는 4,096 GPU 규모 클러스터에서 다양한 모델 (Llama, ViT, MoE 등) 과 데이터셋 (coyo700m, navit_data) 을 사용하여 평가되었습니다.

훈련 처리량 향상: 기존 데이터 병렬 베이스라인 대비 최대 4.5 배의 엔드 - 투 - 엔드 훈련 처리량 (Throughput) 향상을 달성했습니다. 특히 긴 컨텍스트 길이 (16k 이상) 와 이질적인 데이터 혼합 환경에서 성능 향상이 두드러졌습니다.
메모리 사용량 감소: CPU 메모리 사용량을 최대 13.5 배 감소시켰습니다. 이는 소스별 파일 접근 상태의 중복 제거와 병렬성 중복 (Redundancy) 제거 덕분입니다.
확장성: 576 GPU 에서 1,152 GPU 로 확장 시, 기존 시스템은 통신 병목으로 인해 데이터 로딩 지연이 급증했으나, MegaScale-Data 는 데이터 재분배를 통해 처리량을 유지했습니다.
오버헤드: 데이터 로딩 오케스트레이션에 소요되는 API 오버헤드는 훈련 반복 시간의 매우 작은 부분 (수십 ms 수준) 을 차지하여 훈련을 방해하지 않았습니다.

5. 의의 및 결론 (Significance)

MegaScale-Data 는 대규모 파운데이션 모델 훈련의 데이터 효율성 문제를 해결하는 중요한 이정표입니다.

병목 현상의 전환: 기존 연구가 CPU 계산 능력이나 캐싱에 집중했다면, MegaScale-Data 는 다중 소스로 인한 메모리 중복과 이질적인 데이터 혼합에 따른 부하 불균형을 주요 병목으로 인식하고 이를 해결했습니다.
하이브리드 병렬성 지원: PP, CP, TP, DP 가 복합적으로 적용되는 현대적인 LFM 훈련 환경에 맞춰, 데이터 로딩 단계에서부터 병렬 구조를 인지하고 최적화하는 첫 번째 체계적인 솔루션 중 하나입니다.
산업적 적용 가능성: 4,096 GPU 규모의 대규모 클러스터에서 안정적으로 작동하며, 동적 데이터 혼합과 내결함성을 보장함으로써 실제 산업 환경에서의 대규모 모델 훈련을 가능하게 합니다.

결론적으로, MegaScale-Data 는 데이터 로딩 아키텍처의 근본적인 재설계를 통해 대규모 AI 모델 훈련의 확장성과 효율성을 획기적으로 개선한 기술입니다.

MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training