MegaScale-Data: Scaling Dataloader for Multisource Large Foundation Model Training

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous organisez un gigantesque festival de cuisine pour apprendre à un robot à devenir le meilleur chef du monde (c'est ce qu'on appelle un "Modèle de Fondation" ou LLM).

Pour que ce robot apprenne, il doit goûter des millions de plats différents : des soupes (texte), des salades (images), et des plats complexes (vidéos). Le problème, c'est que dans la version actuelle de ces festivals, l'organisation est un vrai chaos.

Voici l'histoire de MegaScale-Data, la nouvelle organisation qui a résolu ce chaos, expliquée simplement.

1. Le Problème : Le Festival en Panique 🌪️

Dans les anciennes méthodes, chaque cuisinier (le processeur du robot) avait sa propre petite cuisine et devait :

Chercher ses propres ingrédients dans des milliers de placards différents (des sources de données).
Préparer ses propres assiettes tout seul.

Cela créait deux gros problèmes :

Le déséquilibre (L'effet "Stragglers") : Imaginez que le Cuisinier A doit préparer une salade simple (rapide), tandis que le Cuisinier B doit dépecer un dinosaure entier (très long). Comme le robot attend que tout le monde ait fini pour passer à l'étape suivante, le Cuisinier A reste à rien faire en attendant B. C'est du temps perdu ! De plus, les plats de longueurs différentes (une phrase courte vs un roman) compliquent encore plus le calcul.
La mémoire débordée : Chaque cuisinier devait garder une copie de tous les plans de tous les placards dans sa tête. Avec des centaines de sources de données, leurs cerveaux (la mémoire RAM) explosaient, juste pour gérer les listes de courses, sans même avoir commencé à cuisiner.

2. La Solution : MegaScale-Data, le Chef d'Orchestre Magique 🎻

Les auteurs ont inventé MegaScale-Data. Au lieu de laisser chaque cuisinier travailler en solitaire, ils ont réorganisé toute la cuisine en trois équipes spécialisées qui travaillent ensemble comme une équipe de rugby bien rodée.

A. Les "Chasseurs d'Ingrédients" (Source Loaders) 🏃‍♂️

Au lieu que chaque cuisinier aille chercher ses propres ingrédients, il y a maintenant des chasseurs spécialisés.

Un chasseur ne s'occupe que des tomates.
Un autre ne s'occupe que des livres.
Ils préparent les ingrédients de base (découper, nettoyer) et les déposent sur un tapis roulant central.
Le gain : Plus besoin que chaque cuisinier garde la liste de tous les placards dans sa tête. On économise énormément de mémoire.

B. Le "Chef de Cuisine Central" (Data Constructor) 👨‍🍳

C'est le chef qui reçoit les ingrédients préparés par les chasseurs. Son travail est de :

Mélanger intelligemment : Il sait exactement combien de tomates et de livres il faut pour l'assiette parfaite.
Équilibrer les charges : Si le robot a besoin de 10 assiettes, le chef s'assure que chaque cuisinier reçoit une assiette de taille et de difficulté égale. Si l'un a un plat complexe, le chef lui donne moins de plats, et à l'autre, il donne plus de plats simples.
Le gain : Personne n'attend plus personne. Tout le monde travaille à la même vitesse.

C. Le "Planificateur" (Planner) 🧠

C'est le cerveau qui regarde la carte du festival en temps réel.

Il dit : "Aujourd'hui, on veut 70% de soupes et 30% de salades."
Il ajuste les chasseurs et le chef de cuisine instantanément.
Si un cuisinier tombe malade (panne de serveur), le planificateur réassigne ses tâches à un remplaçant immédiatement, sans arrêter le festival.

3. Les Analogies Clés pour Comprendre

L'Analogie du Tapis Roulant (Disaggregation) :
Imaginez une chaîne de montage de voitures. Avant, chaque ouvrier devait aller chercher ses propres boulons, ses propres pneus et ses propres moteurs, et les stocker dans son coin. C'était lent et encombré.
Avec MegaScale-Data, il y a des livreurs qui apportent les boulons, d'autres les pneus, et un monteur qui assemble le tout sur un tapis roulant. Chaque ouvrier ne fait que ce qu'il sait faire le mieux.
L'Analogie du Concert (Orchestration) :
Avant, chaque musicien jouait sa partition sans écouter les autres. Le violoniste jouait trop vite, le batteur trop lentement. Le résultat était une cacophonie.
MegaScale-Data est le chef d'orchestre. Il regarde le violoniste et dit : "Ralentis un peu, le batteur n'est pas prêt". Il ajuste le tempo en temps réel pour que tout le monde joue parfaitement ensemble.

4. Les Résultats Magiques 🚀

Grâce à cette nouvelle organisation, les résultats sont bluffants :

Vitesse x4,5 : Le robot apprend presque 5 fois plus vite car il ne perd plus de temps à attendre ou à chercher des ingrédients.
Mémoire x13,5 : Ils ont réduit l'utilisation de la mémoire de 13 fois ! C'est comme si vous pouviez tenir un festival pour 10 000 personnes dans un petit garage, juste en organisant mieux le rangement.

En Résumé

MegaScale-Data a transformé la préparation des données pour l'Intelligence Artificielle d'une course de relais chaotique où chacun courait seul, en une équipe de relais parfaitement synchronisée.

Au lieu de gaspiller de l'énergie à chercher des informations et à attendre les autres, ils ont créé un système où les tâches sont réparties équitablement, la mémoire est utilisée intelligemment, et le robot apprend à une vitesse fulgurante. C'est la différence entre un chantier en désordre et une usine de haute technologie.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'entraînement des grands modèles de fondation (LFM - Large Foundation Models), tels que les modèles de langage et de vision (VLM), repose sur des pipelines de données complexes. Les frameworks modernes utilisent des chargements de données (dataloaders) en parallélisme de données, où chaque processeur gère un sous-ensemble disjoint des données. Cependant, l'entraînement de LFMs à partir de sources de données multiples et hétérogènes (texte, images, vidéo, domaines spécifiques) pose deux défis fondamentaux que les architectures actuelles ne parviennent pas à résoudre efficacement :

Déséquilibre de charge (Workload Imbalance) : La distribution non uniforme des échantillons (par exemple, des séquences de longueurs très variables) combinée à la complexité quadratique de l'opérateur d'attention ( $O(l^2)$ ) crée des déséquilibres majeurs entre les rangs de parallélisme de données. Cela entraîne des goulots d'étranglement (stragglers), des bulles dans les pipelines et réduit l'efficacité globale de l'entraînement.
Surconsommation mémoire et redondance : Les architectures actuelles répliquent l'état d'accès aux fichiers (sockets, métadonnées, tampons I/O) pour chaque chargement de données et chaque source. Avec des centaines de sources de données, cela entraîne une croissance linéaire de la consommation mémoire. De plus, dans des schémas de parallélisme hybride (Pipeline, Contexte), chaque GPU exécute souvent un chargement de données identique, entraînant une redondance massive de l'accès aux fichiers et du prétraitement.

2. Méthodologie : Architecture MegaScale-Data

MegaScale-Data est une architecture de chargement de données distribuée de niveau industriel conçue pour résoudre ces problèmes. Elle repose sur trois piliers architecturaux clés :

A. Prétraitement Disaggregé (Disaggregated Preprocessing)

Au lieu d'avoir un chargement de données monolithique couplé à l'entraînement, le système sépare les rôles en acteurs spécialisés :

Source Loaders (Chargeurs de source) : Des acteurs dédiés à chaque source de données (ou groupe de sources) qui effectuent des transformations au niveau de l'échantillon (ex: décodage JPEG, tokenisation). Ils éliminent la redondance d'accès aux fichiers en centralisant l'état d'ouverture des fichiers par source.
Data Constructors (Constructeurs de données) : Des acteurs qui agrègent les sorties des Source Loaders pour effectuer des opérations au niveau du lot (batch), telles que le remplissage (padding), l'empaquetage (packing) et les transformations liées au parallélisme (ex: découpage pour le parallélisme de contexte). Cela permet de partager les données prétraitées entre les rangs de parallélisme, évitant ainsi la réplique des données.

B. Plan de Données Déclaratif et Centralisé

Le système introduit une couche d'orchestration centralisée via deux abstractions :

DGraph : Un graphe de flux de données étatique qui suit le cycle de vie des échantillons, leurs dépendances et leurs métadonnées (longueur de séquence, coût de calcul). Il permet de visualiser et de gérer les flux de données hétérogènes.
ClientPlaceTree : Une représentation hiérarchique de la topologie des dispositifs (GPU) et des schémas de parallélisme (DP, PP, TP, CP).
Interface Déclarative : Les utilisateurs définissent des stratégies de mélange de données (ex: curriculum learning, équilibrage de charge) via des primitives de haut niveau (mix, distribute, balance, broadcast) sans gérer la complexité d'exécution sous-jacente.

C. Mise à l'échelle Automatique Multi-niveaux (Auto-Scaling)

Un AutoScaler dynamique ajuste les ressources CPU allouées aux Source Loaders en fonction :

Des coûts de prétraitement hétérogènes (ex: le décodage vidéo est beaucoup plus coûteux que la tokenisation de texte).
Des ratios de mélange de données qui évoluent dynamiquement pendant l'entraînement.
Le système partitionne automatiquement les sources et ajuste le nombre de travailleurs (workers) pour éviter la sur-provisionnement et maintenir un débit constant.

3. Contributions Clés

Architecture de prétraitement disaggregé : Conception basée sur un modèle d'acteurs qui élimine la redondance d'accès aux données au niveau des sources et du parallélisme, réduisant drastiquement la consommation mémoire.
Orchestration de données déclarative : Introduction de DGraph et ClientPlaceTree pour permettre une orchestration de données multi-sources et consciente du parallélisme hybride avec un effort de codage minimal.
Mise à l'échelle adaptative : Algorithmes pour optimiser dynamiquement l'utilisation des CPU en fonction des coûts de transformation hétérogènes et des ratios de mélange changeants.
Robustesse et tolérance aux pannes : Mécanismes de shadow loaders (chargements de secours) et de checkpointing différentiel pour assurer une continuité de service sans interruption lors de défaillances ou de changements de topologie (resharding élastique).

4. Résultats Expérimentaux

Les auteurs ont évalué MegaScale-Data sur des clusters allant jusqu'à 4096 GPU (NVIDIA L20) avec des modèles VLM (Vision-Language Models) combinant des encodeurs ViT et des backbones LLM (Llama, Mixtral, tMoE).

Amélioration du débit : MegaScale-Data améliore le débit d'entraînement de bout en bout d'un facteur allant jusqu'à 4,5x par rapport aux bases de référence (Data Parallel basique, PyTorch DataLoader, etc.).
Réduction de la mémoire : Réduction de l'utilisation de la mémoire CPU de 13,5x grâce à l'élimination de la redondance des états d'accès aux fichiers et au partage des données prétraitées.
Évolutivité : Le système maintient une efficacité élevée à très grande échelle (4096 GPU), là où les solutions baselines s'effondrent en raison de goulots d'étranglement de communication et de mémoire.
Impact sur la convergence : L'équilibrage de charge introduit des fluctuations mineures dans la perte d'entraînement mais ne compromet pas la convergence finale du modèle.

5. Signification et Impact

MegaScale-Data représente une avancée significative pour l'entraînement des grands modèles de fondation, en particulier dans les scénarios multi-sources et multimodaux.

Changement de paradigme : Il passe d'une approche de chargement de données "colocalisée" et statique à une architecture "disaggregée", dynamique et orchestrée centralement.
Efficacité des ressources : En résolvant le problème de la redondance mémoire (qui devient le goulot d'étranglement principal à grande échelle), il permet d'entraîner des modèles plus complexes avec moins de ressources CPU.
Flexibilité opérationnelle : La capacité à gérer dynamiquement des mélanges de données complexes (curriculum learning, ajustement en temps réel) et à s'adapter aux changements de topologie du cluster rend l'entraînement des LFMs plus robuste et plus facile à déployer industriellement.

En résumé, MegaScale-Data fournit l'infrastructure nécessaire pour passer de l'entraînement de modèles sur des données homogènes à des écosystèmes de données massifs, hétérogènes et dynamiques, essentiels pour la prochaine génération de modèles d'IA.