Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous voulez enseigner à un robot comment faire des vidéos, comme un réalisateur de cinéma miniature. C'est ce que l'équipe de fal.ai a fait avec leur projet nommé Summer-22B.

Voici l'histoire de leur aventure, racontée simplement, avec quelques images pour mieux comprendre.

1. Le Défi : Construire une École pour un Robot

Pour apprendre à un robot à faire des vidéos, il ne suffit pas de lui donner quelques clips. Il faut des millions d'heures de film. Mais attention, on ne peut pas lui donner n'importe quoi. Si vous montrez à un enfant des vidéos floues, coupées au hasard ou avec des publicités, il ne saura jamais faire un beau film.

L'équipe a dû collecter environ 50 millions de petits clips vidéo (ce qui équivaut à des centaines de milliards de "morceaux" d'information). C'est comme essayer de remplir une piscine olympique avec des gouttes d'eau, mais chaque goutte doit être parfaite.

2. La Cuisine : Le "Lavender Data" (Le Système de Tri)

C'est ici que la magie opère, et c'est ce qui a pris le plus de temps (la majorité du travail !).

Imaginez que vous avez un tas de légumes géant, mais il y a des pommes de terre pourries, des cailloux et des feuilles mortes. Avant de cuisiner, vous devez trier.

Le tri automatique : Ils ont créé un système appelé Lavender Data. C'est comme un chef d'orchestre ultra-rapide qui regarde chaque vidéo.
Les filtres :
- Il coupe les vidéos trop longues ou trop courtes (comme couper un pain en parts égales).
- Il rejette les vidéos qui ne bougent pas (comme des diapositives ennuyeuses).
- Il chasse les vidéos floues ou avec des couleurs bizarres.
- Il supprime les doublons (si deux vidéos sont presque identiques, il n'en garde qu'une).
L'étiquetage : Ensuite, il écrit une petite étiquette pour chaque vidéo (ex: "chat qui court", "pluie", "voiture"). Cela aide le robot à comprendre ce qu'il regarde.

Leçon clé : Construire cette cuisine (le système de tri) était beaucoup plus important que de choisir la recette exacte du robot. Une bonne cuisine avec des ingrédients frais bat toujours une mauvaise cuisine avec des ingrédients pourris.

3. L'Entraînement : La Méthode "µP" et la Sphère Magique

Une fois les ingrédients triés, il faut entraîner le robot.

La règle d'or (µP) : Habituellement, quand on change la taille d'un robot (le rendre plus gros), il faut recommencer tout l'entraînement de zéro pour trouver les bons réglages. Ici, ils ont utilisé une astuce appelée µP. C'est comme si vous aviez trouvé la recette parfaite pour une petite casserole, et que cette même recette fonctionnait exactement aussi bien pour une grande marmite géante, sans rien changer. Cela leur a fait gagner un temps fou.
La Sphère Magique (Optimisation) : Imaginez que les "poids" du cerveau du robot sont comme des balles sur une table. Habituellement, on les laisse rouler n'importe où. Ici, ils ont forcé ces balles à rester collées sur la surface d'une sphère parfaite (comme des fourmis marchant sur une boule de billard).
- Pourquoi ? Cela empêche le robot de devenir fou ou de se "casser" pendant l'apprentissage. C'est plus stable et plus simple à gérer. C'est comme si on mettait des rails invisibles pour guider le robot.

4. L'Architecture : Pas besoin d'être compliqué

Souvent, les ingénieurs pensent qu'ils doivent inventer des architectures de robots super complexes pour avoir de bons résultats.
Ici, ils ont essayé 5 modèles différents. Résultat ? Ils étaient tous presque pareils.
Le modèle le plus simple (un "transformateur" classique) a fonctionné aussi bien que les modèles complexes.
Analogie : C'est comme si vous essayiez de construire une voiture de course. Vous avez essayé des moteurs V8, des turbines, et des moteurs électriques. Finalement, un bon vieux moteur V6 bien réglé a fait aussi bien que les autres. Mieux vaut se concentrer sur la qualité de la route (les données) que sur le moteur.

5. Le Résultat : Un Robot qui sait faire des vidéos

Après tout cet effort, ils ont obtenu Summer-22B.

Les performances : Le robot fait de très belles vidéos. Il comprend bien la physique (les objets tombent, l'eau coule) et les humains.
Les faiblesses : Il est parfois un peu moins créatif ou difficile à contrôler avec des instructions très précises par rapport aux géants de l'industrie (comme Sora ou Wan). Mais il est très compétitif pour avoir été entraîné avec un budget bien plus petit (environ 300 000 $ au total, dont la moitié pour les ordinateurs).

En Résumé

Ce papier nous dit trois choses importantes :

Les données sont reines : Passer 80% de son temps à nettoyer et trier les vidéos est la clé du succès.
La simplicité gagne : Un modèle simple, bien entraîné sur de bonnes données, bat souvent un modèle complexe mal entraîné.
L'astuce mathématique : En utilisant des règles géométriques (la sphère) et des recettes d'entraînement intelligentes (µP), on peut entraîner des robots géants sans se ruiner ni se casser la tête.

C'est une preuve que l'on peut créer des intelligences artificielles puissantes non pas en jetant des milliards de dollars dans des super-ordinateurs, mais en étant intelligent, méthodique et patient avec ses données.

Each language version is independently generated for its own context, not a direct translation.

Résumé Technique : Summer-22B

Ce rapport documente le développement de Summer-22B, un modèle fondation vidéo entraîné à partir de zéro par l'équipe de Fal.ai. Le projet met en lumière les défis d'ingénierie, les décisions de conception et les leçons apprises lors de la mise à l'échelle d'un modèle vidéo, depuis la collecte de données brutes jusqu'à l'entraînement d'un modèle fonctionnel sur environ 50 millions de clips (équivalent à 500 milliards de tokens).

1. Le Problème et le Contexte

Le développement de modèles fondation vidéo représente un défi majeur en apprentissage automatique, nécessitant la convergence de l'ingénierie de données à grande échelle, de méthodologies d'entraînement efficaces et de stratégies d'optimisation soignées.

Défi principal : Transformer des images vidéo brutes en clips d'entraînement prêts à l'emploi tout en préservant la cohérence sémantique et la qualité visuelle.
Contrainte de données : Contrairement aux modèles auto-régressifs qui nécessitent des milliards de clips, les modèles de diffusion semblent plus efficaces en termes de données. L'objectif était de déterminer si un ensemble de données de 50 millions de clips suffisait pour entraîner des modèles de l'ordre du milliard de paramètres.
Coût et Accessibilité : Le projet vise à démontrer la faisabilité de développer de tels modèles avec un budget maîtrisé (environ 300 000 $ au total, dont 150 000 $ pour le calcul).

2. Méthodologie

L'approche de l'équipe se distingue par une focalisation massive sur l'ingénierie des données et l'optimisation géométrique, plutôt que sur l'innovation architecturale pure.

A. Ingénierie des Données (Le cœur du projet)
La majorité des efforts a été consacrée à la création d'un pipeline de prétraitement robuste :

Collecte pilotée par les métadonnées : Inspirée de CLIP et MetaCLIP, une stratégie de collecte basée sur des requêtes diversifiées a été utilisée pour équilibrer le corpus selon des distributions de vocabulaire spécifiques, évitant ainsi la domination de catégories sur-représentées (ex: "têtes parlantes").
Segmentation et Détection de Plans : Utilisation d'une approche à deux étapes (PySceneDetect pour la rapidité, TransNetV2 pour la précision) pour détecter les transitions de scènes et éviter les clips contenant des sauts sémantiques brusques.
Filtrage Multi-étapes :
- Visuel : Détection de couleurs monochromes, de contenu statique (diaporamas) et de doublons perceptuels.
- Mouvement : Analyse du flot optique (via Farnebäck et BirefNet) pour distinguer les mouvements de caméra complexes (parallaxe, suivi) des mouvements indésirables (vibrations, images glissantes).
- Qualité : Utilisation du modèle DOVER pour le scoring esthétique.
Légendage Hiérarchique : Génération de légendes à trois niveaux (détaillées, courtes, ultra-courtes de 3 mots). Les légendes ultra-courtes servent de "seaux sémantiques" pour l'équilibrage démographique (ratio 1:1 homme/femme) et le déduplication.
Déduplication GPU-Accélérée : Implémentation d'un algorithme K-means par mini-lots accéléré par GPU avec initialisation de Bradley-Fayyad pour traiter des dizaines de millions d'embeddings rapidement.
Système Lavender Data : Une infrastructure logicielle unifiée pour la visualisation, le filtrage et le streaming des données, garantissant une parité stricte entre ce que les ingénieurs voient et ce que le modèle consomme.

B. Architecture et Optimisation

Architecture : Un transformateur "vanilla" avec des Embeddings de Position Rotatifs 3D (RoPE) pour encoder les positions spatio-temporelles. Des mécanismes de stabilisation incluent la normalisation de couche adaptative, des connexions résiduelles gating et des connexions résiduelles de valeur.
Optimisation Contrainte par Hypersphère : Contrairement aux approches précédentes qui appliquent la normalisation de manière ad hoc, les poids sont contraints à rester sur une hypersphère (norme unitaire) tout au long de l'entraînement. Cela transforme l'optimisation en descente de gradient riemannienne, éliminant le besoin de weight decay et simplifiant l'analyse dynamique.
Paramétrisation µP (Maximal Update Parameterization) : Utilisation de règles d'échelle pour transférer les hyperparamètres (taux d'apprentissage) des petits modèles (30M paramètres) aux grands modèles (1B paramètres) sans réajustement majeur. C'est la première démonstration de la compatibilité entre µP et l'optimisation riemannienne contrainte.
Conception consciente de l'inférence : Calcul parallèle des branches Attention et MLP pour réduire la latence d'inférence d'environ 20 %.

3. Contributions Clés

Pipeline de prétraitement vidéo à grande échelle : Intégrant détection de plans, filtrage multi-étapes, légendage hiérarchique et déduplication, mis à l'échelle via Ray pour traiter des dizaines de millions de vidéos.
Système Lavender Data : Une plateforme unifiée assurant la cohérence entre la visualisation des données et le flux d'entraînement.
Preuve de concept µP + Hypersphère : Première démonstration que le transfert d'hyperparamètres µP fonctionne sous des contraintes géométriques d'hypersphère, avec des lois d'échelle empiriques pour la taille de lot ( $LR \propto \sqrt{B}$ ) et la durée d'entraînement ( $LR \propto 1/\sqrt{T}$ ).
Architecture à faible latence : Conception parallèle Attention-MLP réduisant la latence d'inférence sans compromettre la stabilité de l'entraînement.
Accessibilité économique : Démonstration qu'un modèle fondation vidéo compétitif peut être développé pour environ 300 000 $.

4. Résultats et Évaluation

Le modèle Summer-22B a été évalué sur les benchmarks VBench 1.0 et VBench 2.0 :

Performance Globale : Summer-22B obtient un score total de 0,539 sur VBench 2.0.
Comparaison : Ce résultat est compétitif par rapport à Wan 2.2-5B (0,575) et Wan 2.2-A14B (0,610), bien que ces derniers aient été entraînés sur des données potentiellement plus vastes.
Points Forts : Le modèle excelle dans la fidélité humaine, la physique et le sens commun.
Points Faibles : Des écarts subsistent en matière de créativité, de contrôlabilité et de compréhension de scènes complexes, probablement dus à une diversité limitée des prompts lors de l'entraînement.
Stabilité : L'approche de surveillance basée sur la "bande µP" (suivi des normes des paramètres) a permis de détecter précocement des instabilités invisibles sur les courbes de perte classiques.

5. Signification et Leçons Apprises

Ce travail apporte plusieurs enseignements cruciaux pour la communauté :

L'ingénierie des données prime : La qualité et la curation des données (filtrage, déduplication, équilibrage) ont eu un impact plus significatif que les variantes architecturales.
Simplicité architecturale : Dans le régime testé (jusqu'à 1B de paramètres), les transformateurs standards avec RoPE 3D performaient aussi bien que des architectures complexes, suggérant que l'optimisation et la qualité des données sont les leviers principaux.
Efficacité des méthodes d'optimisation : La combinaison de µP et de l'optimisation riemannienne sur hypersphère simplifie considérablement le processus d'entraînement en réduisant le nombre d'hyperparamètres à régler.
Accessibilité : Le projet prouve qu'il est possible de construire des modèles fondation vidéo de pointe avec des ressources financières limitées, en optimisant rigoureusement le pipeline de données et l'efficacité de l'entraînement.

En conclusion, Summer-22B valide une approche systématique où l'effort est déplacé de la recherche architecturale vers l'ingénierie des données et l'optimisation mathématique rigoureuse, ouvrant la voie à un développement plus démocratique des modèles vidéo.

Summer-22B: A Systematic Approach to Dataset Engineering and Training at Scale for Video Foundation Model

1. Le Défi : Construire une École pour un Robot

2. La Cuisine : Le "Lavender Data" (Le Système de Tri)

3. L'Entraînement : La Méthode "µP" et la Sphère Magique

4. L'Architecture : Pas besoin d'être compliqué

5. Le Résultat : Un Robot qui sait faire des vidéos

En Résumé

Résumé Technique : Summer-22B

1. Le Problème et le Contexte

2. Méthodologie

3. Contributions Clés

4. Résultats et Évaluation

5. Signification et Leçons Apprises

Articles similaires

A Theory-guided Weighted L2L^2L2 Loss for solving the BGK model via Physics-informed neural networks

Territory Paint Wars: Diagnosing and Mitigating Failure Modes in Competitive Multi-Agent PPO

Enhancing sample efficiency in reinforcement-learning-based flow control: replacing the critic with an adaptive reduced-order model

Cactus: Accelerating Auto-Regressive Decoding with Constrained Acceptance Speculative Sampling

Prune-Quantize-Distill: An Ordered Pipeline for Efficient Neural Network Compression

A Theory-guided Weighted $L^2$ Loss for solving the BGK model via Physics-informed neural networks