Beyond Language Modeling: An Exploration of Multimodal Pretraining

Each language version is independently generated for its own context, not a direct translation.

Imaginez que vous essayez d'apprendre à un enfant à comprendre le monde. Jusqu'à présent, nous lui avons donné des livres (du texte) pour qu'il apprenne. Il est devenu très intelligent pour décrire les choses, mais il n'a jamais vraiment vu les objets dont il parle. C'est un peu comme si on lui avait appris à décrire une pomme en détail, sans jamais lui avoir montré une vraie pomme.

Ce papier de recherche, intitulé "Au-delà du modèle de langage", propose une nouvelle façon d'enseigner à l'IA. Au lieu de se contenter de livres, on lui montre le monde entier : des vidéos, des images, et même des actions physiques.

Voici les 4 grandes découvertes de cette étude, expliquées simplement :

1. Le "Super-Traducteur" (Représentation Visuelle)

Avant, les chercheurs pensaient qu'il fallait deux outils différents pour l'IA : un pour comprendre une image (comme un expert en art) et un autre pour créer une image (comme un peintre). C'était comme avoir un traducteur pour lire et un autre pour écrire, ce qui rendait le système lourd et compliqué.

La découverte : Ils ont trouvé un outil unique, appelé RAE, qui fait les deux parfaitement.

L'analogie : Imaginez un chef cuisinier qui peut à la fois décrire parfaitement un plat (le goût, les ingrédients) et le cuisiner lui-même avec la même précision. Plus besoin de deux cuisines séparées ! Cela simplifie tout et rend l'IA plus intelligente.

2. Le Potager Mixte (Les Données)

On pensait que mélanger des données (des vidéos, des images, du texte) pourrait "polluer" l'intelligence de l'IA, un peu comme si on mélangeait de la confiture dans un plat salé.

La découverte : C'est faux ! Le texte et l'image s'entraident.

L'analogie : C'est comme un potager où l'on cultive des tomates (texte) et des carottes (images) côte à côte. Au lieu de se faire concurrence, les racines des carottes aident à aérer le sol pour les tomates. L'IA apprend mieux quand elle voit le monde entier, pas juste des mots. Les vidéos brutes (sans texte) sont même très utiles pour améliorer la compréhension du langage.

3. Le Simulateur de Monde (Modélisation du Monde)

C'est la partie la plus magique. En apprenant à voir et à lire en même temps, l'IA commence à comprendre comment le monde fonctionne physiquement. Elle peut prédire ce qui va se passer ensuite.

L'analogie : Imaginez que vous jouez à un jeu vidéo. Avant, l'IA ne savait que lire les instructions du jeu. Maintenant, elle a joué au jeu des millions de fois. Si vous lui dites "Va vers la maison", elle sait que si elle avance, elle verra la maison, et si elle tourne, elle verra l'arbre. Elle n'a pas besoin d'apprendre spécifiquement "comment marcher", elle l'a appris tout seul en regardant des vidéos du monde réel.
Le résultat : L'IA peut maintenant suivre des ordres en langage naturel ("Évite l'ombre", "Va vite") et générer des vidéos de ce qui se passerait, comme un véritable simulateur de réalité.

4. L'Orchestre à Experts (Architecture MoE)

C'est ici qu'on parle de la "mécanique" de l'IA. Le texte et l'image n'ont pas les mêmes besoins. Le texte a besoin de beaucoup de "mémoire" (paramètres), tandis que l'image a besoin de voir énormément d'exemples (données).

La découverte : Ils ont utilisé une architecture appelée MoE (Mélange d'Experts).

L'analogie : Imaginez une grande entreprise. Au lieu d'avoir un seul employé qui fait tout (ce qui est lent et inefficace), vous avez une équipe d'experts.
- Quand on pose une question sur la grammaire, un expert en littérature prend le relais.
- Quand on demande de dessiner un chat, un expert en art intervient.
- Le système est intelligent : il ne paie que les experts nécessaires pour la tâche en cours.
- Cela permet à l'IA d'être très grosse (pour comprendre le monde) sans être trop lente ou trop coûteuse à faire tourner.

En résumé

Ce papier nous dit que pour créer une véritable intelligence artificielle capable de comprendre la réalité, il faut arrêter de la nourrir uniquement avec du texte. Il faut lui donner tout : des livres, des films, des photos et des actions.

En utilisant les bons outils (le "Super-Traducteur" RAE) et la bonne organisation (l'Orchestre d'Experts), l'IA commence à développer une compréhension du monde physique, passant de la simple description des ombres (comme dans la caverne de Platon) à la compréhension des objets réels qui les projettent. C'est un pas de géant vers des machines qui pensent et agissent comme nous dans le monde réel.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

L'ère des modèles de fondation a été définie par le succès du pré-entraînement sur le langage (LLM). Cependant, le texte est une abstraction humaine et une compression imparfaite de la réalité. Les modèles actuels maîtrisent la description des « ombres » (symboles) mais échouent souvent à capturer la physique, la géométrie et la causalité du monde physique réel. De plus, les données textuelles de haute qualité sont limitées et s'épuisent.

Le défi principal réside dans la création de modèles natifs multimodaux unifiés capables de traiter le langage et la vision de manière égale, sans se contenter d'adapter un LLM pré-entraîné. La littérature actuelle souffre de variables confondantes (utilisation de poids pré-entraînés, architectures hybrides complexes) qui masquent les dynamiques fondamentales de l'apprentissage multimodal. L'objectif de ce travail est de fournir une clarté empirique en entraînant un modèle de zéro (from scratch) pour isoler les facteurs clés gouvernant le pré-entraînement multimodal.

2. Méthodologie

Les auteurs adoptent le cadre Transfusion, qui combine la prédiction de token suivant pour le langage et la diffusion (flow matching) pour la vision, au sein d'une seule architecture Transformer décodeur.

Architecture et Entraînement

Modèle Unifié : Un seul modèle est entraîné sur un mélange de données : texte, vidéo brute, paires image-texte, et vidéos conditionnées par l'action.
Objectifs :
- Langage : Minimisation de l'entropie croisée (Next-Token Prediction).
- Vision : Flow matching (prédiction de champ de vitesse) pour générer des latents visuels.
Masquage Hybride : Utilisation d'un masquage causal pour le texte et d'un masquage causal par blocs pour la vision (les tokens d'une même image s'attendent bidirectionnellement, mais causalement aux images précédentes).
Tokenisation Visuelle : Exploration de divers encodeurs (VAE, encodeurs sémantiques comme SigLIP 2, DINOv2, pixels bruts) pour trouver la représentation optimale.

Axes d'Investigation

L'étude se concentre sur cinq axes principaux :

Représentation Visuelle : Comparaison des encodeurs pour l'understanding et la génération.
Données : Impact de la composition des données (texte, vidéo, paires I/T, données d'action).
Modélisation du Monde (World Modeling) : Capacité à prédire les états futurs du monde (navigation) sans architecture spécifique.
Architecture (MoE) : Utilisation de Mixture-of-Experts pour gérer la capacité du modèle.
Lois d'Échelle (Scaling Laws) : Analyse IsoFLOP pour comprendre les besoins en données et paramètres.

3. Contributions et Résultats Clés

Le papier identifie quatre insights majeurs qui redéfinissent la conception des modèles multimodaux unifiés :

A. Une Représentation Visuelle Unifiée (RAE)

Constat : Contrairement à l'hypothèse courante selon laquelle il faut des représentations séparées (VAE pour la génération, encodeurs sémantiques pour la compréhension), les auteurs démontrent qu'un seul encodeur suffit.
Résultat : Les Representation Autoencoders (RAE), basés sur des encodeurs sémantiques comme SigLIP 2, surpassent les VAE traditionnels (SD-VAE, FLUX.1) à la fois sur les tâches de compréhension (VQA) et de génération (DPGBench, GenEval).
Avantage : Cela simplifie l'architecture et élimine la nécessité de dualité de représentations.

B. Synergie des Données et Absence de Compétition

Constat : Il existe souvent une crainte que l'apprentissage visuel dégrade les capacités linguistiques (« tax de la modalité »).
Résultat : L'ajout de données visuelles (vidéos brutes, paires image-texte) n'a qu'un impact minimal, voire positif, sur la perplexité du texte. Au contraire, le pré-entraînement multimodal améliore les performances en aval (VQA, modélisation du monde) par rapport à un pré-entraînement uniquement textuel.
Nuance : La dégradation légère observée sur certains corpus de texte provient du décalage de distribution des légendes d'images, et non de la modalité visuelle elle-même.

C. Émergence de la Modélisation du Monde

Constat : La capacité à prédire les futurs états physiques (navigation robotique) n'exige pas de données de navigation spécifiques massives.
Résultat : En formatant les actions de navigation comme des tokens de texte (ex: dx=+1.33), le modèle acquiert des capacités de modélisation du monde principalement grâce au pré-entraînement multimodal général (vidéos, paires I/T).
Performance : Le modèle atteint des performances compétitives avec seulement 1 % de données de navigation spécifiques, démontrant que la compréhension physique émerge naturellement de l'apprentissage général.

D. Architecture MoE et Asymétrie d'Échelle

Problème : Les lois d'échelle révèlent une asymétrie fondamentale : la vision est beaucoup plus « affamée de données » que le langage. Dans les modèles denses, il est impossible d'optimiser simultanément les deux modalités car le rapport optimal données/paramètres diffère.
Solution : L'architecture Mixture-of-Experts (MoE) résout ce problème.
- Elle permet d'augmenter la capacité totale du modèle sans augmenter le coût de calcul par token (capacité active fixe).
- Spécialisation Émergente : Les experts s'auto-organisent naturellement. Les couches précoces sont dominées par des experts textuels, tandis que les couches profondes contiennent plus d'experts visuels et multimodaux.
- Résultat : Le MoE harmonise l'asymétrie d'échelle, permettant au langage de bénéficier d'une grande capacité de paramètres tout en satisfaisant les besoins massifs en données de la vision.

4. Analyse des Lois d'Échelle (Scaling Laws)

L'analyse IsoFLOP (Isolation des FLOPs) montre :

Modèles Denses : Le langage suit une loi d'échelle équilibrée (proche de Chinchilla), tandis que la vision nécessite beaucoup plus de données ( $D_{opt} \propto C^{0.63}$ vs $C^{0.53}$ pour le texte).
Modèles MoE : L'utilisation de MoE réduit l'écart entre les exposants d'échelle. Le langage devient plus « affamé de données » (exposant $b \approx 0.59$ ), s'alignant mieux avec la vision. Cela prouve que la parcimonie (sparsity) n'est pas seulement une question d'efficacité, mais une nécessité structurelle pour harmoniser des modalités aux besoins d'apprentissage divergents.

5. Signification et Impact

Ce travail marque un tournant dans la conception des modèles de fondation :

Unification Réelle : Il démontre qu'un modèle unique, entraîné de zéro avec une représentation visuelle unifiée (RAE) et une architecture MoE, peut surpasser les approches hybrides complexes.
Vers le Monde Physique : Il valide l'hypothèse que les capacités de modélisation du monde (prédiction physique, planification) émergent naturellement de l'apprentissage multimodal général, réduisant le besoin de données spécifiques coûteuses.
Futur des IA : En traitant la vision comme un citoyen de première classe et non comme un accessoire, cette approche ouvre la voie à des systèmes capables de raisonner sur la réalité physique, comblant le fossé entre les LLM actuels et l'intelligence artificielle générale (AGI) ancrée dans le monde réel.

En résumé, le papier propose une feuille de route claire pour passer des modèles de langage aux modèles multimodaux natifs unifiés, en résolvant les problèmes d'architecture, de représentation et d'échelle grâce à l'utilisation stratégique des MoE et des représentations sémantiques unifiées.