Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

🌱 Le titre : Comment les "super-pouvoirs" visuels arrivent dans le monde des IA

Imaginez que le monde des intelligences artificielles (IA) ouvertes soit une immense forêt. Dans cette forêt, il y a des milliers d'arbres (les modèles d'IA). Certains arbres ne savent que parler (modèles textuels), d'autres savent aussi voir et décrire des images (modèles multimodaux).

Cette étude, menée par Manuel Cebrian, se demande : Comment les arbres qui savent "voir" apparaissent-ils et se propagent-ils dans cette forêt ?

L'auteur a analysé plus d'un million d'arbres (modèles) sur la plateforme Hugging Face pour comprendre leur histoire familiale. Voici ce qu'il a découvert, expliqué avec des métaphores simples.

1. La forêt est déjà pleine d'arbres qui voient, mais pas les "grands arbres"

La découverte : Dans toute la forêt (l'écosystème global), il y a des arbres capables de voir depuis longtemps. Mais si vous regardez les plus grands arbres (les grandes familles d'IA célèbres comme Llama, Gemma, etc.), ils sont restés aveugles très longtemps.

L'analogie :
Imaginez une ville où tout le monde possède déjà un vélo électrique. Pourtant, dans le quartier des "Grands Hôtels" (les grandes familles d'IA), personne n'en a un pendant des années. Soudain, en 2024-2025, les hôtels se mettent tous à avoir des vélos électriques en même temps.

Constat : La technologie existait déjà partout ailleurs, mais elle a mis du temps à pénétrer les familles d'IA les plus connues.

2. On ne devient pas "voyant" en apprenant doucement

La découverte : L'auteur pensait peut-être qu'un arbre qui ne savait que parler pouvait, petit à petit, apprendre à voir en se "faisant une petite mise à jour" (ce qu'on appelle le fine-tuning).
Mais les chiffres montrent que c'est extrêmement rare. Sur 10 000 tentatives pour transformer un modèle "texte" en modèle "image", à peine 2 réussissent. C'est comme essayer de transformer un chat en chien en lui donnant des croquettes de chien : ça ne marche presque jamais.

L'analogie :
C'est comme si vous essayiez de transformer une voiture en avion en changeant juste les pneus. C'est trop compliqué.
Pour qu'un modèle d'IA apprenne à voir, il ne suffit pas de faire un petit ajustement. Il faut une révolution complète, une "fusion" complexe qui nécessite de nouvelles pièces (des caméras virtuelles) et de nouveaux plans.

3. Le phénomène du "Fondateur" : L'arbre miracle

La découverte : Alors, comment les modèles "voyants" apparaissent-ils ? Ils n'arrivent pas par petites touches. Ils arrivent par des événements rares et soudains.
Un chercheur crée un tout nouveau modèle capable de voir (un "Modèle Fondateur"). Une fois cet arbre miracle planté, ses "enfants" et "petits-enfants" héritent facilement de ce pouvoir.

L'analogie :
Imaginez qu'un seul jardinier invente un arbre magique capable de voir.

Avant cet arbre, personne ne savait voir.
Dès que cet arbre existe, tout le monde commence à faire des boutures de cet arbre précis.
Les enfants de l'arbre magique sont tous magiques.
Les enfants des arbres "normaux" (qui ne savent pas voir) restent normaux.

C'est ce qu'on appelle un effet de fondateur : une innovation rare qui, une fois lancée, explose et domine la descendance, tandis que les anciennes lignées restent bloquées.

4. La propagation en "vagues"

La découverte : L'adoption de ces capacités visuelles ne se fait pas lentement. C'est une explosion soudaine.
Quand un nouveau "Modèle Fondateur" sort (comme un nouveau modèle de Google ou de Meta), des milliers de versions dérivées apparaissent en quelques mois.

L'analogie :
C'est comme une mode vestimentaire.

D'abord, une seule célébrité porte un manteau rouge (le modèle fondateur).
Ensuite, tout le monde dans son entourage porte le même manteau rouge (les descendants directs).
Mais les gens qui ne sont pas dans ce cercle (les autres familles d'IA) continuent de porter des manteaux bleus pendant longtemps.
La "mode" (la multimodalité) ne se diffuse pas uniformément ; elle saute d'un groupe à l'autre par des événements isolés.

🧠 En résumé : Ce que cela signifie pour l'avenir

Cette étude nous dit deux choses importantes :

Ce n'est pas automatique : Le fait que des IA sachent voir dans le monde entier ne signifie pas que les grandes IA populaires vont automatiquement apprendre à voir juste en se mettant à jour. Il faut un saut qualitatif (un nouveau modèle de base).
La dépendance à la lignée : Une fois qu'une famille d'IA a un ancêtre "voyant", elle restera "voyante" et produira des milliers de versions. Mais si une famille n'a pas cet ancêtre, elle restera "aveugle" très longtemps.

La leçon pour demain :
Si nous voulons que toutes les IA deviennent intelligentes visuellement, il ne suffit pas de faire des petits ajustements. Il faut continuer à créer de nouveaux modèles fondateurs (de nouveaux "arbres magiques") et rendre la technologie plus facile à utiliser pour que ces modèles puissent être copiés et adaptés plus facilement par tout le monde.

C'est une histoire de graines rares qui, une fois plantées, font pousser une forêt entière, plutôt que d'essayer de transformer chaque arbre existant un par un.

Each language version is independently generated for its own context, not a direct translation.

1. Problématique et Contexte

Les modèles de langage de grande taille (LLM) évoluent rapidement, mais la manière dont les capacités multimodales (notamment la vision-langage) émergent et se propagent au sein des écosystèmes de modèles ouverts (basés sur le fine-tuning, le merging et la quantification) reste mal comprise.

La question centrale est la suivante : dans un écosystème riche en lignées de modèles, la multimodalité apparaît-elle principalement par une adaptation incrémentale de checkpoints textuels existants, ou par des événements d'intégration rares créant des modèles « fondateurs » (VLM - Vision-Language Models), suivis d'une expansion au sein de ces lignées spécifiques ?

2. Méthodologie

L'étude repose sur une analyse à l'échelle de l'écosystème utilisant le jeu de données ModelBiome AI Ecosystem (snapshot de juillet 2025).

Données : Le dataset contient environ 1,86 million d'entrées de modèles Hugging Face et 3,02 millions de relations lignées (parent-enfant) enregistrées.
Méthodes d'analyse :
- Analyse temporelle : Comparaison de l'adoption des tâches multimodales (texte-image, audio, vidéo) entre l'écosystème global et les grandes familles de LLM ouverts (identifiées par des motifs de noms).
- Taux de transition conditionnés par la lignée : Calcul des probabilités de transition entre types de tâches (ex: Text-Gen $\to$ VLM) en fonction du type de relation (fine-tuning, merging, adapters, quantification).
- Analyse des effets de fondateur : Identification des modèles « racines » (sans parent enregistré) et mesure de la concentration des descendants autour de ces fondateurs (via l'indice HHI et le nombre effectif de fondateurs $N_{eff}$ ).
- Statistiques : Utilisation d'intervalles de confiance de Wilson (95 %) pour les proportions et analyse des transitions sur des millions d'arêtes.

3. Contributions Clés

L'article apporte trois contributions majeures à la compréhension de la dynamique des modèles ouverts :

Découplage temporel : Il démontre que les tâches multimodales sont courantes dans l'écosystème global bien avant de devenir prévalentes au sein des grandes familles de LLM.
Rareté des transitions inter-clades : Il quantifie la probabilité extrêmement faible de passer d'un modèle textuel pur à un modèle multimodal via des opérations de dérivation standard (fine-tuning, etc.).
Dynamique de type « Effet de Fondateur » : Il établit que la croissance des VLM est dominée par la reproduction au sein de lignées multimodales existantes, initiée par des événements d'intégration rares, plutôt que par une conversion progressive des modèles textuels.

4. Résultats Principaux

A. Retard d'adoption dans les familles de LLM

Les tâches multimodales sont présentes dans l'écosystème Hugging Face global dès le début de l'enregistrement (2022).
En revanche, au sein des grandes familles de LLM ouverts, la multimodalité reste quasi inexistante jusqu'en 2023 et la majeure partie de 2024, avant de connaître une augmentation brutale en 2024-2025.
Cette augmentation est presque exclusivement pilotée par les tâches texte-image (Vision-Language), et non par l'audio ou la vidéo.

B. Transitions faibles du Texte vers le Multimodal

L'analyse des relations parent-enfant révèle une faible transférabilité des capacités textuelles vers la multimodalité :

Parmi les relations de fine-tuning partant de parents textuels, seulement 0,218 % (50 sur 22 928) produisent un descendant VLM.
Les taux sont similaires pour le merging (0,104 %) et la quantification (0,133 %).
Les transitions observées sont rares, épisodiques et ne montrent pas de tendance à la hausse continue, réfutant l'hypothèse d'une conversion graduelle.

C. Expansion intra-lignée et effets de fondateur

Une fois un VLM introduit, la multimodalité se propage massivement au sein de sa propre lignée :

94,5 % des descendants VLM proviennent de parents déjà étiquetés comme VLM.
Seulement 4,7 % proviennent de parents textuels.
Structure des fondateurs : Environ 60 % des releases VLM apparaissent comme de nouvelles racines (sans parent enregistré). Les modèles restants sont majoritairement dérivés d'autres VLM.
Concentration : Une petite poignée de modèles fondateurs (ex: donut-base, llava-v1.6, Qwen-VL) génère une part disproportionnée des descendants. Par exemple, le modèle donut-base seul représente 28,2 % des arêtes VLM $\to$ VLM.

5. Signification et Implications

Dynamique Punctuée : L'évolution de la multimodalité dans les modèles ouverts ne suit pas un modèle de diffusion continue, mais un modèle punctué (théorie de l'équilibre ponctué). De rares événements d'intégration créent des « fondateurs », suivis d'une amplification rapide au sein de leur descendance.
Barrières Techniques : La rareté des transitions Texte $\to$ VLM suggère que l'ajout d'un canal visuel nécessite une intégration architecturale complexe (pipelines de données, interfaces encodeur-vision) qui ne peut pas être réalisée par de simples ajustements incrémentaux (fine-tuning) sur des checkpoints textuels.
Dépendance au chemin (Path Dependence) : Les premiers VLM réussis deviennent des conduits disproportionnés pour l'innovation future. Les améliorations dans les familles textuelles pures ne se propagent pas automatiquement aux variantes multimodales sans un travail d'intégration explicite.
Perspectives Futures : Si des interfaces standardisées et à faible friction (comme les adaptateurs LoRA ou des workflows de quantification spécifiques) émergent pour attacher des modules de vision, les taux de transition devraient augmenter. Sinon, la croissance restera dominée par la reproduction intra-lignée et l'entrée périodique de nouveaux fondateurs.

En conclusion, l'article démontre que la multimodalité dans les LLM ouverts est structurée par des effets de fondateur, où l'innovation se concentre dans des lignées spécifiques après des événements d'intégration rares, créant une dynamique de diffusion distincte de celle observée pour les capacités purement textuelles.