Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

Stel je voor dat het wereld van kunstmatige intelligentie (AI) een gigantische, levende bibliotheek is. In deze bibliotheek worden er elke dag duizenden nieuwe boeken (modellen) geschreven. De meeste boeken zijn tot nu toe puur tekst: verhalen, gedichten of instructies. Maar de laatste tijd willen mensen ook boeken die beelden kunnen begrijpen en beschrijven. Dit noemen we "multimodaliteit".

Deze studie, geschreven door Manuel Cebrian, onderzoekt hoe deze nieuwe, beeldende boeken ontstaan en zich verspreiden binnen de grote, open families van AI-modellen. Het verrassende antwoord? Het gebeurt niet langzaam en geleidelijk, maar via zeldzame gebeurtenissen gevolgd door een explosie.

Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:

1. De Grote Bibliotheek vs. De Grote Families

Stel je voor dat er een enorme openbare bibliotheek is (het hele Hugging Face-ecosysteem). In deze bibliotheek zie je al lang mensen die boeken schrijven met plaatjes erin. Dat is heel normaal.

Maar dan zijn er ook de "grote families" (zoals de Llama- of Gemma-families). Dit zijn als het ware grote, gesloten clans van schrijvers die allemaal op elkaar lijken. De studie laat zien dat deze grote clans heel lang alleen maar pure tekstboeken bleven schrijven. Zelfs toen de rest van de bibliotheek al vol zat met plaatjes, bleven deze clans tot ver in 2024 en 2025 vasthouden aan tekst.

De les: Het hebben van plaatjes in de wereld betekent niet dat ze automatisch in de grote families terechtkomen. Er is een muur tussen de "wereld" en de "familie".

2. De "Stamvader" (De Founder Effect)

Hoe komen de plaatjes dan toch in de familie? De studie ontdekt dat het niet gebeurt omdat een schrijver van een tekstboek langzaam een plaatje toevoegt aan zijn verhaal. Dat gebeurt bijna nooit.

In plaats daarvan is het alsof er een nieuwe, speciale schrijver de bibliotheek binnenkomt. Deze nieuwe schrijver heeft al een boek geschreven dat perfect is voor tekst én plaatjes. Dit is de "Stamvader" (in het Engels: Founder).

Vergelijking: Stel je voor dat een familie van bakkers alleen brood bakt. Iedereen maakt brood. Dan komt er plotseling een nieuwe bakker binnen die ook taarten maakt. Hij is de "Stamvader".
Wat gebeurt er daarna? De familie neemt deze nieuwe taart-bakker over. Zijn kinderen, kleinkinderen en neven gaan allemaal taarten bakken. Ze passen de taartrecepten aan, maken ze kleiner of groter, maar ze blijven taarten maken.
De bevinding: 94,5% van de nieuwe "plaatjes-modellen" komt voort uit andere "plaatjes-modellen". Het is alsof de taart-bakkers hun eigen familie uitbreiden.

3. De Zeldzame Overgang

Hoe vaak gebeurt het dat een pure tekst-bakker (een tekstmodel) plotseling een taart (een plaatjesmodel) maakt?
Zeer zelden. De studie berekent dat dit maar 0,2% van de keren gebeurt.

Vergelijking: Het is alsof je vraagt of een auto die alleen maar op benzine rijdt, plotseling op waterstof gaat rijden door er een klein beetje water bij te doen. Dat werkt niet. Je moet een heel nieuw motorblok bouwen.
In de AI-wereld betekent dit: je kunt een tekstmodel niet zomaar "fijn tunen" (aanpassen) om het ineens plaatjes te laten zien. Je hebt een ingewikkelde, nieuwe integratie nodig. Dat is een zeldzame gebeurtenis.

4. De Explosie na de Start

Zodra die ene "Stamvader" (het eerste plaatjesmodel in een familie) er is, gaat het razendsnel.

Vergelijking: Zodra de eerste boomzaadje in de grond zit, groeit er niet één boom. Er groeit een heel bos.
De studie ziet dat zodra een familie een plaatjesmodel heeft, er binnen een paar maanden honderden varianten ontstaan die allemaal op dat ene originele model lijken. Het groeit binnen de familie, maar het komt zelden van buitenaf.

Waarom is dit belangrijk?

Dit verklaart waarom innovatie soms sprongsgewijs gaat in plaats van geleidelijk.

Geen geleidelijke groei: We denken vaak dat AI langzaam beter wordt door kleine stapjes. Maar voor plaatjes gaat het zo: eerst niets, dan een grote sprong (een nieuwe Stamvader), en daarna een explosie van kopieën en aanpassingen.
De toekomst: Als we willen dat tekstmodellen sneller plaatjes kunnen gaan maken, moeten we de "muur" verlagen. We moeten tools maken die het makkelijker maken om een tekstmodel om te bouwen naar een plaatjesmodel (zoals het toevoegen van een nieuwe motor aan een auto zonder de hele auto te slopen). Zolang dat moeilijk blijft, zullen we blijven wachten op die zeldzame "Stamvaders".

Samenvattend:
De wereld van AI-modellen is als een dorp waar mensen eerst alleen tekst schreven. Plotseling arriveert er een paar keer per jaar een nieuwe "meesterkunstenaar" die zowel tekst als plaatjes kan. Zodra die er is, kopiëren en verbeteren zijn familieleden dat talent razendsnel. Maar het is heel moeilijk voor een gewone tekstschrijver om zichzelf om te vormen tot zo'n meesterkunstenaar. Daarom groeien de plaatjes-modellen in "buien" rondom die ene speciale starter, en niet langzaam overal tegelijk.

Each language version is independently generated for its own context, not a direct translation.

Probleemstelling

Hoewel Large Language Model (LLM) families snel evolueren, is het onduidelijk hoe snel en op welke manier multimodale capaciteiten (vooral visueel-taal taken) ontstaan en verspreiden binnen open LLM-ecosystemen. Er bestaat een empirische vraag of multimodaliteit voornamelijk ontstaat door incrementele aanpassing van bestaande tekst-only checkpoints (een geleidelijke conversie), of door zeldzame integratie-evenementen die nieuwe "stichters" (founders) van Vision-Language Models (VLM's) creëren, gevolgd door een snelle uitbreiding binnen die specifieke lijnen. De auteurs willen de dynamiek van deze adoptie en de overdracht van taken tussen modelgeneraties kwantificeren.

Methodologie

De studie maakt gebruik van het ModelBiome AI Ecosystem dataset, een snapshot van 1,86 miljoen openbare Hugging Face-modelentries (van juli 2025) met bijbehorende metadata, modelkaarten en opgenomen stamboomrelaties (parent-child edges).

De analyse omvat de volgende stappen:

Tijdsreeksanalyse: Het kwantificeren van het aandeel nieuwe modellen met multimodale tags (tekst + afbeelding/audio/video) in de bredere ecosystem versus specifieke grote open LLM-families.
Lineage-conditioned transitiepercentages: Het berekenen van de waarschijnlijkheid dat een kindmodel een VLM is, gegeven het type van het oudermodel (tekst-only vs. VLM) en het type relatie (fine-tuning, merging, quantization, adapters).
Founder-analyse: Het identificeren van "roots" (modellen zonder opgenomen ouder) en het meten van de concentratie van afstammelingen rond specifieke stichters (founders) binnen VLM-lijnen.
Statistische methoden: Gebruik van Wilson-score betrouwbaarheidsintervallen voor proporties en het berekenen van effectieve aantallen founders ( $N_{eff}$ ) op basis van de HHI (Herfindahl-Hirschman Index).

Belangrijkste Bijdragen

Kwantificering van de "Founder Effect": Het artikel levert empirisch bewijs dat multimodaliteit in open LLM-families niet geleidelijk verspreidt via routine-fine-tuning van tekstmodellen, maar wordt gedreven door zeldzame "stichtingsgebeurtenissen" (het creëren van nieuwe VLM-roots) gevolgd door snelle uitbreiding binnen die lijn.
Ontkoppeling van Ecosysteem en Familie: Het toont aan dat multimodale taken al lang aanwezig zijn in het brede Hugging Face-ecosysteem, maar pas veel later (een jaar of meer) prevalent worden binnen de grote, bekende LLM-families.
Asymmetrie in Overdracht: Het demonstreert een extreem lage overdrachtskans van tekst-only ouders naar VLM-kinderen, in tegenstelling tot een zeer hoge retentie van multimodaliteit binnen bestaande VLM-lijnen.

Resultaten

Vertraging in Adoptie:
- Multimodale taken zijn in het brede ecosysteem al vroeg aanwezig.
- Binnen grote open LLM-families blijft multimodaliteit zeldzaam tot 2023 en het grootste deel van 2024. Er volgt een scherpe toename in 2024-2025, voornamelijk gedreven door beeld-taaltaken (image-text).
- Er is een significante vertraging (lag) tussen de eerste tekst-generatie release van een familie en de eerste VLM-variant: variërend van ~1 maand (Gemma) tot meer dan 26 maanden (GLM).
Zwakke Overdracht van Tekst naar VLM:
- De kans dat een tekst-only model via fine-tuning een VLM-kind produceert, is verwaarloosbaar klein: 0,218% (50 van de 22.928 edges).
- Voor merging en quantization zijn deze percentages nog lager (respectievelijk 0,104% en 0,133%).
- Wanneer cross-modale overdracht wel plaatsvindt, is dit bijna uitsluitend beeld-taal (92,6%), niet audio of video.
Sterke Binnen-Lijnse Amplificatie:
- 94,5% van de VLM-kinderen die via fine-tuning ontstaan, hebben een VLM-ouder.
- Slechts 4,7% komt voort uit tekst-only ouders.
- Dit betekent dat multimodaliteit voornamelijk binnen bestaande VLM-lijnen wordt versterkt en niet via conversie van tekstlijnen.
Founder Concentratie:
- Ongeveer 60% van de VLM-releases verschijnt als nieuwe "roots" zonder opgenomen ouders.
- De resterende VLM's zijn grotendeels afgeleid van een klein aantal zeer invloedrijke stichters. Bijvoorbeeld, het model naver-clova-ix/donut-base is verantwoordelijk voor 28,2% van alle waargenomen VLM-naar-VLM fine-tuning edges.
- De dynamiek volgt een patroon van snelle uitbreiding vanuit een paar founders, gevolgd door diversificatie.

Significantie en Conclusie

De studie concludeert dat de evolutie van multimodaliteit in open LLM-families wordt gekenmerkt door punctuated equilibrium (gepunctueerd evenwicht) in plaats van geleidelijke convergentie.

Mechanisme: Multimodaliteit wordt geïntroduceerd via zeldzame, complexe integratie-evenementen (het creëren van een nieuwe VLM-funder). Eenmaal geïntroduceerd, verspreidt deze capaciteit zich razendsnel binnen die specifieke stamboom via standaard operaties zoals fine-tuning en quantization.
Implicaties: Innovaties in tekst-only families zullen niet automatisch of snel doorstromen naar multimodale varianten tenzij er expliciete, complexe integratiewerkzaamheden worden verricht om een nieuwe VLM-funder te creëren.
Toekomst: Als de gemeenschap gestandaardiseerde, laagdrempelige methoden ontwikkelt om visuele modules aan te koppelen (bijv. via efficiënte adapters), zou de overdrachtskans van tekst naar VLM kunnen stijgen. Zonder dergelijke modulariteit blijft de groei afhankelijk van periodieke "founder"-gebeurtenissen.

Deze bevindingen bieden een nieuw perspectief op hoe technische innovaties diffunderen in AI-ecosystemen en benadrukken het belang van stamboomdata voor het begrijpen van de schaalbaarheid van multimodale vaardigheden.

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

1. De Grote Bibliotheek vs. De Grote Families

2. De "Stamvader" (De Founder Effect)

3. De Zeldzame Overgang

4. De Explosie na de Start

Waarom is dit belangrijk?

Probleemstelling

Methodologie

Belangrijkste Bijdragen

Resultaten

Significantie en Conclusie

Meer zoals dit

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender