Each language version is independently generated for its own context, not a direct translation.
Stel je voor dat het wereld van kunstmatige intelligentie (AI) een gigantische, levende bibliotheek is. In deze bibliotheek worden er elke dag duizenden nieuwe boeken (modellen) geschreven. De meeste boeken zijn tot nu toe puur tekst: verhalen, gedichten of instructies. Maar de laatste tijd willen mensen ook boeken die beelden kunnen begrijpen en beschrijven. Dit noemen we "multimodaliteit".
Deze studie, geschreven door Manuel Cebrian, onderzoekt hoe deze nieuwe, beeldende boeken ontstaan en zich verspreiden binnen de grote, open families van AI-modellen. Het verrassende antwoord? Het gebeurt niet langzaam en geleidelijk, maar via zeldzame gebeurtenissen gevolgd door een explosie.
Hier is de uitleg in simpele taal, met een paar creatieve vergelijkingen:
1. De Grote Bibliotheek vs. De Grote Families
Stel je voor dat er een enorme openbare bibliotheek is (het hele Hugging Face-ecosysteem). In deze bibliotheek zie je al lang mensen die boeken schrijven met plaatjes erin. Dat is heel normaal.
Maar dan zijn er ook de "grote families" (zoals de Llama- of Gemma-families). Dit zijn als het ware grote, gesloten clans van schrijvers die allemaal op elkaar lijken. De studie laat zien dat deze grote clans heel lang alleen maar pure tekstboeken bleven schrijven. Zelfs toen de rest van de bibliotheek al vol zat met plaatjes, bleven deze clans tot ver in 2024 en 2025 vasthouden aan tekst.
De les: Het hebben van plaatjes in de wereld betekent niet dat ze automatisch in de grote families terechtkomen. Er is een muur tussen de "wereld" en de "familie".
2. De "Stamvader" (De Founder Effect)
Hoe komen de plaatjes dan toch in de familie? De studie ontdekt dat het niet gebeurt omdat een schrijver van een tekstboek langzaam een plaatje toevoegt aan zijn verhaal. Dat gebeurt bijna nooit.
In plaats daarvan is het alsof er een nieuwe, speciale schrijver de bibliotheek binnenkomt. Deze nieuwe schrijver heeft al een boek geschreven dat perfect is voor tekst én plaatjes. Dit is de "Stamvader" (in het Engels: Founder).
- Vergelijking: Stel je voor dat een familie van bakkers alleen brood bakt. Iedereen maakt brood. Dan komt er plotseling een nieuwe bakker binnen die ook taarten maakt. Hij is de "Stamvader".
- Wat gebeurt er daarna? De familie neemt deze nieuwe taart-bakker over. Zijn kinderen, kleinkinderen en neven gaan allemaal taarten bakken. Ze passen de taartrecepten aan, maken ze kleiner of groter, maar ze blijven taarten maken.
- De bevinding: 94,5% van de nieuwe "plaatjes-modellen" komt voort uit andere "plaatjes-modellen". Het is alsof de taart-bakkers hun eigen familie uitbreiden.
3. De Zeldzame Overgang
Hoe vaak gebeurt het dat een pure tekst-bakker (een tekstmodel) plotseling een taart (een plaatjesmodel) maakt?
Zeer zelden. De studie berekent dat dit maar 0,2% van de keren gebeurt.
- Vergelijking: Het is alsof je vraagt of een auto die alleen maar op benzine rijdt, plotseling op waterstof gaat rijden door er een klein beetje water bij te doen. Dat werkt niet. Je moet een heel nieuw motorblok bouwen.
- In de AI-wereld betekent dit: je kunt een tekstmodel niet zomaar "fijn tunen" (aanpassen) om het ineens plaatjes te laten zien. Je hebt een ingewikkelde, nieuwe integratie nodig. Dat is een zeldzame gebeurtenis.
4. De Explosie na de Start
Zodra die ene "Stamvader" (het eerste plaatjesmodel in een familie) er is, gaat het razendsnel.
- Vergelijking: Zodra de eerste boomzaadje in de grond zit, groeit er niet één boom. Er groeit een heel bos.
- De studie ziet dat zodra een familie een plaatjesmodel heeft, er binnen een paar maanden honderden varianten ontstaan die allemaal op dat ene originele model lijken. Het groeit binnen de familie, maar het komt zelden van buitenaf.
Waarom is dit belangrijk?
Dit verklaart waarom innovatie soms sprongsgewijs gaat in plaats van geleidelijk.
- Geen geleidelijke groei: We denken vaak dat AI langzaam beter wordt door kleine stapjes. Maar voor plaatjes gaat het zo: eerst niets, dan een grote sprong (een nieuwe Stamvader), en daarna een explosie van kopieën en aanpassingen.
- De toekomst: Als we willen dat tekstmodellen sneller plaatjes kunnen gaan maken, moeten we de "muur" verlagen. We moeten tools maken die het makkelijker maken om een tekstmodel om te bouwen naar een plaatjesmodel (zoals het toevoegen van een nieuwe motor aan een auto zonder de hele auto te slopen). Zolang dat moeilijk blijft, zullen we blijven wachten op die zeldzame "Stamvaders".
Samenvattend:
De wereld van AI-modellen is als een dorp waar mensen eerst alleen tekst schreven. Plotseling arriveert er een paar keer per jaar een nieuwe "meesterkunstenaar" die zowel tekst als plaatjes kan. Zodra die er is, kopiëren en verbeteren zijn familieleden dat talent razendsnel. Maar het is heel moeilijk voor een gewone tekstschrijver om zichzelf om te vormen tot zo'n meesterkunstenaar. Daarom groeien de plaatjes-modellen in "buien" rondom die ene speciale starter, en niet langzaam overal tegelijk.