Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

🌱 Il Giardinaggio dell'Intelligenza Artificiale: Come Nascono i "Super-Modelli"

Immagina l'ecosistema delle Intelligenze Artificiali (come quelle che trovi su Hugging Face) non come un computer, ma come un enorme giardino botanico. In questo giardino ci sono milioni di piante (i modelli).

Per anni, questo giardino è stato popolato quasi esclusivamente da piante che sapevano solo parlare (modelli di testo). Erano come alberi che producevano solo foglie verdi. Ma negli ultimi anni, gli scienziati hanno iniziato a voler creare piante che potessero anche vedere (modelli multimodali, capaci di capire immagini e testo insieme).

Lo studio di Manuel Cebrian ci racconta una storia sorprendente su come queste nuove piante "vedenti" sono arrivate nel giardino.

1. Il Paradosso del Ritardo: Il Giardino vs. I Grandi Parchi

Prima di tutto, c'è un ritardo strano.

Nel grande giardino pubblico (l'ecosistema generale): Le piante che sanno vedere e parlare sono apparse da tempo. Erano lì, sparse un po' ovunque.
Nei "Grandi Parchi" (le famose famiglie di modelli come Llama, Gemma, ecc.): Queste stesse piante sono rimaste assenti per molto tempo. Solo nel 2024-2025 hanno iniziato a esplodere di colpo.

L'analogia: Immagina che in tutta la città ci siano già molti negozi di biciclette (le capacità multimodali esistono), ma nei quartieri più esclusivi (le grandi famiglie di modelli famose) non se ne vedeva nessuno per anni. Poi, all'improvviso, tutti i quartieri esclusivi si riempiono di biciclette nello stesso periodo.

2. Il Mito della "Trasformazione Magica" (Che non funziona)

Molti pensavano che bastasse prendere un modello che sapeva solo scrivere (un albero di foglie verdi) e, con un po' di "fertilizzante" (un addestramento o un fine-tuning), trasformarlo magicamente in un albero che sa anche vedere.

Lo studio dice: No, non funziona così.
È come se provassi a trasformare un albero di mele in un albero di arance semplicemente annaffiandolo in modo diverso. Succede raramente.

Se prendi un modello che sa solo scrivere e provi a renderlo capace di vedere, il successo è quasi nullo (meno dell'1% dei tentativi funziona).
La maggior parte dei tentativi fallisce o rimane uguale a prima.

3. La Teoria del "Fondatore" (L'Evento Raro)

Allora, come fanno queste nuove piante a diffondersi? La risposta è il Fondatore.

Invece di trasformare vecchi alberi, ogni tanto arriva un nuovo seme speciale (un modello "fondatore") che nasce già capace di vedere e parlare.

Questo evento è raro: è come se ogni tanto cadesse dal cielo un seme magico che non ha bisogno di genitori precedenti.
Una volta che questo "seme fondatore" atterra e cresce, succede qualcosa di incredibile: esplode di vita.

L'analogia: Immagina che arrivi un unico pino capace di parlare. Una volta piantato, i suoi rami (i modelli derivati) si moltiplicano velocemente. Ogni nuovo ramo nasce già capace di parlare e vedere, perché eredita le capacità del genitore. Non serve trasformare un albero di quercia; basta copiare e adattare il pino che funziona già.

4. La Dinamica a "Scoppio"

Il risultato è un'evoluzione a scatti (puntuale), non graduale.

Attesa: Per anni, le grandi famiglie di modelli restano "cieche" (solo testo).
L'Evento: Arriva il primo modello "fondatore" capace di vedere (es. un modello come LLaVA o Donut).
L'Esplosione: Subito dopo, centinaia di versioni di quel modello vengono create, modificate e migliorate. La capacità di "vedere" si diffonde rapidamente dentro quella specifica famiglia, ma non passa facilmente da una famiglia all'altra.

🧠 Cosa ci insegna questo?

Non è una trasformazione lenta: Non aspettarti che ogni modello che sai usare oggi diventi magicamente capace di vedere le immagini domani. Serve un intervento ingegneristico pesante per creare un nuovo "fondatore".
L'eredità conta: Una volta creato un modello che vede, la sua "progenie" (i modelli derivati) erediterà quella capacità molto facilmente. È come se avessi trovato la chiave giusta per aprire una porta: una volta aperta, tutti i tuoi amici possono entrare, ma devi ancora trovare la chiave per la porta successiva.
Il futuro: Se in futuro la tecnologia diventasse più semplice (come avere "adattatori" universali che si attaccano a qualsiasi modello), potremmo vedere più trasformazioni. Ma per ora, la strada maestra è: trova un fondatore, poi moltiplicalo.

In sintesi: L'intelligenza artificiale multimodale non sta evolvendo lentamente trasformando i vecchi modelli. Sta arrivando attraverso rari "big bang" (nuovi modelli fondatori) che poi si diffondono rapidamente come un'onda dentro le loro stesse famiglie, lasciando indietro le vecchie generazioni che sanno solo scrivere.

Each language version is independently generated for its own context, not a direct translation.

1. Il Problema

Nonostante il rapido miglioramento dei Modelli Linguistici su Grande Scala (LLM) open source, rimane incerto come e con quale velocità le capacità multimodali (in particolare il ragionamento immagine-testo) emergano e si propaghino all'interno delle famiglie di modelli open.
La domanda centrale è: la multimodalità nelle famiglie open LLM deriva principalmente dall'adattamento incrementale di checkpoint basati solo sul testo, o nasce da eventi di integrazione rari che creano nuovi "fondatori" VLM (Vision-Language Models), seguiti da un'espansione interna alla loro discendenza?
Esiste un divario tra la disponibilità di modelli multimodali nell'ecosistema generale di Hugging Face e la loro adozione all'interno delle grandi famiglie di LLM, suggerendo meccanismi di diffusione diversi rispetto ai modelli puramente testuali.

2. Metodologia

Lo studio utilizza il dataset ModelBiome AI Ecosystem, un'istantanea di 1,86 milioni di modelli pubblici di Hugging Face (aggiornata a luglio 2025), contenente metadati, schede modello e oltre 3,02 milioni di relazioni di discendenza (genitore-figlio) registrate.

Le analisi si basano su:

Analisi Temporale: Tracciamento della frazione di nuovi checkpoint etichettati con task cross-modali (testo-immagine/audio/video) nel tempo, confrontando l'ecosistema globale con le famiglie open LLM specifiche.
Analisi delle Transizioni di Lineage: Calcolo dei tassi di transizione condizionati al tipo di relazione (fine-tuning, merging, quantizzazione, adapter) per determinare la probabilità che un modello genitore (es. text-generation) generi un figlio multimodale (VLM).
Analisi dei "Fondatori": Studio della struttura delle linee genealogiche VLM per identificare se i nuovi modelli VLM nascono come radici (senza genitori registrati) o derivano da genitori VLM esistenti.
Metriche di Concentrazione: Utilizzo dell'Indice di Herfindahl-Hirschman (HHI) e del numero effettivo di fondatori ( $N_{eff}$ ) per misurare la concentrazione della derivazione VLM su pochi modelli genitori.

3. Contributi Chiave

Il paper fornisce la prima quantificazione su larga scala della dinamica evolutiva della multimodalità nei modelli open, identificando tre meccanismi fondamentali:

Decoupling Temporale: La multimodalità è presente nell'ecosistema generale molto prima di diventare comune nelle grandi famiglie LLM.
Barriera di Trasferimento: Esiste una bassa probabilità di transizione diretta dai checkpoint text-only ai modelli VLM attraverso le operazioni standard di derivazione.
Dinamica a Effetto Fondatore: L'espansione della multimodalità è guidata da eventi di fondazione rari, seguiti da una rapida amplificazione all'interno della stessa linea genealogica.

4. Risultati Principali

Ritardo nell'Adozione: Mentre i task cross-modali sono diffusi nell'ecosistema Hugging Face dal 2022, all'interno delle grandi famiglie open LLM la multimodalità è rimasta rara fino alla fine del 2023/inizio 2024, con un aumento netto solo nel 2024-2025. I task dominanti sono quelli immagine-testo.
Bassa Probabilità di Transizione Text-to-VLM:
- Tra le relazioni di fine-tuning da genitori text-only, solo lo 0,218% produce discendenti VLM.
- Le transizioni tramite merging e quantizzazione sono ancora più rare (0,104% e 0,133% rispettivamente).
- La stragrande maggioranza (94,5%) dei figli VLM derivanti da fine-tuning ha un genitore VLM, non un genitore text-only.
Dinamica Puntuale (Punctuated Dynamics):
- L'aumento dei modelli VLM non è dovuto a una conversione graduale dei rami text-only, ma a eventi episodici di integrazione.
- Una volta creato un "fondatore" VLM, la capacità multimodale viene preservata e propagata con alta efficienza (tasso di ritenzione VLM→VLM > 75%).
Concentrazione dei Fondatori:
- Circa il 60% dei rilasci VLM appare come nuove radici (senza genitori registrati), indicando che nascono come integrazioni ex-novo.
- La derivazione successiva è altamente concentrata: un piccolo numero di fondatori (es. naver-clova-ix/donut-base, llava-hf/llava-v1.6-mistral-7b-hf) genera una frazione sproporzionata dei discendenti VLM.
- I ritardi tra il primo rilascio text-only di una famiglia e il primo VLM variano da ~1 mese (Gemma) a ~26 mesi (GLM).

5. Significato e Implicazioni

I risultati suggeriscono che l'evoluzione della multimodalità negli ecosistemi open è governata da effetti fondatore e dinamiche di diffusione puntuale, analoghe a quelle osservate in biologia evolutiva.

Barriere Tecniche: La difficoltà nel passare da text-only a VLM non è dovuta alla mancanza di dati o modelli base, ma alla complessità dell'integrazione architetturale (pipeline dati multimodali, interfacce tra encoder visivi e backbone linguistici, valutazione della fedeltà visiva). Le operazioni standard di derivazione (fine-tuning, quantizzazione) sono "preservatrici di modalità" e raramente introducono nuove capacità cross-modali.
Implicazioni per l'Innovazione: Il progresso non è lineare. Le innovazioni nei modelli text-only non si trasferiscono automaticamente alle varianti multimodali a meno che non vengano eseguiti lavori di integrazione espliciti per creare nuovi fondatori VLM.
Predizioni Future: Se la comunità sviluppa interfacce standardizzate e a basso attrito per l'aggiunta di moduli visivi (es. tramite adapter efficienti come LoRA), i tassi di transizione text-to-VLM potrebbero aumentare. Altrimenti, la crescita rimarrà dominata dalla riproduzione interna alle linee VLM e da eventi di fondazione periodici.

In sintesi, la multimodalità negli open LLM non si diffonde gradualmente da tutti i rami, ma "esplode" in specifiche linee genealogiche dopo rari eventi di fondazione, creando una dinamica di adozione frammentata e dipendente dal percorso (path-dependent).

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

🌱 Il Giardinaggio dell'Intelligenza Artificiale: Come Nascono i "Super-Modelli"

1. Il Paradosso del Ritardo: Il Giardino vs. I Grandi Parchi

2. Il Mito della "Trasformazione Magica" (Che non funziona)

3. La Teoria del "Fondatore" (L'Evento Raro)

4. La Dinamica a "Scoppio"

🧠 Cosa ci insegna questo?

1. Il Problema

2. Metodologia

3. Contributi Chiave

4. Risultati Principali

5. Significato e Implicazioni

Articoli simili

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Personalized Federated Sequential Recommender