Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Lo studio dimostra che le capacità multimodali nelle famiglie di LLM open source emergono attraverso rari eventi fondatori seguiti da una rapida espansione all'interno delle rispettive discendenze, piuttosto che diffondersi gradualmente tramite il trasferimento diretto dai modelli puramente testuali.

Manuel Cebrian

Pubblicato 2026-03-25
📖 4 min di lettura☕ Lettura da pausa caffè

Each language version is independently generated for its own context, not a direct translation.

🌱 Il Giardinaggio dell'Intelligenza Artificiale: Come Nascono i "Super-Modelli"

Immagina l'ecosistema delle Intelligenze Artificiali (come quelle che trovi su Hugging Face) non come un computer, ma come un enorme giardino botanico. In questo giardino ci sono milioni di piante (i modelli).

Per anni, questo giardino è stato popolato quasi esclusivamente da piante che sapevano solo parlare (modelli di testo). Erano come alberi che producevano solo foglie verdi. Ma negli ultimi anni, gli scienziati hanno iniziato a voler creare piante che potessero anche vedere (modelli multimodali, capaci di capire immagini e testo insieme).

Lo studio di Manuel Cebrian ci racconta una storia sorprendente su come queste nuove piante "vedenti" sono arrivate nel giardino.

1. Il Paradosso del Ritardo: Il Giardino vs. I Grandi Parchi

Prima di tutto, c'è un ritardo strano.

  • Nel grande giardino pubblico (l'ecosistema generale): Le piante che sanno vedere e parlare sono apparse da tempo. Erano lì, sparse un po' ovunque.
  • Nei "Grandi Parchi" (le famose famiglie di modelli come Llama, Gemma, ecc.): Queste stesse piante sono rimaste assenti per molto tempo. Solo nel 2024-2025 hanno iniziato a esplodere di colpo.

L'analogia: Immagina che in tutta la città ci siano già molti negozi di biciclette (le capacità multimodali esistono), ma nei quartieri più esclusivi (le grandi famiglie di modelli famose) non se ne vedeva nessuno per anni. Poi, all'improvviso, tutti i quartieri esclusivi si riempiono di biciclette nello stesso periodo.

2. Il Mito della "Trasformazione Magica" (Che non funziona)

Molti pensavano che bastasse prendere un modello che sapeva solo scrivere (un albero di foglie verdi) e, con un po' di "fertilizzante" (un addestramento o un fine-tuning), trasformarlo magicamente in un albero che sa anche vedere.

Lo studio dice: No, non funziona così.
È come se provassi a trasformare un albero di mele in un albero di arance semplicemente annaffiandolo in modo diverso. Succede raramente.

  • Se prendi un modello che sa solo scrivere e provi a renderlo capace di vedere, il successo è quasi nullo (meno dell'1% dei tentativi funziona).
  • La maggior parte dei tentativi fallisce o rimane uguale a prima.

3. La Teoria del "Fondatore" (L'Evento Raro)

Allora, come fanno queste nuove piante a diffondersi? La risposta è il Fondatore.

Invece di trasformare vecchi alberi, ogni tanto arriva un nuovo seme speciale (un modello "fondatore") che nasce già capace di vedere e parlare.

  • Questo evento è raro: è come se ogni tanto cadesse dal cielo un seme magico che non ha bisogno di genitori precedenti.
  • Una volta che questo "seme fondatore" atterra e cresce, succede qualcosa di incredibile: esplode di vita.

L'analogia: Immagina che arrivi un unico pino capace di parlare. Una volta piantato, i suoi rami (i modelli derivati) si moltiplicano velocemente. Ogni nuovo ramo nasce già capace di parlare e vedere, perché eredita le capacità del genitore. Non serve trasformare un albero di quercia; basta copiare e adattare il pino che funziona già.

4. La Dinamica a "Scoppio"

Il risultato è un'evoluzione a scatti (puntuale), non graduale.

  1. Attesa: Per anni, le grandi famiglie di modelli restano "cieche" (solo testo).
  2. L'Evento: Arriva il primo modello "fondatore" capace di vedere (es. un modello come LLaVA o Donut).
  3. L'Esplosione: Subito dopo, centinaia di versioni di quel modello vengono create, modificate e migliorate. La capacità di "vedere" si diffonde rapidamente dentro quella specifica famiglia, ma non passa facilmente da una famiglia all'altra.

🧠 Cosa ci insegna questo?

  1. Non è una trasformazione lenta: Non aspettarti che ogni modello che sai usare oggi diventi magicamente capace di vedere le immagini domani. Serve un intervento ingegneristico pesante per creare un nuovo "fondatore".
  2. L'eredità conta: Una volta creato un modello che vede, la sua "progenie" (i modelli derivati) erediterà quella capacità molto facilmente. È come se avessi trovato la chiave giusta per aprire una porta: una volta aperta, tutti i tuoi amici possono entrare, ma devi ancora trovare la chiave per la porta successiva.
  3. Il futuro: Se in futuro la tecnologia diventasse più semplice (come avere "adattatori" universali che si attaccano a qualsiasi modello), potremmo vedere più trasformazioni. Ma per ora, la strada maestra è: trova un fondatore, poi moltiplicalo.

In sintesi: L'intelligenza artificiale multimodale non sta evolvendo lentamente trasformando i vecchi modelli. Sta arrivando attraverso rari "big bang" (nuovi modelli fondatori) che poi si diffondono rapidamente come un'onda dentro le loro stesse famiglie, lasciando indietro le vecchie generazioni che sanno solo scrivere.