Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

Das große Bild: Wie KI-Modelle "sehen" lernen

Stell dir die Welt der künstlichen Intelligenz (KI) wie einen riesigen, wilden Dschungel vor. In diesem Dschungel gibt es unzählige Pflanzen (die KI-Modelle). Früher waren fast alle Pflanzen nur "Text-Experten" – sie konnten schreiben, aber nicht sehen.

Die Forscher haben untersucht, wie sich in diesem Dschungel plötzlich Pflanzen entwickelt haben, die auch Bilder verstehen können (sogenannte "Multimodal"-Modelle). Die große Frage war: Passiert das langsam und schrittweise bei jeder Pflanze, oder gibt es einen anderen Mechanismus?

Die Antwort lautet: Es ist wie eine Invasion von neuen Entdeckern, gefolgt von einer schnellen Explosion ihrer Nachkommen.

Hier sind die drei wichtigsten Punkte, einfach erklärt:

1. Der große Zeitversatz (Der "Zoo" vs. der "Familienpark")

Stell dir vor, es gibt einen riesigen, chaotischen Zoo (die gesamte KI-Community auf Hugging Face). Dort gibt es schon seit Jahren Tiere, die sowohl sprechen als auch Bilder zeichnen können.

Aber dann gibt es den Familienpark (die großen, bekannten KI-Familien wie Llama, Gemma, etc.). In diesem Park waren die Tiere lange Zeit fast ausschließlich "Sprech-Experten".

Das Ergebnis: Die Fähigkeit, Bilder zu sehen, war im großen Zoo schon lange da. Aber in den großen Familienparks tauchte sie erst viel später auf. Es dauerte Jahre, bis die großen Familien begannen, ihre eigenen "sehenden" Mitglieder zu haben.

2. Der "Übergang" ist extrem selten (Der "Zauberstab"-Effekt)

Die Forscher haben sich gefragt: Wenn man ein normales Text-Modell nimmt und es einfach ein bisschen nachjustiert (feinabstimmt), wird es dann plötzlich zum Bild-Versteher?

Die Analogie: Stell dir vor, du hast einen sehr guten Koch, der nur Suppe kocht. Wenn du ihm einfach ein neues Rezept gibst, wird er dann plötzlich auch ein perfektes Steak braten?
Die Realität: Nein. In den Daten war es extrem selten (nur etwa 0,2 % der Fälle), dass ein reines Text-Modell durch einfaches "Nachjustieren" plötzlich Bilder verstehen konnte. Es ist, als würdest du versuchen, einen Koch mit einem Zauberstab in einen Maler zu verwandeln – das funktioniert fast nie.

3. Die "Gründer"-Effekte (Der "Super-Vorfahr")

Wenn die Fähigkeit, Bilder zu sehen, dann doch in die großen Familienparks kam, geschah es nicht durch kleine Schritte bei vielen verschiedenen Modellen.

Die Analogie: Es war wie eine Invasion von Entdeckern. Ein paar ganz spezielle, neue Modelle (die "Gründer" oder "Founders") tauchten plötzlich auf. Diese waren die ersten, die Bilder und Text kombinierten.
Was dann passierte: Sobald diese "Super-Vorfahren" existierten, explodierte die Anzahl ihrer Nachkommen. Andere Entwickler nahmen diese speziellen Modelle, kopierten sie, verbesserten sie und schufen Tausende von Varianten davon.
Das Ergebnis: Fast alle neuen "sehenden" Modelle in den großen Familien stammen von diesen wenigen ursprünglichen "Gründern" ab. Die Text-Modelle wurden nicht umgewandelt; stattdessen wuchs eine völlig neue, spezialisierte Familie um die Gründer herum.

Zusammenfassung in einem Satz

Die Fähigkeit, Bilder zu verstehen, breitete sich in der KI-Welt nicht langsam und gleichmäßig aus, sondern tauchte plötzlich bei ein paar "Super-Modellen" auf (den Gründern) und breitete sich dann rasend schnell nur innerhalb ihrer eigenen Nachkommen aus, während die alten Text-Modelle weitgehend unverändert blieben.

Warum ist das wichtig?

Das bedeutet, dass wir nicht einfach erwarten können, dass jedes gute Text-Modell von selbst zu einem Bild-Versteher wird. Es braucht einen großen, speziellen Startschuss (ein neues, komplexes Modell), von dem aus dann alles andere wächst. Wenn wir wollen, dass KI schneller Bilder versteht, müssen wir also nicht an den alten Text-Modellen schrauben, sondern neue, spezialisierte "Gründer" entwickeln, die dann als Basis für die Zukunft dienen.

Each language version is independently generated for its own context, not a direct translation.

1. Problemstellung

Trotz rascher Fortschritte bei Large Language Models (LLMs) ist unklar, wie schnell multimodale Fähigkeiten (insbesondere die Kombination von Text und Bild) innerhalb offener LLM-Familien entstehen und sich verbreiten.

Die zentrale Frage: Entstehen multimodale Modelle (Vision-Language Models, VLMs) primär durch die schrittweise Anpassung (Fine-Tuning) bestehender rein textbasierter Modelle, oder entstehen sie durch seltene „Gründer-Ereignisse" (Integration neuer Architekturen), gefolgt von einer schnellen Expansion innerhalb dieser neuen Linien?
Hypothese: Es wird vermutet, dass Multimodalität nicht trivial aus Text-only-Checkpoints hervorgeht, da sie zusätzliche Datenpipelines, Schnittstellen und Evaluierungsprotokolle erfordert. Dies könnte zu einem anderen Evolutionsmechanismus führen als bei rein textbasierten Derivaten.

2. Methodik

Die Studie nutzt den ModelBiome AI Ecosystem Dataset (Stand Juli 2025), der Metadaten von 1,86 Millionen Hugging Face-Modellen und 3,02 Millionen gerichteten Abstammungsbeziehungen (Parent-to-Child) umfasst.

Datengrundlage: Analyse von Metadaten, Task-Tags (Pipeline-Tags) und Modellkarten, um die Entstehung und Verbreitung von Multimodalität zu quantifizieren.
Definitionen:
- VLMs: Modelle mit Bild-Text-Aufgaben (z. B. Image-to-Text, Image-Text-to-Text).
- Beziehungen: Unterscheidung zwischen Fine-Tuning, Merging, Adapters und Quantisierung.
Analyseverfahren:
- Zeitliche Trends: Vergleich der Verbreitung multimodaler Tags im gesamten Ökosystem vs. innerhalb spezifischer großer LLM-Familien.
- Linien-bedingte Übergangsraten: Berechnung der Wahrscheinlichkeit $P(\text{Kind ist VLM} | \text{Elternteil ist Text-only})$ für verschiedene Beziehungstypen.
- Gründer-Analyse: Untersuchung der Herkunft von VLMs (sind sie neue „Roots" ohne Eltern oder Derivate?) und Konzentration der Abstammung auf wenige Vorfahren (Founder Effects).
- Statistik: Verwendung von 95% Wilson-Score-Konfidenzintervallen für Proportionen.

3. Wichtige Beiträge und Ergebnisse

A. Zeitliche Verzögerung und Ökosystem-Dynamik

Frühe Präsenz im Ökosystem: Multimodale Aufgaben sind im gesamten Hugging Face-Ökosystem schon früh verbreitet.
Verzögerung in LLM-Familien: Innerhalb der großen, bekannten Open-LLM-Familien (z. B. Llama, Gemma, GLM) bleibt Multimodalität bis weit in 2023 und den Großteil von 2024 selten. Ein starker Anstieg erfolgt erst 2024–2025.
Dominanz von Bild-Text: Der Anstieg wird fast ausschließlich durch Bild-Text-Aufgaben getrieben, nicht durch Audio/Video.

B. Schwache Übertragung von Text-only zu VLMs

Die Analyse der Abstammungslinien zeigt, dass der Übergang von rein textbasierten Eltern zu multimodalen Kindern extrem selten ist:

Fine-Tuning: Nur 0,218 % der Fine-Tuning-Edges von Text-only-Eltern führen zu VLM-Nachkommen.
Andere Methoden: Auch bei Merging (0,104 %) und Quantisierung (0,133 %) ist die Rate vernachlässigbar gering.
Schlussfolgerung: Es gibt keinen signifikanten Trend einer „graduellen Konvertierung". Der Übergang erfolgt nicht durch inkrementelle Anpassung, sondern durch seltene, episodische Integrationsereignisse.

C. Gründer-getriebene Expansion (Founder Effects)

Sobald ein VLM existiert, breitet er sich schnell innerhalb seiner eigenen Linie aus:

Hohe Retention: 94,5 % aller VLM-Kinder stammen von VLM-Eltern ab. Die Wahrscheinlichkeit, dass ein VLM-Elternteil ein VLM-Kind produziert, liegt bei ca. 65,9 %.
Neue Wurzeln: Etwa 60 % der VLM-Veröffentlichungen erscheinen als neue „Roots" ohne aufgezeichnete Eltern.
Konzentration: Die Expansion wird von wenigen „Gründer-Modellen" dominiert. Das Top-Modell (naver-clova-ix/donut-base) allein macht 28,2 % aller VLM-zu-VLM Fine-Tuning-Edges aus. Die Top-3-Gründer decken fast 49 % ab.
Dynamik: Das Muster folgt einem „Founder Effect": Seltene Integrationsereignisse schaffen neue Linien, die sich dann schnell durch Fine-Tuning und Quantisierung innerhalb dieser Linie vervielfältigen, bevor sich die Diversität langsam erhöht.

D. Zeitliche Verzögerung (Lags)

Der erste VLM in einer Familie erscheint oft Monate bis Jahre nach dem ersten Text-only-Release derselben Familie:

Beispiele: Gemma (~~1 Monat), GLM (~~26 Monate), andere Familien oft >1 Jahr.

4. Bedeutung und Implikationen

Evolutionäre Dynamik: Die Entwicklung multimodaler Fähigkeiten in offenen LLM-Familien folgt keinem kontinuierlichen, linearen Pfad, sondern einem punktuellen (punctuated) Muster. Innovationen entstehen durch seltene „Gründungsereignisse" und breiten sich dann exponentiell innerhalb dieser neuen Linien aus.
Entkopplung von Angebot und Adoption: Die bloße Verfügbarkeit multimodaler Werkzeuge im Ökosystem garantiert nicht deren schnelle Adoption in etablierten Familien. Die „Bottleneck"-Phase ist die initiale Integration (Schaffung des Gründers).
Technische Hürden: Die Seltenheit des Übergangs von Text-only zu VLM deutet darauf hin, dass Multimodalität mehr als nur ein „Fine-Tuning"-Problem ist. Sie erfordert tiefgreifende architektonische Änderungen (Vision-Encoder-Integration), die nicht als einfache inkrementelle Mutationen erfasst werden.
Zukunftsaussichten:
- Solange die Integration von Vision-Modulen komplex bleibt, wird das Wachstum durch VLM-Reproduktion innerhalb bestehender Linien dominiert.
- Standardisierte, modulare Schnittstellen (z. B. effiziente Adapter, LoRA) könnten die Übergangsraten erhöhen und den „Founder"-Effekt abschwächen, indem sie die Kosten für die Integration senken.
Forschungsimplikation: Verbesserte Text-only-Modelle übertragen ihre Fortschritte nicht automatisch auf multimodale Varianten, es sei denn, es werden explizite Integrationsarbeiten geleistet.

Zusammenfassend zeigt das Paper, dass die Evolution multimodaler Fähigkeiten in offenen LLM-Ökosystemen stark von Gründer-Effekten geprägt ist: Seltene Integrationsereignisse etablieren neue VLM-Linien, die dann die weitere Entwicklung dominieren, während der direkte Übergang von reinen Textmodellen zu Multimodalität eine Ausnahme bleibt.