Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Die Studie zeigt, dass sich multimodale Fähigkeiten in offenen LLM-Familien durch seltene Gründerevents einschleusen und sich anschließend rasch innerhalb der jeweiligen Abstammungslinien ausbreiten, was zu einer punktierten Adoptionsdynamik und begrenztem Wissenstransfer zwischen Text- und Multimodal-Modellen führt.

Manuel Cebrian

Veröffentlicht 2026-03-25
📖 3 Min. Lesezeit☕ Kaffeepausen-Lektüre

Each language version is independently generated for its own context, not a direct translation.

Das große Bild: Wie KI-Modelle "sehen" lernen

Stell dir die Welt der künstlichen Intelligenz (KI) wie einen riesigen, wilden Dschungel vor. In diesem Dschungel gibt es unzählige Pflanzen (die KI-Modelle). Früher waren fast alle Pflanzen nur "Text-Experten" – sie konnten schreiben, aber nicht sehen.

Die Forscher haben untersucht, wie sich in diesem Dschungel plötzlich Pflanzen entwickelt haben, die auch Bilder verstehen können (sogenannte "Multimodal"-Modelle). Die große Frage war: Passiert das langsam und schrittweise bei jeder Pflanze, oder gibt es einen anderen Mechanismus?

Die Antwort lautet: Es ist wie eine Invasion von neuen Entdeckern, gefolgt von einer schnellen Explosion ihrer Nachkommen.

Hier sind die drei wichtigsten Punkte, einfach erklärt:

1. Der große Zeitversatz (Der "Zoo" vs. der "Familienpark")

Stell dir vor, es gibt einen riesigen, chaotischen Zoo (die gesamte KI-Community auf Hugging Face). Dort gibt es schon seit Jahren Tiere, die sowohl sprechen als auch Bilder zeichnen können.

Aber dann gibt es den Familienpark (die großen, bekannten KI-Familien wie Llama, Gemma, etc.). In diesem Park waren die Tiere lange Zeit fast ausschließlich "Sprech-Experten".

  • Das Ergebnis: Die Fähigkeit, Bilder zu sehen, war im großen Zoo schon lange da. Aber in den großen Familienparks tauchte sie erst viel später auf. Es dauerte Jahre, bis die großen Familien begannen, ihre eigenen "sehenden" Mitglieder zu haben.

2. Der "Übergang" ist extrem selten (Der "Zauberstab"-Effekt)

Die Forscher haben sich gefragt: Wenn man ein normales Text-Modell nimmt und es einfach ein bisschen nachjustiert (feinabstimmt), wird es dann plötzlich zum Bild-Versteher?

  • Die Analogie: Stell dir vor, du hast einen sehr guten Koch, der nur Suppe kocht. Wenn du ihm einfach ein neues Rezept gibst, wird er dann plötzlich auch ein perfektes Steak braten?
  • Die Realität: Nein. In den Daten war es extrem selten (nur etwa 0,2 % der Fälle), dass ein reines Text-Modell durch einfaches "Nachjustieren" plötzlich Bilder verstehen konnte. Es ist, als würdest du versuchen, einen Koch mit einem Zauberstab in einen Maler zu verwandeln – das funktioniert fast nie.

3. Die "Gründer"-Effekte (Der "Super-Vorfahr")

Wenn die Fähigkeit, Bilder zu sehen, dann doch in die großen Familienparks kam, geschah es nicht durch kleine Schritte bei vielen verschiedenen Modellen.

  • Die Analogie: Es war wie eine Invasion von Entdeckern. Ein paar ganz spezielle, neue Modelle (die "Gründer" oder "Founders") tauchten plötzlich auf. Diese waren die ersten, die Bilder und Text kombinierten.
  • Was dann passierte: Sobald diese "Super-Vorfahren" existierten, explodierte die Anzahl ihrer Nachkommen. Andere Entwickler nahmen diese speziellen Modelle, kopierten sie, verbesserten sie und schufen Tausende von Varianten davon.
  • Das Ergebnis: Fast alle neuen "sehenden" Modelle in den großen Familien stammen von diesen wenigen ursprünglichen "Gründern" ab. Die Text-Modelle wurden nicht umgewandelt; stattdessen wuchs eine völlig neue, spezialisierte Familie um die Gründer herum.

Zusammenfassung in einem Satz

Die Fähigkeit, Bilder zu verstehen, breitete sich in der KI-Welt nicht langsam und gleichmäßig aus, sondern tauchte plötzlich bei ein paar "Super-Modellen" auf (den Gründern) und breitete sich dann rasend schnell nur innerhalb ihrer eigenen Nachkommen aus, während die alten Text-Modelle weitgehend unverändert blieben.

Warum ist das wichtig?

Das bedeutet, dass wir nicht einfach erwarten können, dass jedes gute Text-Modell von selbst zu einem Bild-Versteher wird. Es braucht einen großen, speziellen Startschuss (ein neues, komplexes Modell), von dem aus dann alles andere wächst. Wenn wir wollen, dass KI schneller Bilder versteht, müssen wir also nicht an den alten Text-Modellen schrauben, sondern neue, spezialisierte "Gründer" entwickeln, die dann als Basis für die Zukunft dienen.