Founder effects shape the evolutionary dynamics of multimodality in open LLM families

Each language version is independently generated for its own context, not a direct translation.

¡Claro que sí! Imagina que el mundo de la Inteligencia Artificial es como un gigantesco jardín botánico donde crecen millones de plantas (los modelos de lenguaje). Algunos son solo hierbas que hablan (texto), y otros son plantas exóticas que pueden "ver" imágenes y hablar al mismo tiempo (multimodalidad).

Este estudio, hecho por Manuel Cebrian, nos cuenta una historia fascinante sobre cómo estas plantas "que ven" llegaron a los jardines más famosos y organizados (las grandes familias de modelos de código abierto como Llama, Gemma, etc.).

Aquí tienes la explicación sencilla, con sus analogías:

1. El Jardín General vs. Los Jardines Privados

Imagina que en todo el mundo (el "ecosistema" de Hugging Face), la gente ya estaba plantando semillas de plantas que ven imágenes desde hace tiempo. Era común verlas en los rincones del jardín.

Sin embargo, en los jardines privados y famosos (las grandes familias de modelos de lenguaje), durante mucho tiempo (hasta 2024) solo había hierbas que hablaban. De repente, en 2024-2025, ¡bam! De la nada, estos jardines se llenaron de plantas que ven imágenes.

La sorpresa: No fue un crecimiento lento y gradual. Fue como si de repente aparecieran árboles gigantes en un bosque que antes solo tenía arbustos.

2. El Mito de la "Transformación Mágica"

Una idea que muchos tenían era: "Bueno, seguro que los jardineros tomaron una planta que solo habla, le añadieron un poco de magia (ajustes finos) y ¡listo!, ahora ve imágenes".

El estudio dice: ¡No, no es así!
Es como intentar convertir un coche de gasolina en un avión simplemente cambiando el volante. Es muy difícil.

De cada 1.000 veces que alguien toma un modelo que solo habla y lo "afina" (fine-tuning), solo 2 o 3 veces logra que vea imágenes. Es extremadamente raro.
La mayoría de las veces, si tomas un modelo de texto y lo ajustas, sigue siendo un modelo de texto.

3. La Teoría del "Fundador" (El Árbol Semilla)

Entonces, ¿cómo aparecieron todas esas plantas que ven imágenes en los jardines famosos?

Aquí entra la idea de los "Fundadores".
Imagina que un jardinero muy experto trae una nueva semilla especial (un modelo que ya sabe ver y hablar) y la planta en el jardín. Esa es la "semilla fundadora".

Una vez que esa semilla especial está plantada, sus "hijos", "nietos" y "bisnietos" (los modelos derivados) heredan naturalmente la capacidad de ver.
El estudio muestra que el 94% de las plantas que ven imágenes en estos jardines son descendientes directas de otras plantas que ya veían imágenes.
Es como si un solo árbol exótico se hubiera multiplicado rápidamente, llenando el bosque de copias de sí mismo, en lugar de que cada árbol se convirtiera en exótico por separado.

4. El Efecto "Cuello de Botella"

El proceso funciona así:

El Evento Raro: Alguien crea un modelo nuevo desde cero que combina visión y lenguaje (esto es difícil y costoso, como construir un cohete).
La Explosión: Una vez que ese cohete existe, miles de personas lo copian, lo mejoran y lo adaptan. ¡Y todos siguen siendo cohetes!
El Resultado: La multimodalidad no llegó a las grandes familias porque todos fueron cambiando sus modelos de texto poco a poco. Llegó porque aparecieron unos pocos "fundadores" especiales y luego todo el mundo se copió de ellos.

¿Por qué es importante esto?

Imagina que quieres que todos los coches del mundo sean eléctricos.

Lo que pensábamos: Que cada dueño de un coche de gasolina iría poco a poco cambiando piezas hasta tener uno eléctrico.
Lo que dice el estudio: No. Primero alguien fabrica un coche eléctrico nuevo y perfecto. Luego, miles de talleres empiezan a copiar ese modelo específico. Mientras no haya un "taller" fácil para convertir coches de gasolina en eléctricos, la mayoría seguirá siendo de gasolina, y los eléctricos seguirán siendo copias de los primeros fundadores.

En resumen:
La inteligencia artificial que "ve" no se está convirtiendo lentamente a partir de la que solo "habla". En cambio, aparecen unos pocos modelos "fundadores" que ya saben ver, y luego se multiplican rápidamente dentro de sus propias familias, dejando atrás a los modelos de texto puros. Es una evolución por saltos y copias, no por transformaciones lentas.

Each language version is independently generated for its own context, not a direct translation.

Resumen Técnico: Efectos Fundadores y la Evolución de la Multimodalidad en LLMs Abiertos

1. Planteamiento del Problema

A pesar del rápido progreso en los modelos de lenguaje grandes (LLM) y su ecosistema abierto de "derivados" (ajustes finos, cuantización, fusión), existe una incertidumbre sobre cómo emergen y se propagan las capacidades multimodales (específicamente visión-lenguaje) dentro de estas familias.

La pregunta central: ¿La multimodalidad surge principalmente a través de la adaptación incremental de checkpoints de texto puro, o a través de eventos de integración menos frecuentes que crean modelos fundadores (VLMs) que luego se expanden dentro de su propia línea genealógica?
El desafío: Determinar si la transición de texto a multimodalidad es un proceso gradual y común o un evento raro y discontinuo ("puntuado") que actúa como un cuello de botella.

2. Metodología

El estudio utiliza el conjunto de datos ModelBiome AI Ecosystem (una instantánea de julio de 2025) para analizar la evolución de los modelos en Hugging Face.

Datos: Incluye 1.86 millones de entradas de modelos con metadatos, tarjetas de modelo y 3.02 millones de relaciones de linaje (padre-hijo) registradas.
Definiciones Clave:
- VLM (Vision-Language Models): Modelos etiquetados con tareas de imagen-texto (ej. image-to-text, image-text-to-text).
- Familias LLM: Identificadas mediante patrones de nombres en arquitecturas Transformers (excluyendo pipelines de difusión).
Análisis:
- Tendencias Temporales: Comparación de la adopción de tareas cruzadas en el ecosistema general vs. familias LLM específicas.
- Tasas de Transición Condicionadas al Linaje: Cálculo de la probabilidad de que un modelo hijo sea multimodal dado que su padre es de texto puro (y viceversa), desglosado por tipo de relación (ajuste fino, fusión, cuantización, adaptadores).
- Análisis de Concentración de Fundadores: Medición de la diversidad de padres en las líneas de descendencia VLM (usando el número efectivo de fundadores $N_{eff}$ y el índice HHI).

3. Contribuciones Clave

El artículo aporta una caracterización cuantitativa de la dinámica de adopción multimodal, demostrando que:

Existe un desacoplamiento temporal entre la disponibilidad de modelos multimodales en el ecosistema general y su adopción dentro de las grandes familias de LLMs.
La transición de texto a multimodalidad es extremadamente rara a través de las operaciones estándar de derivación (ajuste fino, fusión, cuantización).
La expansión de la multimodalidad sigue un patrón de efecto fundador: una vez que aparece un VLM "fundador", la capacidad multimodal se preserva y amplifica rápidamente dentro de su propia descendencia, pero no se transfiere fácilmente desde líneas de texto puro.

4. Resultados Principales

Retraso en la Adopción: Las tareas multimodales son comunes en el ecosistema de Hugging Face mucho antes de volverse prevalentes en las grandes familias de LLMs. Dentro de estas familias, la multimodalidad permaneció rara hasta finales de 2023 y principios de 2024, con un aumento brusco en 2024-2025.
Baja Tasa de Transferencia (Texto $\to$ VLM):
- La probabilidad de que un modelo hijo sea un VLM dado que su padre es de generación de texto es mínima:
  - Ajuste fino (Fine-tuning): 0.218% (50 de 22,928 casos).
  - Fusión (Merge): 0.104%.
  - Cuantización: 0.133%.
- Esto refuta la hipótesis de una "conversión gradual" rutinaria.
Alta Retención y Amplificación (VLM $\to$ VLM):
- Una vez que un linaje es multimodal, la probabilidad de que los descendientes mantengan esa capacidad es muy alta (65.9% en ajustes finos desde padres VLM).
- El 94.5% de los hijos VLM provienen de padres VLM, mientras que solo el 4.7% provienen de padres de texto.
Dinámica de Fundadores:
- Aproximadamente el 60% de las versiones de VLM aparecen como "raíces" nuevas (sin padres registrados), actuando como eventos fundadores.
- Existe una fuerte concentración inicial: un pequeño número de modelos fundadores (ej. donut-base, llava-v1.6-mistral) genera una gran fracción de los derivados posteriores (el top 3 de fundadores representa casi el 50% de las conexiones).
- La diversidad de fundadores aumenta con el tiempo, pero la expansión inicial es rápida y dominada por unos pocos linajes exitosos.

5. Significado e Implicaciones

Dinámica Puntuada: La evolución de la multimodalidad en LLMs abiertos no es un proceso continuo y suave, sino puntuado. Requiere eventos de integración complejos (fundadores) que introducen la capacidad, seguidos de una rápida replicación dentro de ese linaje.
Barreras de Integración: La rareza de la transición texto $\to$ VLM sugiere que la multimodalidad no es una extensión trivial del texto. Requiere pipelines de datos adicionales, interfaces arquitectónicas específicas (encoders de visión) y herramientas de evaluación que no se capturan en las operaciones de ajuste fino estándar.
Dependencia de Ruta (Path Dependence): Las mejoras en modelos de texto puro no se propagan automáticamente a variantes multimodales a menos que se realice un trabajo de integración explícito para crear nuevos fundadores. Esto implica que la innovación multimodal puede estar "atrapada" en unos pocos linajes exitosos.
Predicciones Futuras:
- Si la comunidad desarrolla interfaces estandarizadas y de bajo costo (ej. adaptadores eficientes, flujos de trabajo conscientes de la cuantización), las tasas de transición texto $\to$ VLM podrían aumentar.
- Si la multimodalidad sigue requiriendo ingeniería personalizada, el crecimiento seguirá dominado por la reproducción dentro de linajes VLM existentes y la entrada periódica de nuevos fundadores.

Conclusión: El estudio demuestra que la multimodalidad en el ecosistema de LLMs abiertos está fuertemente moldeada por efectos fundadores. La capacidad entra a través de eventos raros de integración y luego se expande rápidamente dentro de su propia descendencia, creando una dinámica de adopción discontinua que limita la transferencia de capacidades desde los modelos de texto puro.

Founder effects shape the evolutionary dynamics of multimodality in open LLM families

1. El Jardín General vs. Los Jardines Privados

2. El Mito de la "Transformación Mágica"

3. La Teoría del "Fundador" (El Árbol Semilla)

4. El Efecto "Cuello de Botella"

¿Por qué es importante esto?

Resumen Técnico: Efectos Fundadores y la Evolución de la Multimodalidad en LLMs Abiertos

1. Planteamiento del Problema

2. Metodología

3. Contribuciones Clave

4. Resultados Principales

5. Significado e Implicaciones

Más como este

From Instructions to Assistance: a Dataset Aligning Instruction Manuals with Assembly Videos for Evaluating Multimodal LLMs

Causal Direct Preference Optimization for Distributionally Robust Generative Recommendation

Graphs RAG at Scale: Beyond Retrieval-Augmented Generation With Labeled Property Graphs and Resource Description Framework for Complex and Unknown Search Spaces

T-MAP: Red-Teaming LLM Agents with Trajectory-aware Evolutionary Search

Visual Exclusivity Attacks: Automatic Multimodal Red Teaming via Agentic Planning