Each language version is independently generated for its own context, not a direct translation.
¡Claro que sí! Imagina que el mundo de la Inteligencia Artificial es como un gigantesco jardín botánico donde crecen millones de plantas (los modelos de lenguaje). Algunos son solo hierbas que hablan (texto), y otros son plantas exóticas que pueden "ver" imágenes y hablar al mismo tiempo (multimodalidad).
Este estudio, hecho por Manuel Cebrian, nos cuenta una historia fascinante sobre cómo estas plantas "que ven" llegaron a los jardines más famosos y organizados (las grandes familias de modelos de código abierto como Llama, Gemma, etc.).
Aquí tienes la explicación sencilla, con sus analogías:
1. El Jardín General vs. Los Jardines Privados
Imagina que en todo el mundo (el "ecosistema" de Hugging Face), la gente ya estaba plantando semillas de plantas que ven imágenes desde hace tiempo. Era común verlas en los rincones del jardín.
Sin embargo, en los jardines privados y famosos (las grandes familias de modelos de lenguaje), durante mucho tiempo (hasta 2024) solo había hierbas que hablaban. De repente, en 2024-2025, ¡bam! De la nada, estos jardines se llenaron de plantas que ven imágenes.
La sorpresa: No fue un crecimiento lento y gradual. Fue como si de repente aparecieran árboles gigantes en un bosque que antes solo tenía arbustos.
2. El Mito de la "Transformación Mágica"
Una idea que muchos tenían era: "Bueno, seguro que los jardineros tomaron una planta que solo habla, le añadieron un poco de magia (ajustes finos) y ¡listo!, ahora ve imágenes".
El estudio dice: ¡No, no es así!
Es como intentar convertir un coche de gasolina en un avión simplemente cambiando el volante. Es muy difícil.
- De cada 1.000 veces que alguien toma un modelo que solo habla y lo "afina" (fine-tuning), solo 2 o 3 veces logra que vea imágenes. Es extremadamente raro.
- La mayoría de las veces, si tomas un modelo de texto y lo ajustas, sigue siendo un modelo de texto.
3. La Teoría del "Fundador" (El Árbol Semilla)
Entonces, ¿cómo aparecieron todas esas plantas que ven imágenes en los jardines famosos?
Aquí entra la idea de los "Fundadores".
Imagina que un jardinero muy experto trae una nueva semilla especial (un modelo que ya sabe ver y hablar) y la planta en el jardín. Esa es la "semilla fundadora".
- Una vez que esa semilla especial está plantada, sus "hijos", "nietos" y "bisnietos" (los modelos derivados) heredan naturalmente la capacidad de ver.
- El estudio muestra que el 94% de las plantas que ven imágenes en estos jardines son descendientes directas de otras plantas que ya veían imágenes.
- Es como si un solo árbol exótico se hubiera multiplicado rápidamente, llenando el bosque de copias de sí mismo, en lugar de que cada árbol se convirtiera en exótico por separado.
4. El Efecto "Cuello de Botella"
El proceso funciona así:
- El Evento Raro: Alguien crea un modelo nuevo desde cero que combina visión y lenguaje (esto es difícil y costoso, como construir un cohete).
- La Explosión: Una vez que ese cohete existe, miles de personas lo copian, lo mejoran y lo adaptan. ¡Y todos siguen siendo cohetes!
- El Resultado: La multimodalidad no llegó a las grandes familias porque todos fueron cambiando sus modelos de texto poco a poco. Llegó porque aparecieron unos pocos "fundadores" especiales y luego todo el mundo se copió de ellos.
¿Por qué es importante esto?
Imagina que quieres que todos los coches del mundo sean eléctricos.
- Lo que pensábamos: Que cada dueño de un coche de gasolina iría poco a poco cambiando piezas hasta tener uno eléctrico.
- Lo que dice el estudio: No. Primero alguien fabrica un coche eléctrico nuevo y perfecto. Luego, miles de talleres empiezan a copiar ese modelo específico. Mientras no haya un "taller" fácil para convertir coches de gasolina en eléctricos, la mayoría seguirá siendo de gasolina, y los eléctricos seguirán siendo copias de los primeros fundadores.
En resumen:
La inteligencia artificial que "ve" no se está convirtiendo lentamente a partir de la que solo "habla". En cambio, aparecen unos pocos modelos "fundadores" que ya saben ver, y luego se multiplican rápidamente dentro de sus propias familias, dejando atrás a los modelos de texto puros. Es una evolución por saltos y copias, no por transformaciones lentas.